東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

R 二変量解析 (X:連続値、Y:連続値)

 二変量解析。X、Y共に連続値変数。データフレームは引き続きBigClass

 

Xを身長、Yを体重とし、回帰分析を実行。
slr_result <- lm(BigClass$Weight~BigClass$Height)
summary(slr_result)

Call:
lm(formula = BigClass$Weight ~ BigClass$Height)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2882  -5.8444  -0.9061   3.6080  17.8174 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)     -57.7613    17.0253  -3.393  0.00163 ** 
BigClass$Height   0.6634     0.1069   6.204 2.99e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 7.195 on 38 degrees of freedom
Multiple R-squared: 0.5032,     Adjusted R-squared: 0.4901 
F-statistic: 38.49 on 1 and 38 DF,  p-value: 2.988e-07

Residual Standard Errorとは、 誤差の標準偏差(RMSE)。

 

散布図を描き、推定した単回帰モデルを重ね合わせる。

plot(BigClass$Height, BigClass$Weight, xlab="Height", ylab="Weight" ,main="Height vs. Weight")
abline(slr_result)

 f:id:High_School_Student:20130411191952j:plain

 プロットを男女別に色分けしてみる。matplotとかmatpointsというのを使い重ね合わせで作図しないといけないらしく、やや複雑。

 

男女それぞれに、身長と体重のベクトルを作成。
FHeight <- BigClass[BigClass$Sex=="F",5]
FWeight <- BigClass[BigClass$Sex=="F",6]
MHeight <- BigClass[BigClass$Sex=="M",5]
MWeight <- BigClass[BigClass$Sex=="M",6]

matplot(c(120,190), c(25,85), xlab="Height", ylab="Weight", ,main="Height vs. Weight by Sex")
matpoints(FHeight, FWeight, pch="F", col="red")
matpoints(MHeight, MWeight, pch="M", col="blue")

 f:id:High_School_Student:20130411192612j:plain

フレーム内の右上と左下に”1”とプロットされているが、何かは不明。

 

男女別に回帰分析。
F_slr_result <- lm(FWeight~FHeight)
M_slr_result <- lm(MWeight~MHeight)

推定したモデルをプロットに重ね合わせる。
abline(F_slr_result, col="red")
abline(M_slr_result, col="blue")

 f:id:High_School_Student:20130411193348j:plain

女子の結果。
summary(F_slr_result)

Call:
lm(formula = FWeight ~ FHeight)

Residuals:
     Min       1Q   Median       3Q      Max 
-12.2616  -6.0715   0.9846   6.3035   9.7704 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -86.0984    30.3978  -2.832   0.0120 *  
FHeight       0.8528     0.1962   4.346   0.0005 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 7.422 on 16 degrees of freedom
Multiple R-squared: 0.5414,     Adjusted R-squared: 0.5127 
F-statistic: 18.89 on 1 and 16 DF,  p-value: 0.0005004 

 男子の結果。
summary(M_slr_result)

Call:
lm(formula = MWeight ~ MHeight)

Residuals:
   Min     1Q Median     3Q    Max 
-7.577 -4.940 -2.394  3.157 19.455 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -49.5874    22.9007  -2.165 0.042628 *  
MHeight       0.6082     0.1408   4.320 0.000333 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 7.06 on 20 degrees of freedom
Multiple R-squared: 0.4827,     Adjusted R-squared: 0.4569 
F-statistic: 18.66 on 1 and 20 DF,  p-value: 0.0003327