東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

R 二変量解析 (X:カテゴリカル、Y:連続値)

 

二変量解析。Xにカテゴリカル、Yに連続値変数。

男女別に体重の比較を行う。

 

前回でも作成したが、男女別の体重ベクトルを作成。

FWeight <- BigClass[BigClass$Sex=="F",6]
MWeight <- BigClass[BigClass$Sex=="M",6]

 

男女別の体重分布を確認するため、ヒストグラム、箱ひげ図を作成。

par(mfrow=c(3,1))
hist(MWeight, ylim=c(0,10), xlim=c(20,80), nclass=12, main="M Weight", xlab="Weight")
hist(FWeight, ylim=c(0,10),xlim=c(20,80), nclass=12, main="F Weight", xlab="Weight")
plot(BigClass$Sex, BigClass$Weight, ylim=c(20,80), horizontal=TRUE)

最後の箱ひげ図は boxplot(BigClass$Weight~BigClass$Sex, ylim=c(20,80), horizontal=TRUE) でも良さそう。

histnclassは、ヒストグラムの幅を調節。

 

以下のidentify()関数を使うと、プロットのデータ点にラベルを付けれるらしい。箱ひげ図からの外れ値に名前を表示させる。プログラムを実行しプロット上でクリック。

identify(BigClass$Weight, BigClass$Sex, BigClass$Name)
f:id:High_School_Student:20130414094304j:plain

箱ひげ図でラベルが”LAW”と切れているが、本当は”LAWRENCE”。修正方法は不明。

 

男女別に要約統計量。by()は、男女別に体重のsummaryを求める関数。summaryの箇所に任意の関数を記載。
by(BigClass$Weight, BigClass$Sex, summary)

BigClass$Sex: F
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  29.00   38.22   45.80   45.79   51.85   65.80 
------------------------------------------------------------- 
BigClass$Sex: M
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  35.80   43.45   47.60   49.14   53.32   78.00 

t 検定を実施。等分散で実行。

t.test(FWeight, MWeight, var.equal=TRUE) 

        Two Sample t-test

data:  FWeight and MWeight 
t = -1.0465, df = 38, p-value = 0.3019
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -9.822711  3.127761 
sample estimates:
mean of x mean of y 
 45.78889  49.13636 

 ”95 percent confidence interval”は、女子の平均身長引く男子の平均身長の信頼区間のようである。

 外れ値に見える”LAWRENCE”を含めようが除こうが、いずれにせよ有意差があるとは言えない。