東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

R 一変量解析

 単変量解析をざっと。データフレームはBigClass。40人の12歳から17歳までの生徒のデータ。名前、年齢、性別、身長、体重が記録されている。

head(BigClass)

     
   ID  Name   Age Sex Height  Weight
1  1  KATIE   12   F  149.86   43.1
2  2  LOUISE  12   F  154.94   55.8
3  3  JANE    12   F  139.70   33.6
4  4  JACLYN  12   F  167.64   65.8
5  5  LILLIE  12   F  132.08   29.0
6  6  TIM     12   M  152.40   38.1

データフレームやその他オブジェクトの構造を表示するstr()関数と言うのがある。 

str(BigClass)

 
'data.frame':   40 obs. of  6 variables:
 $ ID    : int  1 2 3 4 5 6 7 8 9 10 ...
 $ Name  : Factor w/ 39 levels "ALFRED","ALICE",..: 21 28 16 14 26 38 15 36 4 2 ...
 $ Age   : int  12 12 12 12 12 12 12 12 13 13 ...
 $ Sex   : Factor w/ 2 levels "F","M": 1 1 1 1 1 2 2 2 1 1 ...
 $ Height: num  150 155 140 168 132 ...
 $ Weight: num  43.1 55.8 33.6 65.8 29 38.1 58.1 35.8 50.8 48.5 ...

 

連続値 変数にはヒストグラム、カテゴリカル変数には棒グラフをプロットする。

par(mfrow=c(2,2))
hist(BigClass$Age)
barplot(table(BigClass$Sex),main="Bar Plot of BigClass$Sex", ylab="Frequency", xlab="BigClass$Sex")
hist(BigClass$Height)
hist(BigClass$Weight)

 

table() ⇒ カテゴリカル変数のベクトルを度数に集計する

f:id:High_School_Student:20130408200242j:plain

 連続値 変数には箱ひげ図もプロットする。

par(mfrow=c(1,3))
boxplot(BigClass$Age, main="Age")
boxplot(BigClass$Height, main="Height")
boxplot(BigClass$Weight, main="Weight")

f:id:High_School_Student:20130409082746j:plain

要約統計量

summary(BigClass[3:6])

   
      Age        Sex        Height          Weight     
 Min.   :12.00   F:18   Min.   :129.5   Min.   :29.00  
 1st Qu.:13.00   M:22   1st Qu.:154.3   1st Qu.:41.60  
 Median :14.00          Median :160.0   Median :47.60  
 Mean   :13.97          Mean   :158.9   Mean   :47.63  
 3rd Qu.:15.00          3rd Qu.:165.1   3rd Qu.:52.30  
 Max.   :17.00          Max.   :177.8   Max.   :78.00