東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

2013-01-01から1年間の記事一覧

R データフレームのFactor型変数の水準順序の入れ替え方法

R

スマートなやり方かどうかは分からないが、データフレームのFactor型変数の水準順序の入れ替え方法に関するメモ。 季節気温の疑似データを作成。Season=c( rep("春",5), rep("夏",3), rep("秋",4), rep("冬",3) )Temp=c( c(20,21,15,15,21), c(32,33,35), c(…

R データ確認(一変量集計)のための関数1

R

一変量集計や分布、度数のプロットが一度にできないとめんどくさいので、それ用の関数をとりあえず作成。 色々なデータではまだ試していません。 dataCheck1 <- function(Data, ngr=3){ print( "データのヘッド部分, head(Data)" ) print( head(Data) ) prin…

実験計画法 交絡と相関

実験計画法における、因子の交絡関係と相関関係に関して。 実験計画関連の業務ではJMPをよく使う。JMPでは、作成した計画の交絡関係を定量的に把握できる行列が出力される。その交絡関係の出力値と相関係数の関係が不明だったので、ちょっと考えてみた。 ス…

気になっている分布をいくつか

変数yがカウントデータ(y = 0, 1, 2, 3, ….)のときの分布に関していくつか。 Poisson分布http://ja.wikipedia.org/wiki/%E3%83%9D%E3%82%A2%E3%82%BD%E3%83%B3%E5%88%86%E5%B8%83 パラメータλのみによって形状が定まる。 平均と分散は等しいE(y) =λVar(y) …

ランダムフォレスト1

前回の投稿「とりあえず決定木モデルを実行のためのメモ」で、決定木モデルを使ってみた。http://highschoolstudent.hatenablog.com/entry/2013/07/03/193603 これはどんなモデルかと言うならば、目的変数が数値データの場合(回帰木)、その目的変数の平均…

とりあえず決定木モデルを実行のためのメモ

Rでの決定木分析(分類木、回帰木)の実行に関して、こうではないかとのメモを記す。 CARTアルゴリズムによる決定木分析を行うパッケージはrpartとmvpartがある。 mvpartはrpartに機能拡張を加えた上位パッケージとのこと。 2重に読み込んだ場合、以下のメッ…

重回帰と変数選択

重回帰とその変数選択に関するメモ。 RにはF値による検定でのステップワイズ変数選択法はないのでしょうか?AICによる変数選択法である、step() 関数などは見当たるが検定による変数選択は見当たらない。Web検索でもヒットしない。 AICによる変数選択と検定…

ロジット変換に関して

ロジット変換に関して。 割合を目的変数とする厳密な解析では、ロジスティックモデルをあてはめたり、割合の発生率が小さな場合はポアソンモデルをあてはめたりする。目的変数が二項分布やポアソン分布に従うと仮定するからである。 だが、そういった目的変…

とりあえずニューラルネットを使ってみる

今後ニューラルネット(以下、NN)について調べていくが、とりあえず、nnet()関数でモデルを作成してみる。 NNであるが、複雑な非線形モデルと言ってよい。説明変数と目的変数が線形な関係でないとき、線形モデル(重回帰、主成分回帰、PLSなど)ではうまく…

まとめ - 主成分分析、PLS関連

本業でPLSに関してちょっとまとめる必要があるので、計算を主成分分析から始めてたどってみた。 以下、過去記事のまとめ。 主成分分析を計算してみる http://highschoolstudent.hatenablog.com/entry/2013/04/20/101836 主成分分析を、固有値問題、スペクト…

PLSの計算

PLSを手計算し、その後関数での結果と比べてみる。 x1 <- c(0.966,0.207,-0.552,-0.931,0.587,1.55,-0.931,0.587,-1.69,0.207)x2 <- c(0.619,-1.009,-0.358,-0.684,0.944,1.921,0.293,0.293,-1.335,-0.684)x3 <- c(-0.474,-0.474,-1.684,0.735,-0.474,1.849,…

主成分分析とPLS

主成分分析では、以下の手順で解を求めた。合成変数をsとする。行数nの列ベクトルである。s = f_1 x1 + f_2 x2 + … + f_p xp = X ff_1, f_2, …, f_p が各変数に対応する係数である。f = (f_1, f_2, …, f_p)’を行数pの列ベクトルとする。 sの分散(Var(s))を…

主成分分析をNIPALSアルゴリズムで解いてみる

主成分分析とは、合成変数の分散を(ある制限の元)最大化する問題を解くことである。合成変数とは元のデータの各列を説明変数とする線形結合式で、この合成変数の分散が最大になるときの線形結合式の係数が固有ベクトルであり、そのときの合成変数を主成分…

主成分分析と特異値分解

―― 特異値分解 ―― A (n×p)をランクrの行列とする。 A = ULV’ と分解することができる。 ここで、U(n×r)とV(p×r)はそれぞれ列ベクトルが直行する。U’U = V’V = I、I(r×r)は単位行列。 L(r×r)は、正の値を対角要素に取る対角行列となる。L = diag(ψ1…

主成分分析を計算してみる

主成分分析を計算してみる。 x1 <- c(0.966,0.207,-0.552,-0.931,0.587,1.55,-0.931,0.587,-1.69,0.207)x2 <- c(0.619,-1.009,-0.358,-0.684,0.944,1.921,0.293,0.293,-1.335,-0.684)x3 <- c(-0.474,-0.474,-1.684,0.735,-0.474,1.849,-0.474,0.735,-0.474,0…