東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

2015-01-01から1年間の記事一覧

Stackingに関して(2)

前回の続き。 highschoolstudent.hatenablog.com サンプルデータの作成。あまり細かいことは考えず適当なパラメータ設定で適当に作成。 library(MASS) # 乱数の作成(多変量正規分布) library(glmnet) # Ridge回帰 library(lme4) # 混合モデル library(latt…

Stackingに関して (1)

予測モデルのコンペで使われているStackingという手法に関して。 モデルをEnsembleしまくって、マルチステージモデルにして予測精度を高めるときに使われる手法とのこと。 実務家な私も、業務でマルチステージモデル(2ステージ)を組む必要があったので、その…

単なるSQLメモ

SQL

このようなSampleデータがあったとする。 Group別に、時間(Min)が最大となる行を取り出したい。 クエリー実行後。 SELECT T1.*FROM Sample T1INNER JOIN( SELECT Group, MAX(Min) AS MAX_Min FROM Sample GROUP BY Group) T2 ON T1.Group = T2.Group AND T…

モデル評価基準 追加 - リフトチャートに関して2 - R{ROCR}

highschoolstudent.hatenablog.com highschoolstudent.hatenablog.com 上2つの記事に関連した追加。 そもそもリフトチャートと呼ばれるものは定義があいまいなようで、人によって使っているものが細かく違ったりする。 基本的に似たようなものであるのだが、…

Gradient Boosting Treeを使ってみる - R{gbm} (Part.2)

前回に続き、いくつかの変数変換を試してみる。 <a href="http://highschoolstudent.hatenablog.com/entry/2015/06/27/144141" data-mce-href="http://highschoolstudent.hatenablog.com/entry/2015/06/27/144141">Gradient Boosting Treeを使ってみる - R{gbm} (Part.1) - 東京に棲む日々</a>highschoolstudent.hatenablog.com Partial Dependence Plotで気づいたこと…

Gradient Boosting Treeを使ってみる - R{gbm} (Part.1)

予測モデリングのコンペで良く使われるらしいGBMを業務で使うことになったので、その使い方メモ。 Rのbgmを使う。 理論的なことは↓をじっくりといつか振り返ることにして、とりあえず使ってみる。Ridgeway(2012), Generalized Boosted Models: A guide to th…

モデル評価基準 追加 - リフトチャートに関して1 - R{ROCR}

前回の「モデル評価基準 - ROCに関して - R{ROCR}」に関する追加。 モデル評価基準 - ROCに関して - R{ROCR} - 東京に棲む日々highschoolstudent.hatenablog.com リフトチャート/Lift Chartを描いてみる。 今回書く形式のリフトチャートは、累積反応曲線/Cum…

モデル評価基準 - ROCに関して - R{ROCR}

モデル評価をROCを用いて行うと仮定した場合の、考察とメモ。 RのROCRパッケージを使用。 混同行列(Confusion Matrix)の復習。 こんなデータがあったとする。 pred1、pred2はそれぞれ、モデル1、モデル2による予測値。observedは実測値。n=19で、Prob(obse…

GLMMを勉強してみる。 - R glmmML

GLMM(リンク関数=ロジスティック関数、分布=二項分布)を勉強してみる。RのglmmML使用。 久保(2012) の7章を参考。 データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学) 作者: 久保拓弥 出版社/メーカー…

多項ロジット(Multinomial Logit), R - mlogit 使用メモ

Rのmlogitパッケージで多項ロジット(Multinomial Logit)を使用する際のメモ。 まず、用語の整理。参考文献(A) p.8より。-------------------------A model with only individual specific variables is sometimes called a multinomial logit (多項ロジッ…

リッジ/Ridge回帰、Lasso回帰、Elastic Net (R - glmnet)

リッジ/Ridge回帰、Lasso回帰、Elastic Net に関して。 まず、モデルの複雑性とオーバーフィッティングに関して復習メモ。 複雑なモデル: バイアス(Bias)が小さく、バリアンス(Variance)が大きいシンプルなモデル: バイアスが大きく、バリアンスが小さい …