読者です 読者をやめる 読者になる 読者になる

東京に棲む日々

データ分析、統計、ITを勉強中。未だ世に出ず。

実験計画法 交絡と相関

実験計画法における、因子の交絡関係と相関関係に関して。

実験計画関連の業務ではJMPをよく使う。JMPでは、作成した計画の交絡関係を定量的に把握できる行列が出力される。
その交絡関係の出力値と相関係数の関係が不明だったので、ちょっと考えてみた。


スクリーニングのための実験計画は、実験回数を少数に絞りつつ、沢山の因子の中から応答に影響を与える少数の因子を発見することを目的としている。

スクリーニングのための実験計画では、高次項(交互作用項、2次効果項、またはそれ以上)の存在を無視し、低次の項(主効果、交互作用効果項)のみをモデルに加え、これらと応答の関係を把握する。

実験計画法では、線形モデル(重回帰、ANOVA)をあてはめ因子と応答の関係を把握する。

 

線形モデル:

f:id:High_School_Student:20130914164644j:plain

 各ベクトル、行列のサイズは以下。

 f:id:High_School_Student:20130914164847j:plain

Xは計画行列と呼ばれ、各列が変数(主効果、交互作用効果、2次効果)。通常、2次効果まで含め、変数の数がp。

f:id:High_School_Student:20130914165047j:plain

nはデータの行数(実験数)。

βはパラメータベクトル。

 

p変数の内、モデルに含める変数の数をr(r < p)、それ以外の変数の数をp – rとする。

スクリーニング実験なので、モデルに含める変数は低次の項、それ以外の変数は高次の項で構成される。

モデルに含める変数で構成される行列とそのサイズ。
f:id:High_School_Student:20130914165333j:plain

それ以外の変数の行列とそのサイズ。

f:id:High_School_Student:20130914165412j:plain

f:id:High_School_Student:20130914165440j:plain

と表記する。

モデル:

f:id:High_School_Student:20130914165624j:plain

パラメータベクトルのサイズは以下。

f:id:High_School_Student:20130914165752j:plain

 

実験データに実際にあてはめるモデルはモデルに含める変数で構成されたもの。

f:id:High_School_Student:20130914165906j:plain

最小二乗法による推定値は以下になる。

f:id:High_School_Student:20130914170035j:plain

 

この推定値の期待値を計算する。

f:id:High_School_Student:20130914170257j:plain

応答の期待値(E(Y))は、モデルに含めた変数から構成されるものからだけではなく、モデルに含めなかった変数も含まれる。要するに、真のモデルは①であるが、スクリーニングを目的とした実験なので、あてはめに用いるモデルは②といったイメージである。

f:id:High_School_Student:20130914170502j:plain

 

上の計算より、

f:id:High_School_Student:20130914170625j:plain

があてはめに用いたモデルパラメータへの推定値にバイアスを与えている項となる。

 

あてはめに用いたモデルパラメータ推定値が、モデルに含めなかった項から受けるバイアスと考えることができる。

f:id:High_School_Student:20130914170748j:plain

と置く。
サイズは以下。

f:id:High_School_Student:20130914170859j:plain

よって、本当はモデルに含めていない変数が応答へ影響があった場合(β2の要素が0でない場合)、あてはめに用いたモデルパラメータ推定値(β1)は、β2の影響のいくらかの割合をバイアスとして受け取っていることになる。
その影響のいくらかの割合を定量的に表すのが、行列Aとなる。

Aはモデルに含める変数とそれ以外の変数の交絡関係の度合いを定量的に表す行列となる。

ここまでは、以下の文献に取り上げられている。

Optimal Design of Experiments: A Case Study Approach

Optimal Design of Experiments: A Case Study Approach

 


この行列は、相関係数行列と似ているようで異なる。

重回帰モデルは、変数間の相関が強いデータにあてはめを行うと多重共線性の問題が発生し、パラメータ推定値が不安定になり、応答と因子間の関係把握という実験計画法の目的を達成することができない。
よって、因子間に相関関係がないか、もしくは小さく押さえられているかなどの確認が必要となる。

p個の各変数が標準化(平均0、分散1)されている場合、因子の変数で構成される行列Xの相関係数行列は以下になる。

f:id:High_School_Student:20130914171206j:plain

相関係数行列Rのサイズは以下。

f:id:High_School_Student:20130914171322j:plain


ただし実験計画法では通常、各変数は平均0に中心化されているが、分散は1となっていない。
各変数は -1、0や1の水準を取り、分散は1にならない。
平均は0であるが、分散は1でない場合の相関係数行列は以下。

f:id:High_School_Student:20130914171439j:plain

Dは、p個の変数の分散を対角要素に持つ対角行列である。

f:id:High_School_Student:20130914171605j:plain

 

f:id:High_School_Student:20130914171711j:plain
と、モデルに含める変数と、それ以外の変数の行列に分割する。

Dも、rまでとr+1からを、2つの対角行列と分割する。

f:id:High_School_Student:20130914171832j:plain

サイズは以下。

f:id:High_School_Student:20130914171956j:plain

 

f:id:High_School_Student:20130914172050j:plain

 

右上の行列に注目し、Bと置く。

f:id:High_School_Student:20130914172209j:plain

サイズはAと同じ。

f:id:High_School_Student:20130914172315j:plain

Bは、変数間の相関係数の、モデルに含めた部分とそれ以外の変数の相関係数に対応する部分。

f:id:High_School_Student:20130914172446j:plain

Aは、モデルに含める変数の行列掛け算の逆行列部分がややこしそうであるが、実験計画法による計画では通常、モデルに含める変数間に相関は存在しない(最適計画で無理に作った計画や殆直行計画は別)。

よって、相関がない場合、

f:id:High_School_Student:20130914172600j:plain

は各変数の各要素の2乗和を対角要素にとる対角行列となる。

f:id:High_School_Student:20130914172752j:plain

は、第i変数(n行)の2乗和。


f:id:High_School_Student:20130914172902j:plain

 

A、B共にサイズはr×(p - r)。これのs行t列の箇所のAとBの値を考える。要するにモデルに含めた変数のs番目とそれ以外の変数のt番目(モデルに含めたものの最初から数えるとr+t番目)の関係ということになる。


Aのs行t列の要素。
f:id:High_School_Student:20130914173029j:plain

 

Bのs行t列の要素。

f:id:High_School_Student:20130914173145j:plain

 

f:id:High_School_Student:20130914173238j:plain

は、変数sの2乗和で、s含めすべての変数は平均0に中心化が行われているので、

f:id:High_School_Student:20130914173404j:plain

となる。

 

f:id:High_School_Student:20130914173515j:plain

となる場合、

 f:id:High_School_Student:20130914173743j:plain

とs番目の変数とt番目の変数の分散が等しいとなる。

 

よって、行列AとBの要素が一致するパターンは、以下。

 f:id:High_School_Student:20130914173927j:plain

① ※が0かどうか。0であれば共に0となる

② ※が0でない場合、変数sとtの分散が同じかどうか。同じであれば一致


因子の変数は平均が0に中心化されている、モデルに含める変数間の相関は0としているので、そうでない場合(最適計画を用いるとそういった場合が考えられる)は、もっと関係はややこしくなると思われる。