カテゴリー変数
カテゴリー変数は、データをスコアリングするための定性的な方法を表しています(つまり、カテゴリーやグループのメンバーシップを表しています)。 回帰分析の独立変数や、ロジスティック回帰やプロビット回帰の従属変数として含めることができますが、データを分析するためには、定量的なデータに変換する必要があります。 そのためには、コーディングシステムを使用します。 分析は、g -1(gはグループの数)だけがコード化されるように行われます。 これにより、冗長性を最小限に抑えつつ、完全なデータセットを表現することができます。例えば、性別をコーディングする場合(g=2:男性と女性)、女性だけをコーディングすると、残った全員が必然的に男性になります。
回帰におけるカテゴリカル変数の分析で一般的に使用される主なコーディング システムは、ダミー コーディング、エフェクト コーディング、コントラスト コーディングの 3 つです。 回帰式は、Y = bX + aの形をしており、bは傾きであり、説明変数に経験的に割り当てられた重みを与え、Xは説明変数、aはY切片であり、これらの値は使用するコーディングシステムに応じて異なる意味を持ちます。 コーディングシステムの選択は,F統計やR2統計には影響しない.
Dummy codingEdit
Dummy codingは、対照群や比較群がある場合に使用します。 つまり、aは対照群の平均値、bは実験群の平均値と対照群の平均値の差です。 適切な対照群を特定するためには、次の3つの基準を満たすことが提案されています。すなわち、そのグループは確立されたグループであること(例えば、「その他」のカテゴリーであってはならない)、そのグループを比較対象として選択する論理的な理由があること(例えば、そのグループは従属変数で最も高いスコアを出すと予想される)、そして最後に、そのグループのサンプルサイズは実質的なものであり、他のグループに比べて小さくないことです。
ダミーコーディングでは、基準群は各コード変数に対して0の値が割り当てられ、基準群と比較対象となるグループは指定されたコード変数に対して1の値が割り当てられ、他のすべてのグループはその特定のコード変数に対して0が割り当てられます。
b値は、実験群が対照群に対して比較されているように解釈されるべきです。
b値は、実験グループが対照グループに対して比較されているように解釈されるべきです。したがって、負のb値を得ることは、実験グループが従属変数において対照グループよりも低いスコアを得たことを意味します。 このことを説明するために、いくつかの国籍の人たちの楽観主義を測定していて、フランス人が有用なコントロールとして機能すると決めたとします。 イタリア人と比較して、負のb値を観測した場合、イタリア人は平均して楽観主義のスコアが低いことを示唆しています。
次の表は、フランス人を対照群とし、C1、C2、C3をそれぞれイタリア人、ドイツ人、その他(フランス人でもイタリア人でもドイツ人でもない)のコードとしたダミーコーディングの例です。
国籍 | C1 | C2 | C3td |
フランス人 | 0 | 0 | |
イタリア人 | 1 | 0 | 0 |
ドイツ人 | 0 | 1 | 0 |
その他 | 0 | 0 | 1 |
Effects codingEdit
Effects coding systemでは。 あるグループと他のすべてのグループを比較してデータを分析します。 ダミーコードとは異なり、対照群はありません。 むしろ、すべてのグループを合わせた平均値(aは大平均)で比較されます。
効果のコーディングには、加重または非加重があります。 重み付けされたEffects codingは、各変数のサンプルサイズを考慮して、重み付けされた大平均を計算するだけです。 これは、サンプルが対象となる母集団を代表している場合に最も適しています。 非加重効果コーディングは、サンプルサイズの違いが偶発的な要因の結果である場合に最も適しています。
効果コーディングでは、ダミーコーディングと同様に、対象となるグループを1でコーディングします。 主な違いは、最も関心のないグループに-1をコーディングすることです。 引き続きg-1のコーディングスキームを使用するので、実際にはデータが得られないのは-1にコーディングされたグループであり、したがってそのグループには最も関心がないという事実になります。
b値は、実験グループがすべてのグループを合わせた平均値 (または、加重効果コーディングの場合は加重総平均値) と比較されているように解釈する必要があります。 したがって、b値が負の値になると、コード化されたグループは従属変数の全グループの平均値よりも低いスコアを得たことになります。
次の表は、「その他」を「最も関心のないグループ」とした効果コーディングの例です。
国籍 | C1 | C2 | C3 |
フランス人 | 0 | 1 | |
イタリア人 | 1 | 0 | |
ドイツ人 | 0 | 1 | 0 |
その他 | -1 | -1 |
Contrast codingEdit
Contrast coding systemは、研究者が特定の質問を直接することを可能にします。 コーディングシステムが比較を決定するのではなく(例:ダミーコーディングのようにコントロールグループに対して、またはエフェクトコーディングのようにすべてのグループに対して)、特定の研究課題に合わせて独自の比較をデザインすることができます。 このようにして作られた仮説は、一般的に先行する理論や研究に基づいています。 まず、2つのグループの間に大きな差があるとする中心仮説があり、次に、それぞれのグループの中ではグループ間の差は小さいとする第2仮説があります。
先験的に焦点を当てた仮説により、コントラスト・コーディングは、より指向性の低い以前のコーディング・システムと比較して、統計的検定の力を高めることができるかもしれません。 直交または非直交のいずれかの係数値を選択するかどうかは研究者の裁量に任されているANOVAで使用される場合とは異なり、回帰では、対照的なコーディングで割り当てられた係数値が直交であることが必須となります。 さらに、回帰では、係数値は分数または10進法でなければなりません。
コントラスト コードの構築は、次の 3 つのルールによって制限されています:
- 各コード変数ごとのコントラスト係数の合計はゼロに等しくなければなりません。
ルール2に違反すると、正確なR2とFの値が得られ、有意差があるかどうかについて同じ結論に達することを示しますが、bの値を平均差として解釈することはできなくなります。 係数は、我々の先験的な仮説を説明するために選ばれました。 仮説1: フランス人とイタリア人は、ドイツ人よりも楽観主義のスコアが高い (フランス人 = +0.33, イタリア人 = +0.33, ドイツ人 = -0.66)。 このことは、フランス人とイタリア人には同じ係数を、ドイツ人には異なる係数を割り当てることで示されます。 割り当てられた符号は、関係の方向性を示しています(したがって、ドイツ人に負の符号を与えることは、仮説に基づく楽観主義スコアが低いことを示しています)。 仮説2:フランス人とイタリア人は、楽観主義スコアに差があると予想される(フランス人=+0.50、イタリア人=-0.50、ドイツ人=0)。 ここで、ドイツ人に0の値を割り当てることは、この仮説の分析にドイツ人が含まれていないことを示しています。
国籍 | C1 | C2 |
仏語 | +0.33 | +0.50 |
イタリア人 | +0.33 | -0.50 |
ドイツ語 | -0.66 | 0 |
Nonsense codingEdit
Nonsense codingは、これまでのコーディングシステムで見られた「0」「1」「-1」の代わりに任意の値を使用する場合に発生します。
エンベッディング
エンベッディングとは、カテゴリー値を高次元の実数値 (複素数値の場合もあります) のベクトル空間にコード化したもので、通常、「類似した」値には「類似した」ベクトルが割り当てられるように、あるいは、そのベクトルがそれぞれのアプリケーションにとって有用であるような他の種類の基準に基づいて行われます。
相互作用 編集
相互作用は、3 つ以上の変数間の関係を考慮するときに発生する可能性があり、2 つの変数が 3 つ目の変数に与える影響が同時に相加的ではない状況を表します。
カテゴリー変数によるカテゴリー変数の相互作用 編集
このタイプの相互作用は、2つのカテゴリー変数がある場合に発生します。 このタイプの相互作用を調べるには、研究者の仮説に最も適切に対応するシステムを使用してコーディングします。 このコードの積が交互作用を表します。
連続変数とカテゴリー変数の交互作用
単純勾配分析は、回帰で使用される一般的な事後検定で、交互作用を分析するために使用される ANOVA の単純効果分析と似ています。 この検定では、他の独立変数の特定の値における一方の独立変数の単純勾配を調べています。 このような検定は、連続変数での使用に限らず、独立変数がカテゴリー的な場合にも採用できます。 データの名目的な性質のため、連続変数の場合のように相互作用を調べるために単純に値を選ぶことはできません(すなわち、連続変数の場合、平均より1標準偏差上、平均、平均より1標準偏差下を割り当てて、高、中、低レベルでデータを分析することができます)。 カテゴリーの場合は、各グループに単純回帰式を用いて、単純な傾きを調べます。 単純スロープ分析では、データをより解釈しやすくするために、変数を標準化または中心化するのが一般的ですが、カテゴリー変数は決して標準化または中心化してはいけません。 このテストは、すべてのコーディングシステムで使用することができます
。