ノイズ続き
http://q.hatena.ne.jp/1222138124
これはひどい。汚染の上に汚染を重ねた時点でデータとして価値がない。しかも元のアンケートを踏まえて回答すれば、わざと正しい答えを書くか、わざと間違った答えを書くか、という二択になってしまう。別の母集団・別の文脈でアンケートを採っている以上、単純に比較すること自体間違いだよ、と言っても良いかも。
仮説検定の問題として考えてみよう。アンケートの回答者を大別してみると、
- 選択肢の内容を吟味して選ぶ層
- 正答できる自信のある層
- 正答できる自信のない層
- 選択肢の内容を無視して選ぶ層
となる。質問者は「元のアンケートでは自信のない層を排除しようとして、内容を無視して選ぶようにさせてしまった」という論旨らしい。では計算してみようか。
今、明らかなデータは
\ | 自信あり | 自信なし | ランダム |
---|---|---|---|
元 | 〜6% | A | B |
新 | 〜46% | 〜24% | 〜30% |
(A+B〜94%)というものである。
質問者は自信なしの比率が変わらなかったと仮定しているので
\ | 自信あり | 自信なし | ランダム |
---|---|---|---|
元 | 〜6% | 〜24% | 〜70% |
新 | 〜46% | 〜24% | 〜30% |
と1みなしても良いだろう。これを見て母集団が同じと言うのはちょっと度胸が要るなと思う。
ちなみに
\ | 自信あり | 自信なし | ランダム |
---|---|---|---|
元 | 〜6% | ? | ? |
理想 | 〜6% | 〜91% | 〜3% |
というようなデータが取れたなら「元のアンケートでは自信のない層を排除しようとして、内容を無視して選ぶようにさせてしまった」という結論を導いても良いかもね。