ノイズ続き

http://q.hatena.ne.jp/1222138124
これはひどい。汚染の上に汚染を重ねた時点でデータとして価値がない。しかも元のアンケートを踏まえて回答すれば、わざと正しい答えを書くか、わざと間違った答えを書くか、という二択になってしまう。別の母集団・別の文脈でアンケートを採っている以上、単純に比較すること自体間違いだよ、と言っても良いかも。

仮説検定の問題として考えてみよう。アンケートの回答者を大別してみると、

  • 選択肢の内容を吟味して選ぶ層
    • 正答できる自信のある層
    • 正答できる自信のない層
  • 選択肢の内容を無視して選ぶ層

となる。質問者は「元のアンケートでは自信のない層を排除しようとして、内容を無視して選ぶようにさせてしまった」という論旨らしい。では計算してみようか。
今、明らかなデータは

自信あり 自信なし ランダム
〜6% A B
〜46% 〜24% 〜30%

(A+B〜94%)というものである。
質問者は自信なしの比率が変わらなかったと仮定しているので

自信あり 自信なし ランダム
〜6% 〜24% 〜70%
〜46% 〜24% 〜30%

と1みなしても良いだろう。これを見て母集団が同じと言うのはちょっと度胸が要るなと思う。
ちなみに

自信あり 自信なし ランダム
〜6% ? ?
理想 〜6% 〜91% 〜3%

というようなデータが取れたなら「元のアンケートでは自信のない層を排除しようとして、内容を無視して選ぶようにさせてしまった」という結論を導いても良いかもね。