2017.01.18

アンケートってどれくらいの規模が有効なの?

しおん

こんにちは。りけぷらのしおんです。

 

授業などの課題で、皆さんはアンケートを取ることはないでしょうか。

僕の場合も去年あたり英語の課題で、アンケート調査を行なって発表、ということを行いました。

 

そのときは大学近辺で最もうまいラーメン屋はどこか、と理工学部の学内に限定して答えてもらいました。

100人ほどの回答が集まったのですが、果たしてこの100という数字、どれだけ妥当なのでしょうか。

 

直感的には理工学部の生徒が100人だったらアンケート結果は妥当ですし、理工学部の生徒が百万人だったら、実際の母集団の10000分の1しか結果が集まってないので、結果は信頼できなさそうです。

 

ここでは一万人と仮定して話を進めて行きましょう。

ラーメン屋の得点なので、「母集団の平均とアンケートを行った百人の平均がどの程度一致しているのか?」ってのが知りたい情報ですよね

 

ここで中心極限定理といって、

母平均がμ、母標準偏差σの母集団から無作為抽出するとき、nが十分大きいとき標本平均mは平均μ、分散σ^2/nの正規分布に近似できる。

という定理があります[1]

母集団の分布の裾が |x|−α−1(0<α<2)のべき乗で減衰する場合を除いて、これは母集団がどんな分布に従っていても成立するようです[1]

 

ここでnが十分大きいというのは、ソースによると30であるそうです。

逆に30未満であれば母集団の分散が不偏分散と仮定して、t検定を使います[2]

この30の妥当性についてはまた別の機会に評価しようと思います。

 

ということで標本平均mを平均μ、分散σ^2/nの正規分布に近似します。

 

ここで信頼区間というのを考えます。標本平均が正規分布にどの程度の確率基準で、どの範囲に収まっているかを示します。

たとえば95%の確率基準で考えると、標本平均m

の区間に収まっています。これは以下のような正規分布の面積において、95%を含む区間に対応してます。

これを母平均について変形します

そして信頼区間をCIとおくと、

であり、これをnについてなおすと、

となります。

 

具体的に求めてみましょう。ラーメン屋の得点の点数を5点満点とし、95%の信頼度で、誤差が±0.2点におさまるのに必要なnはいくつか。分散を1とする

 

誤差の区間が0.4点であるので、信頼区間のCI0.4です。

式に代入すると

となりました。ということで、アンケートの人数100における5点満点のテストは95%の確率で誤差が±0.2点におさまるということが分かりました。

 

でもこれって5点に対しての0.4点なので、8%も誤差があるということなので結構誤差がありますね(´・ω・`)

 

ということで!きちんと誤差が求められたということで今回は筆を収めます。

読んでくれてありがとうございました!

 

 

 

ネットにはアンケートに必要な母集団の数を自動で計算してくれるソフトが存在するようなので、ここに紹介しておきます。https://help.surveymonkey.com/articles/ja/kb/How-many-respondents-do-I-need

 

[1]
https://ja.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%A5%B5%E9%99%90%E5%AE%9A%E7%90%86

しおん

理系を身近に感じられるような記事をめざしてます!よろしくお願いします。(`・ω・´)

この連載の記事

連載コラム一覧へ

おすすめ記事

記事一覧へ

Follow us

理系+では、理系分野に興味がある人に向けて様々な情報を日々発信しています。

最新情報はSNSアカウント又はメルマガにて受け取ることが出来ます。