統計学の誤解しやすい基本用語を徹底解説!「標本」「平均値」「偏差」の違いとは?

INDEX

「母数800万のデータから800個の標本を抽出し、平均値を求めた。」

という文章を読んであなたは違和感を覚えますか?実は上記の文章の表現には誤りがあります。

しかし、統計学の観点からどこがどう間違っているのか、あなたは説明できるでしょうか?

統計は私たちの身近にありながら、その基本用語や概念の誤解が日常やビジネスの場でよく見られます。特に「標本と母数」「平均と中央値」「偏差と分散」といった基礎的ながら誤解しやすい統計用語は、正確な理解が必要です。この記事で、標本、平均値、偏差などの違いを詳しく理解し、より正確なデータ分析や解釈を行うための手助けとしましょう!

「標本」「サンプルサイズ」「母集団」「母数」の違いと「母数」「サンプル数」の誤用

まずは統計の基本中の基本用語であり、だからこそ誤解を生みやすい「標本」「サンプルサイズ」「母集団」「母数」の違いについて解説します。

標本手元にあるデータのことサンプルサイズ標本の大きさ(標本として抽出されたデータの個数)母集団標本にない未知のデータも含めたすべてのデータのこと母数母平均や母分散など、母集団の特徴

冒頭の文章がなぜ間違っているかはもうわかりましたね。

「母数」と「母集団」を混合してしまっているのです! 「母数」を「分数の分母」のようなイメージでとらえてしまう間違いは、よく見られます。しかし、実際の母数は母平均や母分散のように母集団が持つ特徴を指す言葉です。複数の意味を持つ表現は指し示すものをあいまいにしてしまう恐れがあるため、統計の場ではなるべく母数という表現は避け、求めたい値そのものを意味する表現を選んだほうが良いかもしれません。

母数と同様に誤用されやすいのが「サンプル数(標本数)」という言葉。サンプルサイズの意味で用いられたり、標本の数で用いられたり、といった曖昧な使い方がされがちです。この言葉も誤解を生まないため、使わないようにするのがベターでしょう。

[blogcard url=”https://data.wingarc.com/kentaro-matsumoto-18792″]

「平均値」「中央値」「最頻値」の違いと色々な「平均値」

続いて取り上げたいのは、データ全体を要約する「代表値」として用いられることの多い「平均値」「中央値」「最頻値」の違いです。

平均値すべてのデータを平らに均(なら)した値中央値すべてのデータを大きい(小さい)順に並べたとき、真ん中に位置する値最頻値最も頻繁に出現する値

どれが標本の特徴を最もよく表しているかを判断して代表値を選ぶことが重要です。なかでも最もポピュラーなのは「平均値」でしょう。「平均値」ときいて私たちが最も思い浮かべやすいのは「算術平均(総加平均)」ですが、平均値にはそのほかにも、幾何平均や調和平均といった種類があります。

算術平均(総加平均)データの総和をデータの個数で割った値。最もポピュラー幾何平均(総乗平均)データをすべてかけ合わせ、データの個数でn乗根を計算した値。変化率や利率の平均値などの計算で用いられる調和平均データの逆数を算術平均し、さらに逆数をとった値。速度や電気抵抗の平均値などの計算で用いられる

ちなみに算術平均、幾何平均、調和平均には「算術平均≧幾何平均≧調和平均」という関係があります。

「偏差」「分散」「標準偏差」の違いと「偏差値」の仕組み

平均から一歩進んだときに見聞きすることの多い 「偏差」「分散」「標準偏差」。それぞれの違いは以下の通りです。

偏差あるデータの値と平均値の差分散偏差を二乗しデータの個数で割ることで、ばらつきの大きさを表しやすくしたもの標準偏差分散の平方根をとった値

このように、データの値と平均値の差を図ることでデータのばらつき具合を把握するためにまず「偏差」がとられます。しかし、偏差だけではマイナスの値を考慮していないため、ばらつきの大きさを正確に把握するために「分散」の概念が生み出されました。分散は偏差を二乗することでマイナスをプラスに変え、すべてのデータを“ばらつき具合”という基準で比較できるようにしているのです。

しかし、二乗することで実際以上にばらつきが大きく見えてしまうという弊害が。そこで、分散の平方根をとった「標準偏差」でより実感に近いばらつき度合いを把握します。

偏差といえば、受験でおなじみの「偏差値」。元のデータが正規分布であると仮定して、平均50・標準偏差10に変換し、平均を標準偏差何個分上回っている、あるいは下回っているかで比較するという考えに基づいています。

なお、平均値や単位が異なる複数のデータのばらつき具合を比較する場合には、標準偏差を平均値で割った「変動係数」を用います。

終わりに

誤解されがちな統計用語について、まとめて解説いたしました。

データで用いるのは数値ですが、だからこそ「言葉」を厳密に用いることが求められます。回帰分析やベイズ統計学などを用いてデータを分析し、予測や確率予想を行いたいという方は多いでしょう。そのはじめの一歩として、まずは基礎的な用語を見直してみてください!

[blogcard url=”https://data.wingarc.com/taimu-kun-057-25101″]

統計に関するさらなる知識を深めたい方に、以下の記事もおすすめ!

進化するAIは仕事をどう変えるのか(第2回) この記事では、AIの進化が私たちの仕事にどのような影響を与えるのかを詳しく解説しています。統計学の知識を持つことで、AIの動作や背後にあるデータの理解がより深まります。

© ウイングアーク1st株式会社