目次
はじめに
データ分析者の端くれとして、統計検定2級に挑戦中。
言葉が難解で、日本語の時点で躓いていますので、なるべく簡単な言葉にした用語集をつくりました。
リンク
統計とは何をする学問か
いま自分が何をやろうとしているのか??これを見失うと理由がわからなくなります。
統計分析の目的とは「大量のデータの特徴を、一部のデータから不確実性を考慮しつつ推定し、判断に活かす」
難しいのは”不確実性”のところ。不確実性とは、”バラツキ”とも言い換えられます。
推定した結果がどのくらいあてになりそうか?そこまで分かっていないと、”判断”することができないのです。
統計用語の解説
| 用語 | 仕組み・背景のイメージ | テストでの出題シーン | 他の用語との関連 |
|---|---|---|---|
| 平均 | すべてのデータを足して個数で割った値です。データの中心を表す最も基本的な代表値です。 | データの中心的な傾向を把握する。 | 期待値、偏差の計算。 |
| 偏差 | 各データから平均を引いたズレのことです。全員の偏差を合計すると必ずゼロになります。 | データの散らばりを計算する出発点。 | 分散、標準偏差の基礎。 |
| 分散 | 偏差を2乗したものの平均です。マイナスのズレを2乗でプラスに変え、散らばりを数値化します。 | データの散らばり具合を比較する。 | 標準偏差、共分散。 |
| 標準偏差 | 分散のルートをとった値です。2乗して大きくなった数値を元の単位に戻した、平均的なズレの距離です。 | 正規分布でデータの入る割合を測る。 | 標準化、変動係数、標準誤差。 |
| 変動係数 | 標準偏差を平均で割った値です。単位や桁が違うデータ同士のバラツキを公平に比較するために使います。 | ゾウとネズミの個体差の比較。 | 標準偏差、平均。 |
| 標準化 | 平均を0、分散を1に変換する操作です。平均から標準偏差の何個分ズレているかに直して比較します。 | 単位の違う試験の成績を比べる。 | Zスコア、標準正規分布。 |
| Zスコア | 標準化によって得られた数値のことです。これが1.96を超えると上位2.5%のレアな値と判断できます。 | 特定の値がどれくらい珍しいか判定する。 | 標準化、1.96。 |
| 共分散 | xの偏差とyの偏差を掛け合わせた平均です。2つのデータが同じ方向に動くか、逆かを示します。 | 2つの変数の連動性を調べる。 | 相関係数。 |
| 相関係数 | 共分散をそれぞれの標準偏差で割って、-1から1の間に収めたものです。関係の強さを表します。 | 散布図と数値の組み合わせを選ぶ。 | 共分散、標準偏差、擬相関。 |
| 擬相関 | 第3の変数が原因で、見かけ上の相関が出ている状態です。本当は直接の関係がない関係を指します。 | 偽の関係を見抜く問題。 | 偏相関係数。 |
| 偏相関係数 | 第3の変数の影響を取り除いて計算した相関係数です。純粋な2変数だけの関係性を浮き彫りにします。 | 擬相関を除去して真の関係を見る。 | 相関係数。 |
| 歪度 | 分布の左右のゆがみ具合です。右に裾が長いとプラス、左に長いとマイナスになります。 | 年収分布のような非対称なグラフの評価。 | 正規分布(歪度0)。 |
| 尖度 | 分布の尖り具合と裾の厚さです。正規分布と比べてどれくらい中心に集まり、端っこが重いかを見ます。 | 山の形の特徴を判断する。 | 正規分布。 |
| 期待値 | 確率変数が取る値の平均的な見込み値です。値にその確率をかけてすべて合計して出します。 | くじの期待賞金や二項分布の平均。 | 平均、二項分布。 |
| 二項分布 | 成功か失敗かの2択をn回繰り返す分布です。期待値はnp、分散はnp(1-p)となります。 | コイン投げや出口調査の得票数。 | ベルヌーイ分布、正規近似。 |
| np(1-p) | 二項分布における分散(バラツキ)の公式です。回数、成功率、失敗率を掛けて求めます。 | 成功回数のブレ幅を計算する。 | 二項分布、標準誤差。 |
| ポアソン分布 | 滅多に起きない出来事が一定時間内に起こる回数の分布です。期待値も分散もλ(ラムダ)です。 | 来客数や事故件数の予測。 | 二項分布の近似。 |
| 幾何分布 | 初めて成功するまでにかかる回数の分布です。成功確率が低いほど、期待される回数は増えます。 | 1の目が出るまでサイコロを振る回数。 | 指数分布。 |
| 正規分布 | 左右対称な釣鐘型の分布です。自然界の多くのデータが中心極限定理によってこの形に近づきます。 | 信頼区間の計算や検定の基本。 | 標準正規分布、標準化。 |
| 標準正規分布 | 平均0、分散1の特別な正規分布です。数表(正規分布表)を使って確率を調べられます。 | 1.96などの境界値を確認する。 | Zスコア、標準化。 |
| t分布 | 母分散が不明な時に、代わりに不偏分散を使って推測するための裾の厚い山型の分布です。 | 少数のサンプルから平均を検定する。 | 自由度、不偏分散。 |
| カイ二乗分布 | 標準正規分布の2乗の和が従う分布です。マイナスの値をとらず、右に裾を引く形です。 | 適合度検定、独立性の検定、母分散の検定。 | 自由度、分散。 |
| F分布 | 2つのカイ二乗分布をそれぞれの自由度で割った比の分布です。2つのグループのバラツキを比べます。 | 等分散の検定、分散分析。 | 自由度。 |
| 自由度 | 自由に値を決めていいデータの個数です。平均が先に決まると最後の一人は自動的に決まります。 | 不偏分散の分母(n-1)の理由。 | t分布、カイ二乗分布、不偏分散。 |
| 不偏推定量 | 期待値が母数(本当の正解)に一致する推定用の式です。えこひいきのない公平な式を指します。 | 標本平均や不偏分散の性質。 | 一致推定量。 |
| 一致推定量 | サンプルサイズを増やせば増やすほど、正解にどんどん近づいていく性質を持つ式です。 | サンプルを増やすメリットの理解。 | 不偏推定量、大数の法則。 |
| 不偏分散 | 分散の計算で個数nではなく自由度n-1で割ったものです。サンプルの過小評価を補正します。 | 母集団のバラツキを正確に当てる。 | 自由度、不偏推定量。 |
| 標準誤差 | 推定量の標準偏差のことです。サンプルから計算した平均などがどれくらいブレるかを示します。 | 信頼区間の幅の計算。 | 標準偏差、サンプルサイズ。 |
| 中心極限定理 | 元の分布が何であれ、サンプルサイズが大きければ平均の分布は正規分布に近づくという法則です。 | 大標本の検定で正規分布を使える理由。 | 正規分布、サンプルサイズ。 |
| 大数の法則 | サンプルサイズを増やすほど、標本平均は母平均に確実に近づいていくという法則です。 | 一致推定量の裏付け。 | 一致推定量。 |
| 信頼区間 | 母数が入っていると自信を持って言える範囲です。95%信頼区間は1.96を使って計算します。 | 支持率の調査結果の幅を出す。 | 標準誤差、1.96。 |
| 有意水準 | めったに起きないミラクルと判断する基準の確率です。第一種の過誤を許容する確率でもあります。 | 5%や1%などの判断基準の設定。 | 第一種の過誤、P値。 |
| P値 | 帰無仮説が正しいとした時に、そのデータが出るミラクル度です。有意水準より小さいと棄却します。 | 計算結果から有意差があるか判断。 | 有意水準、ミラクル。 |
| 帰無仮説 | 否定したいとりあえずの前提です。差がない、効果がないと仮定して矛盾を探します。 | 検定のスタート地点。 | 対立仮説、棄却。 |
| 対立仮説 | 本当に証明したい、差があるという主張です。帰無仮説を棄却してこちらを採択します。 | 研究者が言いたい新説の提示。 | 帰無仮説、採択。 |
| 棄却 | 帰無仮説を捨てることです。ミラクルが起きたので前提が間違っていると判断することです。 | 検定の最終結論。 | 採択。 |
| 採択 | 帰無仮説を受け入れることです。ミラクルとは言えず、差があるとは断定できない状態です。 | 有意差なしと判断する。 | 受容。 |
| 第一種の過誤 | 本当は差がないのに、あわてて差があると誤診するミスです。オオカミ少年のミスです。 | 有意水準の設定に関連するリスク。 | 有意水準、α(アルファ)。 |
| 第二種の過誤 | 本当は差があるのに、ぼんやり見逃して差がないとしてしまうミスです。見逃し三振です。 | 検出力の不足。 | β(ベータ)、検出力。 |
| 検出力 | 本当に差がある時に、正しく差があることを見抜くパワーです。1-βで表されます。 | 検定の精度の評価。 | 第二種の過誤。 |
| 適合度検定 | 観測データが理論上の分布(サイコロの目など)に合っているかを調べる検定です。 | 期待度数と観測度数のズレの確認。 | カイ二乗分布。 |
| 独立性の検定 | 2つのカテゴリ(例:性別と支持政党)に関連があるかないかを調べる検定です。 | クロス集計表から関連性を探る。 | カイ二乗分布、自由度。 |
| 期待度数 | もし独立(無関係)だとしたら、そのマス目に入るはずの計算上の人数です。 | 独立性の検定でのズレの計算。 | 観測度数。 |
| 分散分析 | 3つ以上のグループの平均値に差があるかどうかを、分散(変動)の比を使って調べる手法です。 | 肥料A, B, Cで収穫量に差があるか。 | F分布。 |
| 回帰分析 | yをxで説明する式(回帰直線)を作る手法です。y = a + bxの形で表します。 | 売上の予測や要因の特定。 | 決定係数、最小二乗法。 |
| 最小二乗法 | データと回帰直線のズレ(残差)を2乗した合計を最小にするように線を引く方法です。 | 直線の傾きや切片を求める。 | 残差、回帰分析。 |
| 決定係数 | 回帰直線がどれだけデータをうまく説明できているかを示す0から1の指標です。 | モデルの当てはまりの良さの評価。 | 相関係数の2乗。 |
| 自由度調整済み決定係数 | 変数を増やした時の水増しを補正した決定係数です。重回帰分析でモデルを比べる時に使います。 | モデルの選択。 | 決定係数。 |
| 多重共線性 | 説明変数同士の仲が良すぎて(相関が高すぎて)、回帰分析の結果がおかしくなる現象です。 | 似たような変数を入れない注意。 | 相関係数。 |
| 外挿 | データがある範囲の外側まで勝手に予測を広げることです。精度が落ちるため危険です。 | 未来予測の注意点。 | 予測値。 |
リンク
コメント