偏差の積の概念
(2)標準偏差とは
標準偏差は、以下の式で表されますが、これも同様に面積で考えると、図24のようにX1からX6まで6つの点があり、その平均がXであるとき、各点と平均値との差を1辺とした正方形の面積の合計を、サンプル数で割ったもの(平均面積)が分散で、それをルートしたものが標準偏差(平均の一辺の長さ)になります。
図24. 標準偏差の概念
分散も標準偏差も、平均に近いデータが多ければ小さくなり、遠いデータが多いと大きくなります。すなわち、分散や標準偏差の大きさ=データのばらつきの大きさを表しています。また、分散は全データの値が2倍になれば4倍に、標準偏差は2倍になります。
(3)相関係数の大小はどう決まるか
相関係数は、偏差の積和の平均をXの標準偏差とYの標準偏差の積で割るわけですが、なぜ割らなくてはいけないかについての詳細説明はここでは省きますが、XとYのデータのばらつきを標準化するためと考えていただければよいと思います。おおよその概念を図25に示しました。
図25. データの標準化
相関係数の分子は、偏差の積和という説明をしましたが、偏差には符号があります。従って、偏差の積は右上のゾーン①と左下のゾーン③にある点に関しては、積和がプラスになりますが、左上のゾーン②と右下のゾーン④では、積和がマイナスになります。
図26. 相関係数の概念
相関係数が大きいというのは①と③のゾーンにたくさんの点があり、②と④のゾーンにはあまり点がないことです。なぜなら、①と③のゾーンは、偏差の積和(青い線で囲まれた四角形の面積)がプラスになり、この面積の合計が大きいほど相関係数は大きく、一方、②と④のゾーンにおける偏差の積和(赤い線で囲まれた四角形の面積)は、引き算されるので合計面積が小さいほど、相関係数は高くなるわけです。
様々な相関関係
図27と図28は、回帰直線は同じですが、当てはまりの度合いが違うので、相関係数が異なります。相関の高さが高ければ、予測の精度が上がるわけで、どの程度の精度で予測が合っているか(予測誤差)は、分散分析で検定できます。ただし、一般に標本誤差は標本の標準偏差を標本数のルートで割るため、同じような形の分布をしていても標本数が多ければ誤差は少なくなってしまい、実務上はあまり用いません。
図27. 当てはまりがよくない例
図28. 最小二乗法の行列表現(一変数,多変数,多項式) | 高校数学の美しい物語. 当てはまりがよい例
図29のように、②と④のゾーンの点が多く(偏差の積がマイナス)、①と③に少ない時には、相関係数はマイナスになります。また図30のように、①と③の偏差の和と②と④の偏差の和の絶対値が等しくなるときで、各ゾーンにまんべんなく点があるときは無相関(相関がゼロ)ということになります。
図29.
最小二乗法の行列表現(一変数,多変数,多項式) | 高校数学の美しい物語
2020/11/22
2020/12/7
最小二乗法による関数フィッティング(回帰分析)
最小二乗法による関数フィッティング(回帰分析)のためのオンラインツールです。入力データをフィッティングして関数を求め、グラフ表示します。結果データの保存などもできます。登録不要で無料でお使いいただけます。
※利用環境: Internet Explorerには対応していません。Google Chrome、Microsoft Edgeなどのブラウザをご使用ください。スマートフォンでの利用は推奨しません。パソコンでご利用ください。 入力された条件や計算結果などは、外部のサーバーには送信されません。計算はすべて、ご使用のパソコン上で行われます。
使用方法はこちら
使い方
1.入力データ欄で、[データファイル読込]ボタンでデータファイルを読み込むか、データをテキストエリアにコピーします。
2.フィッティング関数でフィッティングしたい関数を選択します。
3.
11
221. 51
40. 99
34. 61
6. 79
10. 78
2. 06
0. 38
39. 75
92. 48
127. 57
190. 90
\(\sum_{i=1}^n \left\{ (x_i-\overline{x})(y_i-\overline{y}) \right\}=331. 27\)
\(\sum_{i=1}^n \left( x_i – \overline{x} \right)^2=550. 67\)
よって、\(a\)は、
& = \frac{331. 27}{550. 67} = 0. 601554
となり、\(a\)を\(b\)の式にも代入すると、
& = 29. 4a \\
& = 29. 4 \times 0. 601554 \\
& = -50. 0675
よって、回帰直線\(y=ax+b\)は、
$$y = 0. 601554x -50. 0675$$
と求まります。
最後にこの直線をグラフ上に描いてみましょう。
すると、
このような青の点線のようになります。
これが、最小二乗法により誤差の合計を最小とした場合の直線です。
お疲れさまでした。
ここでの例題を解いた方法で、色々なデータに対して回帰直線を求めてみましょう。
実際に使うことで、さらに理解が深まるでしょう。
まとめ
最小二乗法とはデータとそれを表現する直線(回帰直線)の誤差を最小にするように直線の係数を決める方法
最小二乗法の式の導出は少し面倒だが、難しいことはやっていないので、分からない場合は読み返そう※分かりにくいところは質問してね! 例題をたくさん解いて、自分のものにしよう