最小二乗法による回帰直線は、測定で得られた数値の組から、想定する(作成する)関数が測定値に対して好ましい・よい近似となるように、残差の二乗和を最小とするような係数を作成します。
まず、回帰直線がどのように作られているのか整理します。
最小二乗法による回帰直線式 ax+b の求め方
n
個のデータ を、直線式 に当てはめて、理論値 が得られたとします。これを、 と定義します。
最小二乗法なので、実際の値と理論値の差の二乗(残差の二乗和)の合計を とすると
に を代入して式を変換することができます。 (1) 式において、 が最小になるような a と b を求めるため、(1) 式を展開します。
が最小になる a と b を求めるためには、(2) 式を を a, b でそれぞれ微分して、 になる a, b を求めます。(導関数を参考にする)
(2) 式を b で微分すると
(2) 式を a で微分し、変数 b に (3) 式を代入すると (4) 式のようになり、整理すると (5) 式が得られます。
(5) 式は、分子が総和を表し、分母が(x の)偏差平方和を表します。具体的には、それぞれ (6) 式 (7) 式のとおりです。
および は、平均を表します。平均値は のように表すことも可能です。最後に (6) (7) 式を (5) 式の分子と分母に代入すると (8) 式から a を求めることができるようになりました。
a の値を求める式ができたので、b の値を求める式を用意します。(2) 式を b で微分した式を整理するだけです。a の値を求める (8) 式は、変数 b を含まないため、先に求めることができます。なので、b の値は変数 a を含む式でも、問題ありません。
よって、(8) 式と (9) 式から、a と b の値を求めることができます。
回帰直線式のテスト
次の組について考えます。ある試料を約 10mg 刻みの質量で分析すると、次のような信号強度(分析結果)が得られた組み合わせデータ n=6
(6つの検体数)です。ここでは、仮に x = 信号強度
で y = 試料量
としてみます。
試料量 | 信号強度 |
---|---|
19.02mg | 13,439 |
30.97mg | 19,398 |
39.57mg | 23,862 |
50.39mg | 29,554 |
61.13mg | 35,271 |
69.86mg | 39,975 |
Excel をつかって、ざっと計算してみると になりました。一応 Excel の回帰直線を表示させてみると、計算結果が自分で計算した結果と一致しているのもわかります。
補足すると、Excel の近似曲線で自動的に算出した回帰直線式と比較しています。
通常の回帰式は横軸に試料量、縦軸に信号強度をおきます。バラつきを持つ信号強度を y におくことで、その残差を最小にします。 2
回帰直線式の応用
テストで作成した回帰直線から、未知の信号強度の試料量を求めてみます。
試料量 | 信号強度 |
---|---|
??.??mg | 30,162 |
式は次のようになります。
よって 未知の試料量は 51.36mg
の信号強度だったんではないかな、と考えることができます。
サンプル
テストで作成した Excel データを公開しています。
参考
- 七誌の開発日記 - はてなブログで数式を書く
- 七誌の開発日記 - Markdown+Mathからはてなブログへ
- KATEX - Misc Supported Functions
- MathJax - Supported TeX/LaTeX commands
- 作者:E. クライツィグ
- 発売日: 2003/12/01
- メディア: 単行本
Excelで学ぶ多変量解析入門−Excel2013/2010対応版−
- 作者:菅 民郎
- 発売日: 2013/04/19
- メディア: 単行本(ソフトカバー)