T.定量的データの解析

 1.単回帰分析

  1.1  データ
   自然渋滞に巻き込まれることは日常経験することですが、出発時刻をかえた時に到着時刻はどのように変化するので
  しょうか。
  次の、120Kmを走行した際の出発時刻と到着時刻のデータを解析して、
   (1)出発時刻と到着時刻の関係を定量的に示す方法
   (2)到着時刻の予測式を見出す方法             を考えてみましょう。
  Excelに入っている分析ツールを使います。

 出発時刻と到着時刻のデータです。
      時刻表示の場合                            シリアル表示の場合

月日 出発時間 到着時間
6月26日 5:45 8:20
7月3日 5:50 8:25
7月10日 5:50 8:54
7月15日 5:50 8:35
7月18日 5:50 9:10
8月22日 6:50 9:45
9月4日 5:50 8:25
9月8日 5:46 8:30
9月12日 5:20 7:55
9月15日 6:44 9:05
9月25日 7:15 10:35
9月30日 6:35 9:25
10月6日 6:40 9:39
11月3日 5:20 7:35
11月5日 5:37 8:20
11月11日 6:05 9:05
11月14日 5:10 7:40

月日 出発時間 到着時間
6月26日 5.75 8.33
7月3日 5.83 8.42
7月10日 5.83 8.90
7月15日 5.83 8.58
7月18日 5.83 9.17
8月22日 6.83 9.75
9月4日 5.83 8.42
9月8日 5.77 8.50
9月12日 5.33 7.92
9月15日 6.73 9.08
9月25日 7.25 10.58
9月30日 6.58 9.42
10月6日 6.67 9.65
11月3日 5.33 7.58
11月5日 5.62 8.33
11月11日 6.08 9.08
11月14日 5.17 7.67

予測データ

11月24日 5:40 8:02

11月24日 5.67 8.03

時刻表示のままでも計算は可能ですが、今回の予測値の計算は、経過時間に変換して扱いますので、最初に
 シリアル値×24として、数値表示に換えて表示しています。この後は全てシリアル値を使用して計算を進めます。

 
 1.2 散布図
   数値の関係を見るにはグラフにして見ることが第1歩です。さらに、二つの数値の関係を見るには散布図が最適です。

 


出発時刻と到着時刻の関係を表しています。このような二つの数値の関係を「相関」といい、この図のように
点が直線的に存在している状態を「相関が有る」といいます。
そして、右肩上がりになっている場合「正の相関」反対に
下がっている場合を「負の相関」がある、といいます。

色々な値を取る可能性のある数値を変数と言い、お互いに関係を持っている変数について、原因となるものを説明変数、結果となるものを被説明変数といいます。
この場合、出発時刻が説明変数、到着時刻が被説明変数です。






1.3 相関係数
   散布図で相関関係の状態を見て、さらに相関関係の強さの度合いを「相関係数」で見ます。
  相関係数はExcel のツールで簡単に計算できます。 

出発時刻 到着時刻
出発時刻 1
到着時刻 0.97 1

 *相関係数は 0〜1の間の値を取り、1に近いほど二つの数値の相関関係は強いことになります。
     相関が有るかないかの一般的な判断基準としては
       0.9以上    非常に強い相関
       0.7〜0.9  強い相関
       0.5〜0.7  弱い相関
       0.5以下    非常に弱い相関 :相関なし    と考えています。
   この事例では、相関係数が 0.97ですから非常に強い関係であるといえます。そして正(+)の値ですので
  片方の値が増加するとそれに連れてもう一つの値も増加することを表しています。

 *相関係数が表す理論的整合性を確認することが大事です。データを見た当初考えていた説明変数と被説明変数の
   相互の影響関係が期待どうりであったかどうか、を検証することです。
   事例の場合は、出発時刻が大きくなる(遅くなる)と到着時刻も大きくなる(遅くなる)ことを示しています。
   日常我々が経験していることで、始めの期待とおりであったと言えます。
   

  1.4 回帰式
   目標として設定した、到着時刻を予測する計算式は「回帰式」を求めることです。
   出発時刻と到着時刻の散布図に散らばっている点の丁度中央を通るような直線を引いて、その直線の、横軸に
   対応した縦軸の値を表す式を求めることになります。この式を「回帰式」と言います。
      a0+ の形をしたモデル式になります。 
   被説明変数(到着時刻)の予測値()を求めるために a0 を計算することを意味します。
   この回帰式もExcelの分析ツールで簡単に計算できます。その結果が次の表です。
   

  回帰統計                      分散分析表

重相関 R 0.970
重決定 R2 0.942
補正 R2 0.938
標準誤差 0.196
観測数 17

自由度 変動 分散 観測された分散比 有意 F
回帰 1 9.314 9.314 242.22 1E-10
残差 15 0.577 0.038
合計 16 9.891

   係数 標準誤差 t P-値
切  片 0.918 0.502 1.828 0.087
出発時刻 1.294 0.083 15.563 1-10

  *回帰統計欄の解説
    重相関Rは相関係数です。0〜1の間の値を取り、1に近い場合は誤差が小さく回帰直線の当てはまり(精度)が
    良いことを表します。又重決定R2は重相関の二乗で定義され、寄与率又は決定係数とも呼びます。
    事例では、重相関(相関係数)が0.97で予測式としては極めて精度が高いと言えます。
    
  *分散分析表の解析
    分散分析表は統計的品質管理や実験計画法においてしばしば利用される手法で、例えば、ある製品の
    品質がバラツイテいる場合、そのバラツキの原因は何で、その度合いはどのくらいか、を検定する時に使います。
    回帰分析でも同じ考え方で、実測値の変動を、予測値の変動でどの程度説明できるかを捉えて、狙いとする
    回帰式の有意性を(精度)統計的に検定します。
    この表で大事なのは、観測された分散比(事例では242.22)と有意Fです。有意Fは観測された分散比の確率で
    普通検定の時に考える、有意水準の0.01や0.05と比べ、その大きさで「有意」かどうかを判定します。
    今回の場合は極めて小さい値なので(0.01より小さい)、「有意である」と言え、回帰式の精度が良いと言うことになります。
  
  *係数・P−値の解析
    係数はモデル式 a0+ の定数 a0を切片、1 を回帰係数(事例では出発時刻になります)と言います。
    下図の直線がモデル式を表します。
    ここで重要な値はP−値です。係数の値を使ったときの危険率を表し、係数の選択に使います。
    事例では危険率が極めて小さく問題のないことになります。  

   予測式は 到着時刻 ()=0.918+1.294×出発時刻(x) で計算されます。
   注意すべきことは、得られたデータの範囲内の予測は信頼できるが、範囲外の予測には問題があることです。
   例えば今回の事例では、8時以降出発のデータはありませんので、8時前後の出発時刻の予測には使えないと
   言うことです。実際に8時を過ぎてからの出発では、途中の渋滞が解消されてこの予測式は使えませんでした。

  1.5 予測式の検証
   予測式を使って実際のデータとの違いを調べて見ましょう。
   始めの表の最下段にある、11月24日の実測値と計算式から得られた予測値と比較します。
   実測値の出発時刻は5:40(数値表示、5.67)、到着時刻は8:02(数値表示8.03)です。
   予測の到着時刻は計算式から 0.918+1.294×5.67=8.25 となります。これを実測値と比べます。
   予測の相対精度は(8.25−8.03)/8.25=0.026 即ち2.6%となりました。 

 1.6 分析結果の検討
  予測精度は2.6%でしたので予測式として使えると判断できます。
  次に、原因となる変数(説明変数)が結果に対して論理的に矛盾していないか、については、過去の日常生活の
  経験をもとに、道路状況を考えて所要時間を予測して目的の時刻に到着できるよう出発時刻を決めていますが、
  この分析結果は我々が経験していることと合致していると言えます。  

 

Topへ

データマイニング一覧