2012年07月11日

検定いろいろ

初心者統計シリーズ 最終回
今回は、
検定あれこれ、です。
(この本はウソを見破る統計学を参考にしています)

ある大学の国語の受験で、
男子の平均点52.78(標準偏差13.84)
女子の平均点63.59(標準偏差11.85)でした。
これは男女差があると言っていいのでしょうか。

まずこの男女それぞれのデーターが正規分布しているかどうか検定する必要があります。
なぜなら正規分布している場合と正規分布していない場合は、
その後の検定手法が違うからです。
では正規分布を確かめる検定はどうすればいいでしょうか。
これは前にも話したようにエクセル統計がないと厳密には検定できません。
コルモゴロフ・スミルノフ(KS)検定を本来使います。
統計を本格的にしたい人は統計ソフトを買った方がいいでしょう。

先ほどの例に戻りましょう。
統計ソフトを使用したとして
男子のKS値は0.0486、P値は0.9143。
女子のKS値は0.0635、P値は0.672
KS値は小さいほど正規分布に近いのでどちらもかなり低いのですが、
男子の方が正規分布に近いことになります。
コルモゴロフ・スミルノフ(KS)検定において、
帰無仮説は「変数は正規分布に従う」です。
P値は0.05よりもかなり大きいのでこの帰無仮説は棄却されません。
つまり正規分布していると言えます。

正規分布していないときは、
ウィルコクソンの順位和検定を使用します。
これもエクセルではないようです。

では正規分布したという結果でしたので次はどのような検定をすれば答えが出るのでしょうか。
実はもう一つ手間がかかるのです。
バラツキ方に差があるかどうか、それとも偶然なのかを検定をする必要があるのです。
それはF検定というものを使用します。
これはエクセルの関数にあります。
FTESTという関数です、
今回の事例ではF値が1.2683、P値が0.1986。
F検定において、
帰無仮説は「変数は等分散性を示す」です。
P値は0.05よりも大きいので、この帰無仮説は棄却されません。
つまりバラツキの違いについては気にしないで検定していいという事になります。

バラツキがあると検定された場合とバラツキがないと検定された場合では、
実はどちらもt検定を使用します。
だったらF検定しなくても良かったのではないかと言われそうですが、
同じt検定でもそのF検定の結果によって、t検定の式が変わってくるのです。
(t検定は2つの集団の平均に差があるのかを調べる検定です)

結果、この事例では、
t値が−6.6166。
P値が2.358×10の−8乗というものすごく小さな数になります。
P値が0.05よりも小さくなります、
t検定において、
帰無仮説は2つの集団の平均に差はない、というものです。
P値がこれだけ小さいので帰無仮説は棄却されます。
つまり男女差はあるという結果になるのです。

ここでは何を言いたいかというと、
流れさえ理解しておけば、
後は統計ソフトさえ使用すれば勝手に計算してくれるということです。

とりあえず、初心者統計シリーズは終了。
私も勉強になりました。
posted by リハ技師 at 19:35| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年07月09日

回帰曲線

初心者統計シリーズ9回目。
今日は、
回帰曲線です。
(この本はウソを見破る統計学を参考にしています)

前回はデーターを直線で近似する回帰分析でした、
しかしデーターというのは中には直線だけで表せるものではありません。
では本に出ている世界各国の平均寿命と一人当たりのGDPをみてみましょう。
国が豊かであればあるほど衛生状態が良好であったり医療が発展していたりと、
平均寿命は延びています。
これはグラフを本来は見せたいところですが、言葉だけで想像してもらいたいと思います。
平均寿命の伸びは、一人あたりのGDPが大きくなるにつれ、ゆるやかになっていきます。
GDPが10倍になれば、平均寿命も10倍に伸びて500歳にはなりません。
また1人当たりのGDPがある程度まで少なくなると、
極端に平均寿命が少なくなっていく散布図になっています。
結果、曲線状に黒チョボが集まってきています。
ではそのような散布図の時の回帰曲線はどのように作ればいいでしょうか。
このような場合2つの変数のうち、そのうちの1つの変数の図り方を変えていくことが必要です。
今回は一人当たりのGDPの「対数」をとるという方法です。
10の3乗は1000、
10の4乗は1000です。
一人当たりGDP(ドル)で低い国だと2000ドルという国があります。
2000は10の何乗になるかというと、約3.3乗になります。
一人あたりのGDP(ドル)で高い国だと30000ドルという国もあります、
30000は10の約4.48乗になります。
そうするとグラフは縦軸に平均寿命、
横軸はただ一人あたりのGDPをあげるのではなく、
10の何乗なのかの目盛りで表すと
曲線を描かないといけないような散布図が変化し、線状に近い散布図になります。
しかしここでこの10の何乗を出すのはどうすればいいのかと質問があるでしょう
これはエクセルでは「LOG」というのを使用します。
関数でこの「LOG」を選び、「数値」「底」を入力する画面が出てきます。
先ほどの2000ドルの例だと、数値に2000と入力、底に10と入力します。
そうすると3.30103となります。
これが先ほどの10の3.30103乗なのです。

なるほど変数を変えればいいのか、とわかったかと思いますが、
しかしこのLOGを使用するのも少し面倒です。
エクセルのグラフを使用し、使い方をマスターさえすれば、
先ほどのくだりで考えなくても、
一発で散布図と回帰曲線と回帰曲線式とR2が出てきます。
(今までのくだりは何だったの、と言われそうですが…)
そのやり方を説明しましょう。
エクセルに入っているデーターから散布図を作ります。
その散布図の黒チョボにあわせて右クリックします、
そうすると近似曲線の追加というものが出ますので、それをクリック。
そうすると多項式近似というものがあるのでそれにチェック、次数の数値を入力します。
この次数はグラフ(散布図)の形で決めましょう。
凸や凹型のグラフであれば2次関数、
N型のグラフであれば、3次関数、
M型、W型のグラフであれば4次関数、
多項式近似以外でもセレクト出来ます。
例えば
急上昇タイプのグラフであれば指数関数とか…。
そして下の方にグラフ上に式を表示するにチェック、
そしてR2値を表示するにチェックを入れて「閉じる」をクリックすれば、
あっという間に出来上がりです。

また散布図が微妙なグラフもあるので、
いろいろ試してR2値がいいものを選んだほうがいいでしょう。
R2値が良くないなと思い別の関数で試したかったら、
出来あがったグラフの線にあわせて右クリック、そして削除を選んでください。
そして黒チョボ右クリックに戻ってまた作業を始めてください。

これも皆さんデーターか何かあったら試してください。
次回でこのシリーズは最後にします.
posted by リハ技師 at 18:26| 山形 ☀| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年07月06日

回帰直線

初心者統計シリーズ8回目。
今日は、回帰直線です。
(この本はウソを見破る統計学を参考にしています)

ある男子大学生が回帰分析の自由課題のレポートで悩んでいます。
肥満度と収入の関係について調べています。
ある雑誌に太っている人の方が年収が高い、
その雑誌のデーターでは確かにその傾向がありました、
年収(万円)=7.674×BMI+261.339
R2は0.1258。
つまりこれはBMIが1増えるごとに年収が8万円増えるということ、
そしてR2はだいたい12〜13%はBMIが関係しているという事なのです。
このR2は0〜1の間をとります。
もし1という結果になればこの数式で全ての値が自動的に決まってきます。
しかし1になることはまずなく、
ある程度バラツキがあるのが自然です。
しかしこの結果を信用していいのでしょうか。
じつはこれには落とし穴があるのです。
年をとれば多くの中高年が太ってきます、
多くの会社ではまだ年功序列の給与システムは残っていますから、
年をとると年収が上がっていくのです。
つまりこの調査をするならば少なくとも年齢はある程度そろえないと意味がないことになります。


エクセルの2003では分かりませんが、
エクセル2007では散布図を作成するときに、
散布図+回帰直線式+回帰直線とR2値が同時に出てくるグラフのレイアウトがあります。
これだと一発で出てきますので覚えてください。
例えばある患者グループのFIMとB.Iのデーターがあれば、
FIMの列にグループ全員の全部点数を入力し、
右列にB.Iのグループ全員の全部点数を入力し、
それらを選択させて散布図に一度させて、
その後に再度散布図の中でも計算式が入るタイプを選択すれば………。
まぁ、興味がある方は,何でもいいので行ってみてください。
posted by リハ技師 at 18:45| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年07月05日

カイ2乗検定 パートU

初心者統計シリーズ7回目。
今回はカイ2乗検定 パートU
(「ウソを見破る統計学」を参考にしています)

前回は全国のデーターから期待度数が出せました。
しかし全国データーがない場合の例を出しましょう。

女子大の自治会の調査で、
一人暮らしの女子と親元から通ってくる女子で、
どっちのほうに恋人が出来ているかを調査しました。
結果は、
親元で恋人あり 34人
一人暮らし恋人あり 17人
親元恋人なし 86人
一人暮らし恋人なし 18人でした。
(これ自体を表にすると2×2の表になります、この表はクロス表と言います)
こう見ると一人暮らしの方が、恋人ができやすいような結果です。
女子大生は一人暮らしの方がこの結果から一人暮らしの方が、恋人ができやすい、と言っていいか.
(帰無仮説 親元と一人暮らしによって恋人ありなしには関わりがない)
今回は全国データーがありません。
全体の数は34+17+86+18=155名
親元総数 120名
一人暮らし総数 35名
恋人あり総数 51名
恋人なし総数 104名
上記の数を使用して期待値が作成できます。(参考にした本とはやり方が違いますが…)
親元で恋人あり 120×51÷155=39.48
一人暮らし恋人あり 35×51名÷155=11.52
親元恋人なし 35×51÷155=80.52
一人暮らし恋人なし 35×104÷155=23.48

これだけわかればカイ2乗検定できます。
エクセルの関数「CHITEST」で出来ます。
もしカイ2乗値も知りたいという事であれば、
エクセルの関数「CHINV」を利用します。
その時に必要になるのは「CHITEST」で出した答えと
自由度を入れる必要があります。
自由度の出し方はクロス表●×●を利用します。
自由度=(行−1)×(列−1)
3×4のクロスでは2×3=6 自由度は6になります。

ちなみに今回の自由度は(2−1)×(2−1)=1
そしてCHITESTで出た答えは0.02495、
それを「CHINV」に上記の数値を入れ込めば
カイ2乗値は5.027091となります。
そしてCHITESTで出た答えは0.02495なので,
帰無仮説は5%より少ないため棄却されます。

しかしこれから修正が必要になってきます。
イエーツの補正、というものです。
2×2のクロス表の場合と、期待度数が5未満のセルが全体の2割以上ある場合に
この補正を使用します。
しかしこのイエーツの補正は統計ソフトがないと難しい…。(もちろん計算の仕方を覚えるという手もありますが…)
補正しない時よりも補正した方が厳しめの判定になります、
つまり有意だったものが有意にならない場合もあります。
今回補正した結果は0.04158でした。
つまりなんとか5%有意にはなり帰無仮説は棄却されたのです.

皆さんも何か調査してクロス表を作成したら、
練習と思ってカイ2乗検定を行ってみては?
posted by リハ技師 at 20:31| 山形 ☔| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年07月03日

カイ2乗検定

初心者統計シリーズ6回目。
今回は
カイ2乗検定
(この本はウソを見破る統計学を参考にしています)

まず本の事例から行きましょう。
ある女子大学生が入っているサークルにいる人の血液型を調べました。
A型が31人、O型が25人、B型が29人、AB型が11人の96人でした。
その女子大生はB型が異常に多いのではないだろうか、
つまり明らかに変わり者が多いのではないかと感じたのです。
そのB型が明らかに多いかどうかを探るためにどうすればいいか悩んでしまいます。
(その女子大生はA:O:B:ABの比率は4:3:2:1と思っていました)
そこで父親(大学で統計を教えている教授)に聞いてみます。
父親はカイ2乗検定だな、と言います。
カイ2乗検定をするときは、観測度数と期待度数のデーターがなくてはいけません。
A型が31人、O型が25人、B型が29人、AB型が11人というのが観測度数になります。
実際に観測された人数や事件などの回数をいうのです。
期待度数とは、期待される人数や個数・事件等の回数のことになります。
日本の血液型分布はウェブで調べると、
A型が38.6%、O型が27%、B型が25.4%、AB型が9%です。
もしサークル部員の血液型が全国の血液型分布と同じであるとするならば期待度数は、
A型の期待度数=96×0.386=37.056人
O型の期待度数=96×0.27=25.92人
B型の期待度数=96×0.254=24.384人
AB型の期待度数=96×0.09=8.64人
ここまでわかれば、あとはエクセルで計算してくれます。
そして計算するとP値というものがでてきます。
今回は0.468という値でした。
つまり「全国の血液型と同じ比率の人たちが気まぐれにうちに入ったとしても、偶然この比率になる確率が46.8%もある」ということなのです。
またまたつまり、「B型が明らかに多い!!ということではなくなった」ということです
普通は0,05より小さければ、5%で有意と判断します。
しかしこれは絶対ではなく0.01より小さくなければ有意と判断できない場合もあります。
ただ大概は5%がよく使用されます。

ではリハの事例で行きましょう。
A病院の回復期リハ病棟の入院時FIMと全国の入院時FIMを比較してみましょう。
実際に検定するときは仮説を立てて、その仮説がどのくらいの確率で正しいかを問題にします。
まずその2つのデーターが等しいと仮定して、その仮定が起こらない事を示すやり方をします(帰無仮説)
その帰無仮説が棄却されれば対立仮説が採用されます。
A病院の入院時FIMをみてみましょう.
FIM20点以下5名、
FIM21点以上40点以下6名、
FIM41点以上60点以下14名、
FIM61点以上80点以下25名、
FIM81点以上100点以下20名、
FIM101点以上11名としましょう。(全体で81名)
上記が数値が観測度数になります。
全国の入院時FIMは
FIM20点以下4.4%、
FIM21点以上40点以下14.9%、
FIM41点以上60点以下15.6%、
FIM61点以上80点以下18.3%、
FIM81点以上100点以下20.4%、
FIM101点以上26.4% です。
こうみるとA病院はFIM100点以上の人は少なく、FIM61点以上80点以下は多いように見えます。
これは明らかに多いと言えるのか。
カイ2乗検定をしてみましょう。
では期待度数を出してみます。
FIM20点以下 81×4.4%=3.564
FIM21点以上40点以下 81×14.9%=12.069
FIM41点以上60点以下 81×15.6%=12.636
FIM61点以上80点以下 81×18.3%=14.823
FIM81点以上100点以下 81×20.4%=16.524
FIM101点以上 81×26.4%=21.384
となります。
エクセルではCHITESTで観測度数の範囲・期待度数の範囲を決めれば出てきます。
ちなみに数値は0.005となり、
5%でも1%でも有意となり帰無仮説は棄却されます。
偶然でこのデーターになるのは0.5%ですから、同じようなデーターとは言えないでしょう。

本来は自由度という項目をしらないと本当はいけないのですが、
また次回説明しましょう。
posted by リハ技師 at 19:05| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年07月02日

正規分布よ、もう一度

初心者統計シリーズ5回目。
(ウソを見破る統計学を参考にしています)

正規分布よ、もう一度

正規分布は第1回の統計シリーズで軽く触れましたね。
正規分布は平均と標準偏差で決まっていきます。
また正規分布は平均点に対して左右対称のグラフになります、
そして標準偏差はグラフの横の広がりを示していきます。
例えばあるテストの点数の平均は53点ジャスト、標準偏差も9点ジャストとしましょう。
つまり平均±標準偏差は44点から62点になります。
このテストの値が正規分布するとして、
このような平均±標準偏差は約68%の確率でテストの値が入ってきます。
つまりクラスの約68%はこの44点から62点に入るのです。
平均±1.96×標準偏差にすると約95%の確率でテストの値が入ってきます。
そうなると35.36点~70.64点という計算になり、
テストの点数で少数点はありえないので、
36点~70点がそのクラスの中で約95%を占めているという結果になります。

しかしデーターが正規性をもつ分布なのかどうか、
判断できないという場合もあるでしょう。
普通、正規分布は釣鐘タイプのカーブを表しますが、
その形が歪んでいるような分布であれば、
それが正規性をもつ分布なのかどうか怪しくなりますよね。
その正規分布とみなしていいか、見なして悪いか、
非常に難しそうです。
しかしエクセルでもどの程度歪んでいるか(歪度)、
どの程度尖っているか(尖度)を計算できる関数があります。
理想的な正規分布では歪度が0、尖度が3になります。
しかし正規分布でもこのような理想的な数値にはなることはまずありません、
そのためには正規分布なのかどうかは検定しなければいけません。
その検定する関数はエクセルにはないようです。
(エクセル統計などの統計ソフトがないとその検定はできません)

正規分布,これでも表面をなぞっただけだと思うのですが,
奥が深そうだという事は,なんとなく感じてくれたでしょうか.
posted by リハ技師 at 20:52| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月29日

相関って?

初心者統計シリーズ4回目。
(ウソを見破る統計学の本を参考)

相関って?

統計を教えている大学の先生(+来年度就職担当)にある企業の人が訪れます。
その会社はソフトウェアの開発をしていて、
プログラマーに数学が出来る新人を探していました。
(数学のソフトウェアではなく、企業の社内業務を効率化するソフトウェアの開発を行っている)
その会社では数学が出来ればプログラマーに向いていると考えていました。
その統計を教えている1大学の先生はプログラミングも教えていますが、
数学の成績がいい人はプログラミングの成績もいいのかという調査(統計)を以前行っていました。
サンプルサイズ48で、相関係数は0.22、
全く相関がないとはいえながかなり弱い(正の)相関といえるでしょう。
普通、この数値であれば相関しているとはいえない数値です。
また統計の先生は数学ができない人がプログラミングに向いているのかを調べたら、
先ほどの結果と同じようになってしまったのです。
つまり数学の不出来という情報はプログラマーに向いているかどうかの判断は困難だということになります。
そのソフトウェアの開発の人はどのような情報が必要なのか悩んでしまいました。


しかしこの相関、全く初心者は何が何やら分からないでしょう。
相関係数は−1から+1の間です。
+1に近ければ近いほど正の相関、−1に近ければ近いほど負の相関といいます。
例えば
脳卒中患者のリハビリテーション開始までの日数とリハ病棟在院期間の相関係数が0.75
としましょう。
これは先ほどの数学の成績とプログラミングの成績の相関関係0.22より相当高い数値となっています。
つまりリハ開始までの日数が短ければ短いほど、リハ病棟在院日数は短くなり、
リハ開始までの日数が長くなればなるほど、リハ病棟在院日数は長くなる、
冒頭の事例よりこの事例はその関係性が強いという事になります。
(グラフで言うと右肩上がりの散布図になります)
逆に例えば
脳卒中患者のリハビリテーション開始までの日数と退院時のFIM点数の相関係数が−0.51とします。
つまりリハ開始までの日数が短ければ短いほど、FIM点数は高くなり
リハ開始までの日数が長くなればなるほど、FIM点数は低くなる、
冒頭の事例よりもやはりその関係性は強くなります。
(グラフで言うと右肩下がりの散布図になります)
ただしリハ開始時までの日数とリハ病棟在院日数の関係性よりは弱くなります。
全くデーターに関係性がなければ相関係数は0になります。

この相関係数も簡単にエクセルで出すことが可能です。
エクセル恐るべし。
posted by リハ技師 at 13:33| 山形 ☀| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月27日

バラツキを図る

初心者統計シリーズ3回目。
(ウソを見破る統計学を参考)
今日は、
バラツキを図る

本ではある女子大学生とその母親と父親の事例が出されます。
女性2人とも朝のジョギングが日課です。
父親は2人がジョギングから帰ってきたのでタイムがどうだったか聞きます。
(そのタイムを聞いている時に娘の表情がつらそうなのに気が付きます)
娘は43分29秒、母親が30分42秒でした。
どうも娘は二日酔いの状態で走ったとのこと。
娘の平均タイムは28分44秒、母親の平均タイムは31分37秒。
しかし娘はとても速く走れる日があると思えば、今日のように全く駄目な日があります。
そこで父親は標準偏差を調べて見ようと言います。
これはデーターのバラツキ度合いを調べる方法です。
娘の標準偏差が7分16秒で、母親が2分36秒でした。
母親のバラツキが少ないことが分かりました。
つまり母親はタイム的には安定していると言えます。

この標準偏差はどのような計算はどう行っているのでしょうか。
今は簡単にエクセルなどで計算式を知らなくても答えは出てくるので知らなくてもかまわないでしょう。
平均偏差というバラツキを図るやり方もあるのですが、
これはもし機会があったらまた説明しましょう。

他に例を出しましょう。
例えばBarthel Index(B.I)で例を出しましょう。
A病院の回復期リハ病棟での入院時B.I平均値は45.3点とします。
そして標準偏差が12.5点としましょう。
B病院の回復期リハ病棟での入院時B.I平均値は55.1点とします。
標準偏差が32.8点としましょう。
A病院の回復期リハ病棟はB.I平均値は低いものの、
バラツキは少なくB.I的にみると同じ生活能力の人たちが集まっている傾向にあると言えるでしょう。
しかしB病棟は入院時B.I平均値は高いものの、
バラツキが多くB.I的には多様な人たちが集まっていると言えるでしょう。

平均だけでなく、バラツキを見るだけでもその集団の特性がよくわかってきます。
posted by リハ技師 at 11:29| 山形 | Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする