2012年07月02日

正規分布よ、もう一度

初心者統計シリーズ5回目。
(ウソを見破る統計学を参考にしています)

正規分布よ、もう一度

正規分布は第1回の統計シリーズで軽く触れましたね。
正規分布は平均と標準偏差で決まっていきます。
また正規分布は平均点に対して左右対称のグラフになります、
そして標準偏差はグラフの横の広がりを示していきます。
例えばあるテストの点数の平均は53点ジャスト、標準偏差も9点ジャストとしましょう。
つまり平均±標準偏差は44点から62点になります。
このテストの値が正規分布するとして、
このような平均±標準偏差は約68%の確率でテストの値が入ってきます。
つまりクラスの約68%はこの44点から62点に入るのです。
平均±1.96×標準偏差にすると約95%の確率でテストの値が入ってきます。
そうなると35.36点~70.64点という計算になり、
テストの点数で少数点はありえないので、
36点~70点がそのクラスの中で約95%を占めているという結果になります。

しかしデーターが正規性をもつ分布なのかどうか、
判断できないという場合もあるでしょう。
普通、正規分布は釣鐘タイプのカーブを表しますが、
その形が歪んでいるような分布であれば、
それが正規性をもつ分布なのかどうか怪しくなりますよね。
その正規分布とみなしていいか、見なして悪いか、
非常に難しそうです。
しかしエクセルでもどの程度歪んでいるか(歪度)、
どの程度尖っているか(尖度)を計算できる関数があります。
理想的な正規分布では歪度が0、尖度が3になります。
しかし正規分布でもこのような理想的な数値にはなることはまずありません、
そのためには正規分布なのかどうかは検定しなければいけません。
その検定する関数はエクセルにはないようです。
(エクセル統計などの統計ソフトがないとその検定はできません)

正規分布,これでも表面をなぞっただけだと思うのですが,
奥が深そうだという事は,なんとなく感じてくれたでしょうか.
posted by リハ技士 at 20:52| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月29日

相関って?

初心者統計シリーズ4回目。
(ウソを見破る統計学の本を参考)

相関って?

統計を教えている大学の先生(+来年度就職担当)にある企業の人が訪れます。
その会社はソフトウェアの開発をしていて、
プログラマーに数学が出来る新人を探していました。
(数学のソフトウェアではなく、企業の社内業務を効率化するソフトウェアの開発を行っている)
その会社では数学が出来ればプログラマーに向いていると考えていました。
その統計を教えている1大学の先生はプログラミングも教えていますが、
数学の成績がいい人はプログラミングの成績もいいのかという調査(統計)を以前行っていました。
サンプルサイズ48で、相関係数は0.22、
全く相関がないとはいえながかなり弱い(正の)相関といえるでしょう。
普通、この数値であれば相関しているとはいえない数値です。
また統計の先生は数学ができない人がプログラミングに向いているのかを調べたら、
先ほどの結果と同じようになってしまったのです。
つまり数学の不出来という情報はプログラマーに向いているかどうかの判断は困難だということになります。
そのソフトウェアの開発の人はどのような情報が必要なのか悩んでしまいました。


しかしこの相関、全く初心者は何が何やら分からないでしょう。
相関係数は−1から+1の間です。
+1に近ければ近いほど正の相関、−1に近ければ近いほど負の相関といいます。
例えば
脳卒中患者のリハビリテーション開始までの日数とリハ病棟在院期間の相関係数が0.75
としましょう。
これは先ほどの数学の成績とプログラミングの成績の相関関係0.22より相当高い数値となっています。
つまりリハ開始までの日数が短ければ短いほど、リハ病棟在院日数は短くなり、
リハ開始までの日数が長くなればなるほど、リハ病棟在院日数は長くなる、
冒頭の事例よりこの事例はその関係性が強いという事になります。
(グラフで言うと右肩上がりの散布図になります)
逆に例えば
脳卒中患者のリハビリテーション開始までの日数と退院時のFIM点数の相関係数が−0.51とします。
つまりリハ開始までの日数が短ければ短いほど、FIM点数は高くなり
リハ開始までの日数が長くなればなるほど、FIM点数は低くなる、
冒頭の事例よりもやはりその関係性は強くなります。
(グラフで言うと右肩下がりの散布図になります)
ただしリハ開始時までの日数とリハ病棟在院日数の関係性よりは弱くなります。
全くデーターに関係性がなければ相関係数は0になります。

この相関係数も簡単にエクセルで出すことが可能です。
エクセル恐るべし。
posted by リハ技士 at 13:33| 山形 ☀| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月27日

バラツキを図る

初心者統計シリーズ3回目。
(ウソを見破る統計学を参考)
今日は、
バラツキを図る

本ではある女子大学生とその母親と父親の事例が出されます。
女性2人とも朝のジョギングが日課です。
父親は2人がジョギングから帰ってきたのでタイムがどうだったか聞きます。
(そのタイムを聞いている時に娘の表情がつらそうなのに気が付きます)
娘は43分29秒、母親が30分42秒でした。
どうも娘は二日酔いの状態で走ったとのこと。
娘の平均タイムは28分44秒、母親の平均タイムは31分37秒。
しかし娘はとても速く走れる日があると思えば、今日のように全く駄目な日があります。
そこで父親は標準偏差を調べて見ようと言います。
これはデーターのバラツキ度合いを調べる方法です。
娘の標準偏差が7分16秒で、母親が2分36秒でした。
母親のバラツキが少ないことが分かりました。
つまり母親はタイム的には安定していると言えます。

この標準偏差はどのような計算はどう行っているのでしょうか。
今は簡単にエクセルなどで計算式を知らなくても答えは出てくるので知らなくてもかまわないでしょう。
平均偏差というバラツキを図るやり方もあるのですが、
これはもし機会があったらまた説明しましょう。

他に例を出しましょう。
例えばBarthel Index(B.I)で例を出しましょう。
A病院の回復期リハ病棟での入院時B.I平均値は45.3点とします。
そして標準偏差が12.5点としましょう。
B病院の回復期リハ病棟での入院時B.I平均値は55.1点とします。
標準偏差が32.8点としましょう。
A病院の回復期リハ病棟はB.I平均値は低いものの、
バラツキは少なくB.I的にみると同じ生活能力の人たちが集まっている傾向にあると言えるでしょう。
しかしB病棟は入院時B.I平均値は高いものの、
バラツキが多くB.I的には多様な人たちが集まっていると言えるでしょう。

平均だけでなく、バラツキを見るだけでもその集団の特性がよくわかってきます。
posted by リハ技士 at 11:29| 山形 | Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月26日

混ぜるな危険

統計第2回シリーズ。
(ウソを見破る統計学という本を参考にしています)

今回は
混ぜるな危険。

ある大学生が針路に悩んでいます。
理系の学部にいたのですが文学部に転部しようかと悩んでいるのです。
ある本で文系の方が理系に比べて生涯賃金が5000万円多かったという記事があります。
そうであれば相当な額です。
しかし本当にそうなのか?
まず良く読むと文系・理系まとめての比較ではありませんでした。
社会科学系と工学系の比較でした。
社会科学系は銀行とか投資銀行に勤めることが多く、医学部並みに稼ぐ場合が多いのです。
人文科学系と工学系の比較では工学系の方が高いという結果があるのです。
しかし、です。
ここに情報が不足しています。
それは性別です。
現在でも残念ながら男女で賃金格差が残っています、
工学系は女性が少なく男性が圧倒的です、
文系は女子の割合は工学系と比べれば高くなることが多いです、
そうなると文学系の方が賃金は低くなるのです。
もう一つ不足している情報として、回答者の年齢というものがあります。
年功序列は崩れてきてはいますが、
現在でも年齢に比例して給料が上がる仕組みになっているところは多いでしょう。
人文科学系では比較的新しい学部・学科が多いので、そのような学部の卒業生と、
工学部のような卒業生を比較したら、
卒業者に年配者を含んでいる老舗学部の方が賃金に出てくるでしょう。
もしこのような比較をする場合、
性別の割合や年齢をある程度同じでないと比較できないのです。
きちんとその集団の条件をきっちりあわせての比較が必要なのです。

例えば高齢者できちんと運動をしている人としていない人では、
している人の方が下肢骨折しやすい?という結果になったとしましょう。
しかし運動をしているグループに明らかに女性が多ければ比較することは出来ないでしょう。
ある調査では50代以上で骨粗鬆症になるのが、男性が3.2%・女性が24%とのことです。
つまり運動している,していないではなく,
女性の割合が大きい事その自体が骨折に大きな要因を示すのです.

ここでは性別と年齢をあげましたが、
他にも様々な要因が絡んでいる場合があります。
グループ比較するときは皆さんも気を付けてください。
posted by リハ技士 at 15:55| 山形 ☀| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする

2012年06月24日

「平均」の裏の顔

リハビリテーションQ&Aの他に,
もう一つ新シリーズを始めましょう.
それは統計です.
,と言ってもほぼ初心者コースなみの知識しかありませんが….
「ウソを見破る統計学」を参考に,
本当に初心者向きの内容で紹介したいと思います.

平均値

みなさん,この平均値は身近に使用する言葉ではないでしょうか.
しかしこの平均値,その母集団がどのような集団なのか見極めないと,
平均の意味がなくなってしまいます.
特に外れ値がかなり大きいとその集団の平均値は大きく変わります.
例えばある会社では能力給で給料を出しています.
そこの会社が管理職を除いて平均給料(10人)が950万円としましょう.
この金額であればなかなかの給料でしょう.
しかし一人は営業成績がスバ抜けて良くその人の給料だけ5000万円なのです.
他の9人は平均で500万円,
そうすると5000万円+9×500万円=9500万円 9500万円÷10=950万円なのです.
そのスバ抜けた一人がいなければ平均で500万円の給料です.
倍近い変化になってしまいます.

そしてもう一つ大切なのはその集団が正規分布しているかです.
身長や座高などであれば普通は正規分布しています.
ある母集団の平均あたりにデーターがたくさんあり,
その平均値から外れるとそのデーターが少なくなっているというグラフととらえてください.
釣り鐘状になっているのが普通の形のようです.
上記のような形になっていなければ平均を取ることは?なのです.

皆さんも平均を取るときは気をつけるように….
posted by リハ技士 at 17:26| 山形 ☁| Comment(0) | TrackBack(0) | 初心者統計 | このブログの読者になる | 更新情報をチェックする