Monday 26 February 2024

小説 走れ外科医 泣くな研修医3

中山祐次郎 2021年 幻冬舎

平均値 中央値 カプランマイヤー曲線 ログランク検定

外科医になって5年目の雨野隆治が,さまざまな経験を通じて成長していくという話です.学会での発表のためにエクセルで資料を作成していて,同僚の川村に質問する場面です.

——中央値? 平均とは違うものなのか? なんで平均じゃいけないんだ? 隆治には、かなり初歩的なこともまったくわからない。

川村「平均値は、5人いたらその年齢を全部足して5で割るだけ。中央値は、若いほうから数えて3人目の年齢ってだけ」
「で、どちらの数字も、『この集団はこういう人たちですよ』って言いたいだけなんだよ」
「若い人たちなのか、90歳超えの人ばかりなのか。だけど、平均値は、若い人たちばかりのところに一人だけ100歳のおじいちゃんがいたら大きく上がる。でも中央値なら、若い順に3人目だから影響はほとんどない。 そのデータはぱっと見、癌の患者さんでしょ? だったら中央値でいいんじゃない。メインは50~70代だろうけど,たまに若い人いるだろうし」 

代表値には平均値(mean),中央値(median),最頻値(mode)があります.統計的な内容は,2002(H14)年度から10年ほど中学校の教科書にはなく,高校でも選択だったので,雨野隆治がその間に中高生だったら中央値を習っていない可能性がありますね.現在(2020(R2)年以降)は小学6年生で登場していますから,今となっては小学生でも知っている初歩的な知識のひとつということになります.

上の台詞に,中央値は「5人いたら若いほうから数えて3人目」とありますが,年上のほうから数えても同じですね.要するにちょうど真ん中の値です.偶数人の場合は,例えば6人なら3人目と4人目の平均が中央値になります.一般には平均値の方がよく使われますが,「若い人たちばかりのところに一人だけ100歳のおじいちゃんがいる」というような極端に離れた値があるときや,データの分布が偏っているときなどは,平均値よりも中央値や最頻値の方が適切な場合があります.

その日は珍しく日中に手術がなく、病棟も落ち着いていたので夕回診のあと隆治は 早々に医局に引き上げると、またノートパソコンを睨みつけて何やら作業をしていた。 カプランマイヤー曲線ログランク検定などといった、医学部でも習わない、そして医者になってからも誰も教えてくれなかった統計学の知識を、隆治は吸収していった。

カプランマイヤー曲線(下のギザギザの曲線)は,例えばある臨床試験をしていて時間がたつと生存率はどう変化するかを表す,いわゆる「生存曲線」のひとつで,グラフの縦軸は生存確率、横軸は経過時間を表します.時間を経て事象(死亡)が起こるたびに生存率は下がっていきます.また,グラフの途中にいくつかあるヒゲ(短い縦の線分)は「打ち切り」すなわち何らかの理由で試験が中止されたことを意味していて,これらを可視化してあるのがこの曲線の特徴になっています.

上に出てきた中央値とは全く意味が違いますが,生存率が0.5になるまでの時間も中央値といいます.これは放射性物質の割合が0.5になるまでの時間を半減期というのに似ていますね.下の例の場合,A群の中央値は23、B群の中央値は8ということになります.ここでいう中央値でも2つの群の違いは分かりますが,ログランク検定は,2つのカプランマイヤー曲線が,どの時点でも生存率は同じという仮説を立て,それが成り立つ確率(p値)が有意水準(ふつうは5%)より下回れば有意差があると判定する検定です.

「いちばんやさしい、医療統計」より引用

それにしても,これらの知識を「医学部でも習わない」「医者になってからも誰も教えてくれなかった」とは思えないんですけどね.

[参考]

統計教育の歴史・現在・今後の課題
https://www.ed.ehime-u.ac.jp/~kiyou/0402/pdf50-2/15.pdf

学習指導要領の変遷https://www.mext.go.jp/b_menu/shingi/chukyo/chukyo3/004/siryo/__icsFiles/afieldfile/2011/04/14/1303377_1_1.pdf

いちばんやさしい、医療統計
https://best-biostatistics.com/category/surviv