予防・個別医療に向けた時系列マルチモーダルデータに基づく状態遷移予測モデル構築
川上 英良 先生

理化学研究所 医科学イノベーションハブ推進プログラム
健康医療データ多層統合プラットフォーム推進グループ 
健康医療データAI 予測推論開発ユニット ユニットリーダー

それでは今回のご研究について、詳しく教えてください。

1年目は、卵巣腫瘍患者約450人(悪性卵巣腫瘍334人、良性卵巣腫瘍101人)を5年間追跡調査した臨床データをもとに、手術前の血液検査データ32項目から、腫瘍の種類(良性/悪性)および進行度(早期/末期)を見分ける手法を開発しました。

卵巣ガンは、手術によって卵巣の状態を確認した時点で転移があれば「末期ガン」、転移がなければ「早期ガン」と分類されます。しかし、早期ガンと診断された患者が手術後数年を待たずに再発したり、逆に末期ガンと診断された患者が何年も再発しない例があります。

そのため、私は「早期ガンに似た末期ガン」または「末期ガンに似た早期ガン」があると考え、術前の血液検査データの32項目に基づいて、ランダムフォレスト法を用いた距離計算を応用し、患者の類似度を計算しました。詳細については割愛しますが、結果は次の図の通りです。

術前血液検査データに基づく卵巣ガンの教師なしクラスタリング

1つの点が1人の患者であり、似ている患者は近くに、異なる患者は遠くに配置されます。良性腫瘍の患者は左側に、末期ガンの患者は右側に、明瞭に分かれました。

さらに、早期ガンだけを抜き出したBの分布図を見ると、ほぼ良性腫瘍に近い患者と、明らかに末期ガンに近い患者がいることがわかります。数年内に亡くなった患者(四角)とガンが再発した患者(三角)は、右側に集まっています。

早期ガンという一つの分類のなかに、これほど再発率の違いがあったとは驚きです。

手術前の血液検査データから「良性腫瘍」「良性腫瘍に近いタイプの早期ガン」「末期ガンに近いタイプの早期ガン」「末期ガン」が識別可能である、というこの研究成果を日本婦人科腫瘍学会で発表した際、大きな反響がありました。術前の血液検査の各々の項目について調べても、統計では有意な差が得られなかったためです。しかし機械学習によって32項目を複合的に見ることで、患者の特定パターンを発見することができました。

今後はこの成果をもとに、異なる階層から得られる複数データの相互作用を明らかにすることにより「アトピー性皮膚炎患者の病態変化を高精度で予測するモデル」の構築を目指します。

医学と数学という、2つのバックグラウンドを持つ先生だからこそ可能な研究であると感じます。2年目は、どのような研究をされたのですか。

疾患の状態遷移を予測するアルゴリズムを開発するため、55人の更年期障害患者に3回(初診時、1ヵ月後、4ヵ月後)質問票に回答してもらい、経時的データを収集しました。そのデータから複数の「現れやすい状態」と「その状態に向かうパターン」を抽出し、エネルギーランドスケープモデルによって可視化させました。

赤い部分はエネルギーが高く不安定な山、青から紫の部分はエネルギーが低く安定しやすい谷、という地形図をイメージしてください。患者さんの4ヵ月の疾患状態のうち、よく現れるのが谷の状態、滅多に現れないのが山の状態です。

エネルギーランドスケープモデルによる更年期障害患者の状態遷移の可視化

「現れやすい状態」は2カ所ありますが、どの地形(状態)にいるかで、次にどの地形(状態)に移動しやすいのかが分かる、ということでしょうか。

はい。現在は、治療内容、家庭環境、仕事の種類などの情報を追加し、患者のタイプおよびタイプ別の状態遷移モデルを構築しているところです。これが完成すれば、医師が患者のタイプに応じて適切な治療方針を決定する際の、大きな指標になるはずです。

研究チームには大学で物理学や数学を修めた後に医学領域に参入した人材が集まり、応用的な解析を手がけている