
データ融合では、データの共通部分を増やすように整形するほど、学習に有利になるはずと考えていました。例えば同じ項目で整数値のデータベースと小数点第1位までのデータベースがある場合、四捨五入して整数値に要約すれば、共通部分が増えて合わせやすいのです。しかし、四捨五入された値から元の値を復元できないように、要約は情報の損失を意味します。
さらに、QOL(Quality of Life)、フレイル(虚弱な状態)のような概念を表すスコアには、同じ測定項目が重複して要約されている場合もあります。これらの要約はそれ自体がバイアスになり推定精度を悪化させるため、データはできるだけ要約せずに扱う必要があることが分かりました。
他にも、過去に行われた特定のRCTをデータベース上で模倣して結果を再現できるかなどの検証を重ね、データ融合において注意すべき重要なポイントをいくつか発見しました。これらに留意しつつ複数のデータベースをつなげていけば、その先には、充分な情報量を持ち、かつ、現実世界より一歩進んだ高次元データ空間「デジタルツイン」があると考えています。
データ融合の手法は様々な分野で発展しており、他分野から学ぶことも多い。融合されてできたデータベースから因果関係を推論する手法を導くことが、データサイエンスにおいて医学分野の果たすべき役割と考えている従来の疫学の対象は集団です。RCTでは、介入した集団と介入しなかった集団、それぞれの結果の平均値の差をAverage Treatment Effect(ATE)として算出しますが、実際には平均より大きな効果がある人もいるし、ほとんど効果がない人もいます。したがってRCTの結果からは、集団でみれば効果がある治療でも、個別の患者さんには「あなたが同じ治療を受けたとしても、効果は必ずしも保証できません」としか言えないのです。
一方、個別の介入効果は、同じ人が介入を受けた場合と受けなかった場合の差、Individual Treatment Effect(ITE)で表されます。もちろん現実には同じ人間はいませんから、ITEの実際の測定は不可能です。
しかし、デジタルツインには新しい可能性があります。膨大なデータを活用してRCTに対するモデルを作ることで、実際は薬を飲まなかった人が「もし飲んでいたらどれくらい効果があった」か、またはその逆も、推定可能になりえるのです。それこそが臨床で求められるデータであり、RCTのさらに先にある新しい価値といえるでしょう。現在、より精緻なモデルによってITEを具体的に示すことを目標に掲げています。
縦軸はアウトカム値、横軸は年齢や性別、病歴など、疾病の背景要因になりうるものをスコアリングして1次元に射影した要約値(Propensity Score)。モデリングによって、個人のPropensity Scoreに対応するITEの推定が可能になる今後も医療ビッグデータの重要性が増していくことは間違いありません。ただし、人間の健康は複雑で多次元です。高価な薬を一生懸命飲むことより、本人の意識や生活を変えることのほうが、大きなインパクトを持つかもしれません。その効果を定量的に評価することには大きな意義があると考えています。
そのためには「患者報告アウトカム尺度(patient-reported outcome measures、PROM)」のような、患者の主観に基づく尺度を組み込む必要があるでしょう。さらには、まったく違う分野のデータ、例えば医療データと気象データを組み合わせれば、健康と気象の関係が明らかになる可能性もあります。包括的に人間の健康を理解するために、今回開発したデータ融合の手法がキーになると期待しています。
挑戦的研究助成の大きなメリットは、3年間というまとまった時間をいただけることと、その間に継続的なメンタリングの機会をいただけることだと思います。
メンタリングのたびに著名な先生方からクリティカルな指摘を含む貴重なご意見をいただき、すごく悩みながら、ご指摘への回答となる研究成果を出せるように奮闘してきました。思うような結果が出なかった時もそれで終わりではなく、「なぜうまくいかなかったのか?」「その失敗から得るものは?」と、いい意味で追い込んでいただきました。
また、多くの研究助成は期間が1年間ですが、1年間と3年間では大きな違いがあると実感しました。時間に余裕があるおかげで、1度は挫折しても軌道修正して再挑戦することができ、それがいくつかの発見につながりました。それらは世界から見れば小さな発見かもしれませんが、この研究のなかでは非常に重要なファクターでした。3年という時間、そしてメンタリングでの叱咤激励がなければ到達できなかった成果であり、心から感謝しています。
今までにない形でデータを組み合わせ、人間の健康の多次元性を評価する。この構想が空想で終わらないように、データが確かに現実を反映しているかにも留意しつつ、複雑な世界の解明を目指す