医用画像診断AIと医学的所見の間に予想外に大きな隔たり、東北大学が検証

東北大学大学院の曾昱雯(ソウ・イブン)助教らの研究グループは、先行研究で高性能を達成した深層学習モデルの注目領域と、医師の診断に基づく重要領域を比較した結果、注目領域の30%~80%は医学的な重要領域と無関係であり、両者に大きな齟齬があることが明らかになった。

深層学習などの人工知能(AI)は進歩が著しく、医用画像診断への応用が進められている。しかし、深層学習モデルが注目した医用画像の特徴が医学的所見とどの程度一致しているかなどの妥当性の検証は不十分であり、臨床において、医師の診断結果との乖離を引き起こす可能性が危惧されている。

研究グループは、法医学の死後画像を用いた溺水診断を例に取り上げ、先行研究で高性能を達成した深層学習モデルの医学的妥当性を検証した。深層学習モデルが注目した画像特徴を可視化技術で特定し「注目領域」とし、放射線診断医の画像所見に基づいて注釈した画像領域を医学的な「重要領域」と定義し、モデルの注目領域と比較した。

その結果、モデルの注目領域は、少ない場合だと30%しか医学的な重要領域と一致しなかった。また、80%程度一致する場合でも、領域中で重要視する位置が異なっていた。検証した深層学習モデルが先行研究で90%以上の高い正答率で溺死を分類可能であったと報告されていることから考えると、モデルと臨床上の医学的所見の間に予想外に大きな齟齬があったといえる。

研究はAIによる医用画像診断の医学的な妥当性に懸念があることを示しており、今後、新たな訓練法の開発など検証と対策を進めることで、安全性の高いAIの臨床応用が期待されるとしている。

論文情報:

【Journal of Imaging Informatics in Medicine】Inconsistency between Human Observation and Deep LearningModels: Assessing Validity of Postmortem Computed Tomography Diagnosisof Drowning

© 大学ジャーナルオンライン