ChatGPT自己診断の信頼性の低さとその改善法、東京医科歯科大学が検証

東京医科歯科大学の研究グループは、整形外科疾患の自己診断におけるChatGPTの信頼性を検証し、その診断の正答率および再現性が低いという問題点を示した。また質問の仕方次第でその正答率が変化することを発見し、高い信頼性を得るための重要なポイントを明らかにした。

生成AIによるチャットボットを利用して病院受診前に自己診断を行う患者も増えてきており、今後増加の一途を辿ることが予想される。しかし、自己診断におけるChatGPTの正答率を評価した研究はいくつかあるが、その再現性や受診勧奨の程度に関する研究はなかった。

今回の研究では、5人の研究者が、5つの整形外科疾患に関する質問を、5日間にわたり、全く同じ文面でChatGPT(ver. 3.5)に繰り返し質問し、その回答結果を検証した。疾患により正答率、再現性は異なり、最も低いものではわずか4%の正答率で、再現性も「悪い」と評価された。また、回答内にて医療機関受診をしっかりと推奨していたものは全体の13%程度に留まった。さらに、質問の仕方によって正答率が異なることを見出し、より好ましい質問の形式を提示した。

今回の研究は、ChatGPTの医療利用での問題点を浮き彫りにした。生成AIの自己診断ツールとしての安全性を向上させ、医療補助向けの新たな生成AIシステム開発への大きな貢献が期待できるとしている。今後、病態ごとに適切な質問方法を探り、ChatGPT以外の生成AIや新バージョンのChatGPTを用いた研究を進め、その信頼性を評価する予定という。

論文情報:

【Journal of Medical Internet Research】The potential of ChatGPT as a self-diagnostic tool in common orthopedic diseases: An exploratory study

© 大学ジャーナルオンライン