原題
ChatGPT Versus DeepSeek: Assessing Artificial Intelligence Performance on Radiation Oncology Examination Questions.
背景:この最初の評価では、放射線腫瘍委員会スタイルの質問に答えるために、新しい大規模言語モデルであるDeepSeek-R1とChatGPT o1を比較した。
方法:両モデルとも、解剖学、計画、疫学、およびランドマーク試験を対象とした600の多肢選択式の現職試験問題でプロンプトを出し、精度、トークン、および実行時間を記録して比較した(α=0.05)。
結果:DeepSeek-R1は84.0%の正解率、59秒/質問であり、精度はカテゴリーによって異なり(p=0.012)、ランドマーク研究で最も低かった(74.2%)。ChatGPT o1は89.0%の正解率、10秒/質問であり、ランドマーク研究では93.5%であった。DeepSeekは7.2%多くのトークンを使用した。2025年2月のコスト:DeepSeek≈1.56ドル、ChatGPT≈37.96ドル。
結論:DeepSeek-R1は安価であるが、低速で精度が低く、トレードオフが実装の指針となるはずである。
Journal: Adv Radiat Oncol (CiteScore 2022: 4.5)
DOI: 10.1016/j.adro.2025.101929
PMID: 41404490

コメント