腫瘍学試験における毒性抽出のための大規模言語モデル:前立腺放射線療法における実世界のベンチマーク。

原題
Large language models for toxicity extraction in oncology trials: A real-world benchmark in prostate radiotherapy.
背景:CTCAEの毒性報告は手間がかかり、ばらつきがある。LLMは有害事象の抽出を自動化する可能性があるが、相対的なパフォーマンスとコストは不明である。

方法:5つのLLMを、精度、F1、コーエンのカッパ係数、および費用を測定して、前立腺放射線療法試験(n=55、8,968記録)でルール拡張少数ショットプロンプトを用いて試験した。

結果:バイナリ精度84.6-87.4%、グレード精度79.1-83.5%。感度はGemini 2.5 Pro(74.0%)でピークに達し、特異度は96.0%(GPT 4o)であった。コーエンのカッパ係数は中程度の一致を示した。費用は0.77ドルから21ドル以上の範囲であった。

結論:既製のLLMは、グレードレベルの精度を改善する必要があるが、低コストで人間の評価者間のパフォーマンスに近い毒性を抽出できる。
Journal: Radiother Oncol (CiteScore 2022: 10.5)
DOI: 10.1016/j.radonc.2025.111348
PMID: 41419026

コメント

タイトルとURLをコピーしました