LLM-RadJudge: Achieving Radiologist-Level Evaluation for X-Ray Report Generation | allainews.com

April 2, 2024, 7:52 p.m. | Zilong Wang, Xufang Luo, Xinyang Jiang, Dongsheng Li, Lili Qiu

cs.CL updates on arXiv.org arxiv.org

arXiv:2404.00998v1 Announce Type: new
Abstract: Evaluating generated radiology reports is crucial for the development of radiology AI, but existing metrics fail to reflect the task's clinical requirements. This study proposes a novel evaluation framework using large language models (LLMs) to compare radiology reports for assessment. We compare the performance of various LLMs and demonstrate that, when using GPT-4, our proposed metric achieves evaluation consistency close to that of radiologists. Furthermore, to reduce costs and improve accessibility, making this method practical, …

abstract arxiv assessment clinical cs.ai cs.cl development evaluation framework generated language language models large language large language models llm llms metrics novel performance radiologist radiology ray report reports requirements study type x-ray

More from arxiv.org / cs.CL updates on arXiv.org

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding 21 hours ago | arxiv.org

abstract alternative arxiv bayes +17

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models 21 hours ago | arxiv.org

abstract advances architectures arxiv +21

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models 21 hours ago | arxiv.org

abstract arxiv audio audio generation +26

Model-Based Minimum Bayes Risk Decoding for Text Generation 21 hours ago | arxiv.org

abstract alternative arxiv bayes +15

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models 21 hours ago | arxiv.org

abstract arxiv cond-mat.mtrl-sci cs.ai +28

Leveraging Large Language Models for NLG Evaluation: Advances and Challenges 21 hours ago | arxiv.org

abstract advances arxiv challenges +21

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding 21 hours ago | arxiv.org

abstract algorithms arxiv bayes +15

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization 21 hours ago | arxiv.org

arxiv attacks cs.cl jailbreaking +7

Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment 21 hours ago | arxiv.org

abstract alignment arxiv bias +27

Senior Machine Learning Engineer

@ GPTZero | Toronto, Canada

View on ai-jobs.net

Customer Data Analyst with Spanish

@ Michelin | Voluntari

View on ai-jobs.net

HC Data Analyst - Senior

@ Leidos | 1662 Intelligence Community Campus - Bethesda MD

View on ai-jobs.net

Healthcare Research & Data Analyst- Infectious, Niche, Rare Disease

@ Clarivate | Remote (121- Massachusetts)

View on ai-jobs.net

Data Analyst (maternity leave cover)

@ Clarivate | R155-Belgrade

View on ai-jobs.net

Sales Enablement Data Analyst (Remote)

@ CrowdStrike | USA TX Remote

View on ai-jobs.net