BMX: Boosting Natural Language Generation Metrics with Explainability | allainews.com

Feb. 20, 2024, 5:52 a.m. | Christoph Leiter, Hoa Nguyen, Steffen Eger

cs.CL updates on arXiv.org arxiv.org

arXiv:2212.10469v2 Announce Type: replace
Abstract: State-of-the-art natural language generation evaluation metrics are based on black-box language models. Hence, recent works consider their explainability with the goals of better understandability for humans and better metric analysis, including failure cases. In contrast, our proposed method BMX: Boosting Natural Language Generation Metrics with explainability explicitly leverages explanations to boost the metrics' performance. In particular, we perceive feature importance explanations as word-level scores, which we convert, via power means, into a segment-level score. We …

abstract analysis art arxiv boosting box cases contrast cs.cl evaluation evaluation metrics explainability failure humans language language generation language models metrics natural natural language natural language generation state type

More from arxiv.org / cs.CL updates on arXiv.org

Sparse is Enough in Fine-tuning Pre-trained Large Language Models 16 hours ago | arxiv.org

arxiv cs.ai cs.cl cs.lg +6

On the Learnability of Watermarks for Language Models 16 hours ago | arxiv.org

abstract arxiv cs.cl cs.cr +17

StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization 16 hours ago | arxiv.org

abstract arxiv capabilities cs.ai +14

Evaluating Generative Ad Hoc Information Retrieval 16 hours ago | arxiv.org

abstract advances arxiv cs.cl +19

Language Models As Semantic Indexers 16 hours ago | arxiv.org

arxiv cs.cl cs.ir cs.lg +4

Large language models can accurately predict searcher preferences 16 hours ago | arxiv.org

abstract arxiv cs.ai cs.cl +16

On the Reliability of Watermarks for Large Language Models 16 hours ago | arxiv.org

abstract arxiv become bots +28

A Watermark for Large Language Models 16 hours ago | arxiv.org

abstract arxiv cs.cl cs.cr +16

CreoleVal: Multilingual Multitask Benchmarks for Creoles 16 hours ago | arxiv.org

abstract annotated data arxiv benchmarks +14

AI Research Scientist

@ Vara | Berlin, Germany and Remote

View on ai-jobs.net

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Lead Data Scientist, Commercial Analytics

@ Checkout.com | London, United Kingdom

View on ai-jobs.net

Data Engineer I

@ Love's Travel Stops | Oklahoma City, OK, US, 73120

View on ai-jobs.net