ElitePLM: An Empirical Study on General Language Ability Evaluation of Pretrained Language Models. (arXiv:2205.01523v1 [cs.CL]) | allainews.com

May 4, 2022, 1:11 a.m. | Junyi Li, Tianyi Tang, Zheng Gong, Lixin Yang, Zhuohao Yu, Zhipeng Chen, Jingyuan Wang, Wayne Xin Zhao, Ji-Rong Wen

cs.CL updates on arXiv.org arxiv.org

Nowadays, pretrained language models (PLMs) have dominated the majority of
NLP tasks. While, little research has been conducted on systematically
evaluating the language abilities of PLMs. In this paper, we present a
large-scale empirical study on general language ability evaluation of PLMs
(ElitePLM). In our study, we design four evaluation dimensions, i.e. memory,
comprehension, reasoning, and composition, to measure ten widely-used PLMs
within five categories. Our empirical results demonstrate that: (1) PLMs with
varying training objectives and strategies are good …

arxiv evaluation general language language models study

More from arxiv.org / cs.CL updates on arXiv.org

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation 21 hours ago | arxiv.org

abstract arxiv causal cs.ai +24

Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval 21 hours ago | arxiv.org

arxiv cs.ai cs.cl cs.ir +8

Visual Grounding Methods for VQA are Working for the Wrong Reasons! 21 hours ago | arxiv.org

abstract arxiv attention bias +17

Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations 21 hours ago | arxiv.org

abstract arxiv cs.cl image +15

PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging 21 hours ago | arxiv.org

arxiv cs.ai cs.cl fine-tuning +9

README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP 21 hours ago | arxiv.org

abstract access advancement arxiv +22

The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text 21 hours ago | arxiv.org

abstract arxiv consequences cs.cl +18

Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers 21 hours ago | arxiv.org

arxiv benchmark checkers cs.cl +3

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code 21 hours ago | arxiv.org

arxiv code cs.ai cs.cl +10

Data Scientist (m/f/x/d)

@ Symanto Research GmbH & Co. KG | Spain, Germany

View on ai-jobs.net

(Fluent Ukrainian) ML Engineer

@ Outstaff Your Team | Warsaw, Masovian Voivodeship, Poland - Remote

View on ai-jobs.net

Senior Back-end Engineer (Cargo Models)

@ Kpler | London

View on ai-jobs.net

Senior Data Science Manager, Marketplace Foundations

@ Reddit | Remote - United States

View on ai-jobs.net

Intermediate Data Engineer

@ JUMO | South Africa

View on ai-jobs.net

Data Engineer ( remote )

@ AssistRx | Orlando, Florida, United States - Remote

View on ai-jobs.net