Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation | allainews.com

June 21, 2024, 4:41 a.m. | Yuhang Zhou, Jing Zhu, Paiheng Xu, Xiaoyu Liu, Xiyao Wang, Danai Koutra, Wei Ai, Furong Huang

cs.CL updates on arXiv.org arxiv.org

arXiv:2406.13114v1 Announce Type: new
Abstract: Large language models (LLMs) have significantly advanced various natural language processing tasks, but deploying them remains computationally expensive. Knowledge distillation (KD) is a promising solution, enabling the transfer of capabilities from larger teacher LLMs to more compact student models. Particularly, sequence-level KD, which distills rationale-based reasoning processes instead of merely final outcomes, shows great potential in enhancing students' reasoning capabilities. However, current methods struggle with sequence level KD under long-tailed data distributions, adversely affecting generalization …

abstract advanced arxiv capabilities challenges compact cs.ai cs.cl deploying distillation enabling knowledge language language models language processing large language large language models llms natural natural language natural language processing processing solution stage tasks them transfer type

More from arxiv.org / cs.CL updates on arXiv.org

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector 2 days, 5 hours ago | arxiv.org

abstract arxiv audio cs.cl +22

Can Large Language Model Summarizers Adapt to Diverse Scientific Communication Goals? 2 days, 5 hours ago | arxiv.org

abstract adapt arxiv communication +23

ReFT: Reasoning with Reinforced Fine-Tuning 2 days, 5 hours ago | arxiv.org

abstract annotations arxiv capability +22

Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability 2 days, 5 hours ago | arxiv.org

abstract accuracy arxiv cs.cl +13

Exploring Defeasibility in Causal Reasoning 2 days, 5 hours ago | arxiv.org

abstract arxiv causal causal reasoning +7

Can Large Language Models Follow Concept Annotation Guidelines? A Case Study on Scientific and Financial … 2 days, 5 hours ago | arxiv.org

abstract annotation arxiv capacity +26

Theory of Mind for Multi-Agent Collaboration via Large Language Models 2 days, 5 hours ago | arxiv.org

abstract agent agents arxiv +28

Enhancing Text-based Knowledge Graph Completion with Zero-Shot Large Language Models: A Focus on Semantic Enhancement 2 days, 5 hours ago | arxiv.org

arxiv cs.ai cs.cl focus +12

A Large Language Model Approach to Educational Survey Feedback Analysis 2 days, 5 hours ago | arxiv.org

abstract analysis arxiv capabilities +27

Software Engineer II –Decision Intelligence Delivery and Support

@ Bristol Myers Squibb | Hyderabad

View on ai-jobs.net

Senior Data Governance Consultant (Remote in US)

@ Resultant | Indianapolis, IN, United States

View on ai-jobs.net

Power BI Developer

@ Brompton Bicycle | Greenford, England, United Kingdom

View on ai-jobs.net

VP, Enterprise Applications

@ Blue Yonder | Scottsdale

View on ai-jobs.net

Data Scientist - Moloco Commerce Media

@ Moloco | Redwood City, California, United States

View on ai-jobs.net

Senior Backend Engineer (New York)

@ Kalepa | New York City. Hybrid

View on ai-jobs.net