Emergent Abilities in Reduced-Scale Generative Language Models | allainews.com

April 4, 2024, 4:42 a.m. | Sherin Muckatira, Vijeta Deshpande, Vladislav Lialin, Anna Rumshisky

cs.LG updates on arXiv.org arxiv.org

arXiv:2404.02204v1 Announce Type: cross
Abstract: Large language models can solve new tasks without task-specific fine-tuning. This ability, also known as in-context learning (ICL), is considered an emergent ability and is primarily seen in large language models with billions of parameters. This study investigates if such emergent properties are strictly tied to model size or can be demonstrated by smaller models trained on reduced-scale data. To explore this, we simplify pre-training data and pre-train 36 causal language models with parameters varying …

abstract arxiv context cs.cl cs.lg fine-tuning generative in-context learning language language models large language large language models parameters scale solve study tasks type

More from arxiv.org / cs.LG updates on arXiv.org

Red-Teaming for Generative AI: Silver Bullet or Security Theater? 20 minutes ago | arxiv.org

abstract arxiv concerns cs.cy +15

Efficient Data-Driven MPC for Demand Response of Commercial Buildings 20 minutes ago | arxiv.org

abstract arxiv buildings commercial +20

BrepGen: A B-rep Generative Diffusion Model with Structured Latent Geometry 20 minutes ago | arxiv.org

arxiv cs.cv cs.lg diffusion +5

Data-Driven Physics-Informed Neural Networks: A Digital Twin Perspective 20 minutes ago | arxiv.org

abstract arxiv automated construction +26

Testing the Segment Anything Model on radiology data 20 minutes ago | arxiv.org

abstract applications arxiv become +20

Robust Point Matching with Distance Profiles 20 minutes ago | arxiv.org

abstract analyze arxiv cs.lg +13

Cell Maps Representation For Lung Adenocarcinoma Growth Patterns Classification In Whole Slide Images 20 minutes ago | arxiv.org

abstract arxiv behavior classification +18

Improved Baselines with Visual Instruction Tuning 20 minutes ago | arxiv.org

abstract academic arxiv clip +25

Calorimeter shower superresolution 20 minutes ago | arxiv.org

abstract arxiv challenge computational +16

Software Engineer for AI Training Data (School Specific)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Python)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Tier 2)

@ G2i Inc | Remote

View on ai-jobs.net

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net