[R] Is Mamba Capable of In-Context Learning? | allainews.com

Feb. 6, 2024, 6:41 a.m. | /u/Yossarian_1234

Machine Learning www.reddit.com

*Link:* [https://arxiv.org/abs/2402.03170](https://arxiv.org/abs/2402.03170)

*Authors:* Riccardo Grazzi\*, Julien Siems\*, Simon Schrodi, Thomas Brox, Frank Hutter

\*equal contribution

*Abstract:* This work provides empirical evidence that Mamba, a newly proposed selective structured state space model, has similar in-context learning (ICL) capabilities as transformers. We evaluated Mamba on tasks involving simple function approximation as well as more complex natural language processing problems. Our results demonstrate that across both categories of tasks, Mamba matches the performance of transformer models for ICL. Further analysis reveals that like …

abstract approximation authors capabilities context evidence function in-context learning language language processing machinelearning mamba natural natural language natural language processing processing simple space state tasks thomas transformers work

More from www.reddit.com / Machine Learning

[P] NLLB-200 Distill 350M for en-ko 6 hours ago | www.reddit.com

cpu english good gpu +9

[D] Real talk about RAG 14 hours ago | www.reddit.com

data deal documents machinelearning +5

[P] Classification finetuning experiments on small GPT-2 sized LLMs 19 hours ago | www.reddit.com

acc classification context cpu +16

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 20 hours ago | www.reddit.com

70b art biomedical domain +16

How do I convince my superior to do data preprocessing? [D] 20 hours ago | www.reddit.com

ai engineer build chat chatbots +11

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 20 hours ago | www.reddit.com

70b art biomedical domain +16

[D] Mathematical aspects of tokenization 22 hours ago | www.reddit.com

compression educational encoding entropy +7

[R] Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey 1 day ago | www.reddit.com

abstract advancement application challenges +15

[D] Does it make sense to talk about the probabilities of models? 1 day, 6 hours ago | www.reddit.com

compute data likelihood machinelearning +4

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Research Scientist

@ Meta | Menlo Park, CA

View on ai-jobs.net

Principal Data Scientist

@ Mastercard | O'Fallon, Missouri (Main Campus)

View on ai-jobs.net