Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot | allainews.com

June 12, 2024, 4:47 a.m. | Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee

cs.LG updates on arXiv.org arxiv.org

arXiv:2406.06893v1 Announce Type: cross
Abstract: The transformer architecture has prevailed in various deep learning settings due to its exceptional capabilities to select and compose structural information. Motivated by these capabilities, Sanford et al. proposed the sparse token selection task, in which transformers excel while fully-connected networks (FCNs) fail in the worst case. Building upon that, we strengthen the FCN lower bound to an average-case setting and establish an algorithmic separation of transformers over FCNs. Specifically, a one-layer transformer trained with …

abstract architecture arxiv capabilities compose cs.it cs.lg deep learning excel fail information learn math.it networks stat.ml token transformer transformer architecture transformers type while

More from arxiv.org / cs.LG updates on arXiv.org

Bayesian identification of nonseparable Hamiltonians with multiplicative noise using deep learning and reduced-order modeling 23 minutes ago | arxiv.org

abstract arxiv bayesian cs.lg +17

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning 23 minutes ago | arxiv.org

abstract analysis arxiv cs.cv +16

Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries 23 minutes ago | arxiv.org

arxiv cs.cv cs.lg detection +3

MixerFlow: MLP-Mixer meets Normalising Flows 23 minutes ago | arxiv.org

abstract architectures arxiv context +15

Machine Learning-Enabled Software and System Architecture Frameworks 23 minutes ago | arxiv.org

abstract architecture arxiv concerns +22

Efficient Interaction-Aware Interval Analysis of Neural Network Feedback Loops 23 minutes ago | arxiv.org

abstract analysis arxiv cs.lg +19

Kernelised Normalising Flows 23 minutes ago | arxiv.org

abstract architecture arxiv capabilities +14

GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism 24 minutes ago | arxiv.org

abstract arxiv class cs.dc +25

Reinforcement Learning in Credit Scoring and Underwriting 24 minutes ago | arxiv.org

abstract action adapt arxiv +17

AI Focused Biochemistry Postdoctoral Fellow

@ Lawrence Berkeley National Lab | Berkeley, CA

View on ai-jobs.net

Senior Data Engineer

@ Displate | Warsaw

View on ai-jobs.net

Solutions Architect

@ PwC | Bucharest - 1A Poligrafiei Boulevard

View on ai-jobs.net

Research Fellow (Social and Cognition Factors, CLIC)

@ Nanyang Technological University | NTU Main Campus, Singapore

View on ai-jobs.net

Research Aide - Research Aide I - Department of Psychology

@ Cornell University | Ithaca (Main Campus)

View on ai-jobs.net

Technical Architect - SMB/Desk

@ Salesforce | Ireland - Dublin

View on ai-jobs.net