Simplicity Bias of Transformers to Learn Low Sensitivity Functions | allainews.com

March 12, 2024, 4:42 a.m. | Bhavya Vasudeva, Deqing Fu, Tianyi Zhou, Elliott Kau, Youqi Huang, Vatsal Sharan

cs.LG updates on arXiv.org arxiv.org

arXiv:2403.06925v1 Announce Type: new
Abstract: Transformers achieve state-of-the-art accuracy and robustness across many tasks, but an understanding of the inductive biases that they have and how those biases are different from other neural network architectures remains elusive. Various neural network architectures such as fully connected networks have been found to have a simplicity bias towards simple functions of the data; one version of this simplicity bias is a spectral bias to learn simple functions in the Fourier space. In this …

abstract accuracy architectures art arxiv bias biases cs.ai cs.cl cs.lg found functions inductive learn low network networks neural network robustness sensitivity simplicity state stat.ml tasks transformers type understanding

More from arxiv.org / cs.LG updates on arXiv.org

Training towards significance with the decorrelated event classifier transformer neural network 1 day, 12 hours ago | arxiv.org

abstract analysis application arxiv +28

An adaptive standardisation methodology for Day-Ahead electricity price forecasting 1 day, 12 hours ago | arxiv.org

abstract algorithms arxiv complexity +18

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems 1 day, 12 hours ago | arxiv.org

abstract arxiv cs.cv cs.lg +17

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods 1 day, 12 hours ago | arxiv.org

abstract algorithms arxiv augmentation +17

Description-Based Text Similarity 1 day, 12 hours ago | arxiv.org

abstract arxiv cases cs.cl +14

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning 1 day, 12 hours ago | arxiv.org

abstract algorithms applications arxiv +13

A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference 1 day, 12 hours ago | arxiv.org

abstract applications arxiv as-a-service +26

Digital Over-the-Air Federated Learning in Multi-Antenna Systems 1 day, 12 hours ago | arxiv.org

abstract arxiv communication computation +16

Bagging Provides Assumption-free Stability 1 day, 12 hours ago | arxiv.org

abstract algorithm arxiv assumptions +15

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Global Data Architect, AVP - State Street Global Advisors

@ State Street | Boston, Massachusetts

View on ai-jobs.net

Data Engineer

@ NTT DATA | Pune, MH, IN

View on ai-jobs.net