EnCodecMAE: Leveraging neural codecs for universal audio representation learning | allainews.com

May 22, 2024, 4:43 a.m. | Leonardo Pepino, Pablo Riera, Luciana Ferrer

cs.LG updates on arXiv.org arxiv.org

arXiv:2309.07391v2 Announce Type: replace-cross
Abstract: The goal of universal audio representation learning is to obtain foundational models that can be used for a variety of downstream tasks involving speech, music and environmental sounds. To approach this problem, methods inspired by works on self-supervised learning for NLP, like BERT, or computer vision, like masked autoencoders (MAE), are often adapted to the audio domain. In this work, we propose masking representations of the audio signal, and training a MAE to reconstruct the …

abstract arxiv audio bert computer computer vision cs.lg cs.sd eess.as environmental foundational foundational models music nlp replace representation representation learning self-supervised learning speech supervised learning tasks type universal vision

More from arxiv.org / cs.LG updates on arXiv.org

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior 1 day, 21 hours ago | arxiv.org

arxiv consistent cs.cv cs.lg +6

Machine-learned models for magnetic materials 1 day, 21 hours ago | arxiv.org

abstract arxiv autoencoder cond-mat.mtrl-sci +17

Revisiting RIP guarantees for sketching operators on mixture models 1 day, 21 hours ago | arxiv.org

abstract alternative analysis arxiv +9

Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata 1 day, 21 hours ago | arxiv.org

abstract accuracy arxiv assessment +16

Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification 1 day, 21 hours ago | arxiv.org

abstract arxiv audio cs.cv +18

Neural-network quantum state study of the long-range antiferromagnetic Ising chain 1 day, 21 hours ago | arxiv.org

abstract arxiv boltzmann cond-mat.quant-gas +12

Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on … 1 day, 21 hours ago | arxiv.org

abstract arxiv assumptions cs.lg +22

Vortex Feature Positioning: Bridging Tabular IIoT Data and Image-Based Deep Learning 1 day, 21 hours ago | arxiv.org

abstract arxiv cs.cv cs.lg +19

Provably Efficient Exploration in Quantum Reinforcement Learning with Logarithmic Worst-Case Regret 1 day, 21 hours ago | arxiv.org

abstract algorithms arxiv attention +20

Senior Data Engineer

@ Displate | Warsaw

View on ai-jobs.net

Analyst, Data Analytics

@ T. Rowe Price | Owings Mills, MD - Building 4

View on ai-jobs.net

Regulatory Data Analyst

@ Federal Reserve System | San Francisco, CA

View on ai-jobs.net

Sr. Data Analyst

@ Bank of America | Charlotte

View on ai-jobs.net

Data Analyst- Tech Refresh

@ CACI International Inc | 1J5 WASHINGTON DC (BOLLING AFB)

View on ai-jobs.net

Senior AML/CFT & Data Analyst

@ Ocorian | Ebène, Mauritius

View on ai-jobs.net