R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces | allainews.com

April 2, 2024, 7:52 p.m. | Heng-Jui Chang, James Glass

cs.CL updates on arXiv.org arxiv.org

arXiv:2311.09117v2 Announce Type: replace
Abstract: This paper introduces Robust Spin (R-Spin), a data-efficient domain-specific self-supervision method for speaker and noise-invariant speech representations by learning discrete acoustic units with speaker-invariant clustering (Spin). R-Spin resolves Spin's issues and enhances content representations by learning to predict acoustic pieces. R-Spin offers a 12X reduction in computational resources compared to previous state-of-the-art methods while outperforming them in severely distorted speech scenarios. This paper provides detailed analyses to show how discrete units contribute to speech encoder …

abstract arxiv clustering cs.cl cs.sd data domain eess.as noise paper representation representation learning robust speaker speech spin supervision type units

More from arxiv.org / cs.CL updates on arXiv.org

Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation 3 hours ago | arxiv.org

abstract arxiv asr audio +22

Holmes: Towards Distributed Training Across Clusters with Heterogeneous NIC Environment 3 hours ago | arxiv.org

abstract accuracy arxiv continuous +17

MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria 3 hours ago | arxiv.org

arxiv cs.cl llms mllm +5

The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics 3 hours ago | arxiv.org

abstract arxiv challenges computational +18

HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation 3 hours ago | arxiv.org

abstract apis arxiv costs +22

Prompt have evil twins 3 hours ago | arxiv.org

abstract arxiv behavior call +9

Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction 3 hours ago | arxiv.org

abstract arxiv challenges cond-mat.mtrl-sci +16

SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition 3 hours ago | arxiv.org

abstract arxiv asr attention +19

An Interactive Framework for Profiling News Media Sources 3 hours ago | arxiv.org

abstract arxiv cs.cl fake +10

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Research Scientist - XR Input Perception

@ Meta | Sausalito, CA | Redmond, WA | Burlingame, CA

View on ai-jobs.net

Sr. Data Engineer

@ Oportun | Remote - India

View on ai-jobs.net