I see what you hear: a vision-inspired method to localize words. (arXiv:2210.13567v1 [cs.CV]) | allainews.com

Oct. 26, 2022, 1:11 a.m. | Mohammad Samragh, Arnav Kundu, Ting-Yao Hu, Minsik Cho, Aman Chadha, Ashish Shrivastava, Oncel Tuzel, Devang Naik

cs.LG updates on arXiv.org arxiv.org

This paper explores the possibility of using visual object detection
techniques for word localization in speech data. Object detection has been
thoroughly studied in the contemporary literature for visual data. Noting that
an audio can be interpreted as a 1-dimensional image, object localization
techniques can be fundamentally useful for word localization. Building upon
this idea, we propose a lightweight solution for word detection and
localization. We use bounding box regression for word localization, which
enables our model to detect the …

arxiv vision words

More from arxiv.org / cs.LG updates on arXiv.org

Training towards significance with the decorrelated event classifier transformer neural network 19 hours ago | arxiv.org

abstract analysis application arxiv +28

An adaptive standardisation methodology for Day-Ahead electricity price forecasting 19 hours ago | arxiv.org

abstract algorithms arxiv complexity +18

SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems 19 hours ago | arxiv.org

abstract arxiv cs.cv cs.lg +17

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination methods 19 hours ago | arxiv.org

abstract algorithms arxiv augmentation +17

Description-Based Text Similarity 19 hours ago | arxiv.org

abstract arxiv cases cs.cl +14

Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning 19 hours ago | arxiv.org

abstract algorithms applications arxiv +13

A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference 19 hours ago | arxiv.org

abstract applications arxiv as-a-service +26

Digital Over-the-Air Federated Learning in Multi-Antenna Systems 19 hours ago | arxiv.org

abstract arxiv communication computation +16

Bagging Provides Assumption-free Stability 19 hours ago | arxiv.org

abstract algorithm arxiv assumptions +15

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Senior Business Intelligence Developer / Analyst

@ Transamerica | Work From Home, USA

View on ai-jobs.net

Data Analyst (All Levels)

@ Noblis | Bethesda, MD, United States

View on ai-jobs.net