BRAVE: Broadening the visual encoding of vision-language models | allainews.com

April 11, 2024, 4:42 a.m. | O\u{g}uzhan Fatih Kar, Alessio Tonioni, Petra Poklukar, Achin Kulshrestha, Amir Zamir, Federico Tombari

cs.LG updates on arXiv.org arxiv.org

arXiv:2404.07204v1 Announce Type: cross
Abstract: Vision-language models (VLMs) are typically composed of a vision encoder, e.g. CLIP, and a language model (LM) that interprets the encoded features to solve downstream tasks. Despite remarkable progress, VLMs are subject to several shortcomings due to the limited capabilities of vision encoders, e.g. "blindness" to certain image features, visual hallucination, etc. To address these issues, we study broadening the visual encoding capabilities of VLMs. We first comprehensively benchmark several vision encoders with different inductive …

abstract arxiv blindness brave capabilities clip cs.ai cs.cv cs.lg encoder encoding features language language model language models progress solve tasks type vision vision-language models visual vlms

More from arxiv.org / cs.LG updates on arXiv.org

CascadedGaze: Efficiency in Global Context Extraction for Image Restoration 14 hours ago | arxiv.org

abstract arxiv attention attention mechanisms +23

Link Me Baby One More Time: Social Music Discovery on Spotify 14 hours ago | arxiv.org

abstract arxiv baby cs.ir +15

Risk-anticipatory autonomous driving strategies considering vehicles' weights, based on hierarchical deep reinforcement learning 14 hours ago | arxiv.org

abstract accidents arxiv autonomous +20

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models 14 hours ago | arxiv.org

abstract annotation arxiv capabilities +21

Toward Deep Drum Source Separation 14 hours ago | arxiv.org

abstract adoption applications arxiv +14

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor 14 hours ago | arxiv.org

abstract arxiv capacity clip +21

Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm 14 hours ago | arxiv.org

abstract algorithm arxiv case +14

Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios 14 hours ago | arxiv.org

abstract arxiv challenges cs.ai +15

SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions 14 hours ago | arxiv.org

abstract accuracy algorithms arxiv +14

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net

Research Engineer

@ Allora Labs | Remote

View on ai-jobs.net

Ecosystem Manager

@ Allora Labs | Remote

View on ai-jobs.net

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net

AI Engineer Intern, Agents

@ Occam AI | US

View on ai-jobs.net

AI Research Scientist

@ Vara | Berlin, Germany and Remote

View on ai-jobs.net