Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer | allainews.com

April 25, 2024, 7:45 p.m. | Jiaming Lei, Lin Li, Chunping Wang, Jun Xiao, Long Chen

cs.CV updates on arXiv.org arxiv.org

arXiv:2404.15785v1 Announce Type: new
Abstract: Benefiting from strong generalization ability, pre-trained vision language models (VLMs), e.g., CLIP, have been widely utilized in zero-shot scene understanding. Unlike simple recognition tasks, grounded situation recognition (GSR) requires the model not only to classify salient activity (verb) in the image, but also to detect all semantic roles that participate in the action. This complex task usually involves three steps: verb recognition, semantic role grounding, and noun recognition. Directly employing class-based prompts with VLMs and …

abstract arxiv beyond clip cs.cv explainer image language language models recognition simple tasks type understanding via vision vlms zero-shot

More from arxiv.org / cs.CV updates on arXiv.org

One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts 2 days, 11 hours ago | arxiv.org

abstract arxiv building construction +18

Uncertainty Quantification with Deep Ensembles for 6D Object Pose Estimation 2 days, 11 hours ago | arxiv.org

abstract applications arxiv automation +15

Morphing Tokens Draw Strong Masked Image Models 2 days, 11 hours ago | arxiv.org

arxiv cs.cv image tokens +1

Compact 3D Scene Representation via Self-Organizing Gaussian Grids 2 days, 11 hours ago | arxiv.org

arxiv compact cs.cv representation +2

Fingerprint Matching with Localized Deep Representation 2 days, 11 hours ago | arxiv.org

abstract accuracy acquisition arxiv +8

A Survey on Transferability of Adversarial Examples across Deep Neural Networks 2 days, 11 hours ago | arxiv.org

abstract adversarial adversarial examples arxiv +27

Content Bias in Deep Learning Image Age Approximation: A new Approach Towards better Explainability 2 days, 11 hours ago | arxiv.org

abstract age approximation arxiv +15

Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling 2 days, 11 hours ago | arxiv.org

arxiv assessment consistent continual +6

DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions 2 days, 11 hours ago | arxiv.org

abstract arxiv cs.cv cs.ro +17

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net

AI Engineer Intern, Agents

@ Occam AI | US

View on ai-jobs.net

AI Research Scientist

@ Vara | Berlin, Germany and Remote

View on ai-jobs.net

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net