Dissecting Query-Key Interaction in Vision Transformers | allainews.com

May 27, 2024, 4:46 a.m. | Xu Pan, Aaron Philip, Ziqian Xie, Odelia Schwartz

cs.CV updates on arXiv.org arxiv.org

arXiv:2405.14880v1 Announce Type: new
Abstract: Self-attention in vision transformers has been thought to perform perceptual grouping where tokens attend to other tokens with similar embeddings, which could correspond to semantically similar features in an image. However, contextualization is also an important and necessary computation for processing signals. Contextualization potentially requires tokens to attend to dissimilar tokens such as those corresponding to backgrounds or different objects, but this effect has not been reported in previous studies. In this study, we investigate …

abstract arxiv attention computation contextualization cs.ai cs.cv embeddings features grouping however image key processing query self-attention thought tokens transformers type vision vision transformers

More from arxiv.org / cs.CV updates on arXiv.org

DK-SLAM: Monocular Visual SLAM with Deep Keypoint Learning, Tracking and Loop-Closing 9 hours ago | arxiv.org

abstract arxiv benchmarks continuous +19

VideoMap: Supporting Video Editing Exploration, Brainstorming, and Prototyping in the Latent Space 9 hours ago | arxiv.org

arxiv cs.cv cs.hc cs.mm +7

Soundify: Matching Sound Effects to Video 9 hours ago | arxiv.org

abstract art arxiv cs.cv +19

The Ninth NTIRE 2024 Efficient Super-Resolution Challenge Report 9 hours ago | arxiv.org

arxiv challenge cs.cv eess.iv +4

LKM-UNet: Large Kernel Vision Mamba UNet for Medical Image Segmentation 9 hours ago | arxiv.org

arxiv cs.ai cs.cv image +8

Domain Adaptation based Object Detection for Autonomous Driving in Foggy and Rainy Weather 9 hours ago | arxiv.org

abstract arxiv autonomous autonomous driving +19

Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition 9 hours ago | arxiv.org

arxiv bias case case study +9

Videogenic: Identifying Highlight Moments in Videos with Professional Photographs as a Prior 9 hours ago | arxiv.org

abstract arxiv challenge cs.cv +17

Probabilistic Approach for Detection of High-Frequency Periodic Signals using an Event Camera 9 hours ago | arxiv.org

abstract acquisition arxiv asynchronous +15

AI Focused Biochemistry Postdoctoral Fellow

@ Lawrence Berkeley National Lab | Berkeley, CA

View on ai-jobs.net

Senior Data Engineer

@ Displate | Warsaw

View on ai-jobs.net

Staff Software Engineer (Data Platform)

@ Phaidra | Remote

View on ai-jobs.net

Distributed Compute Engineer

@ Magic | San Francisco

View on ai-jobs.net

Power Platform Developer/Consultant

@ Euromonitor | Bengaluru, Karnataka, India

View on ai-jobs.net

Finance Project Senior Manager

@ QIMA | London, United Kingdom

View on ai-jobs.net