Explore In-Context Segmentation via Latent Diffusion Models | allainews.com

March 15, 2024, 4:45 a.m. | Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang, Yunhai Tong, Chen Change Loy, Shuicheng Yan

cs.CV updates on arXiv.org arxiv.org

arXiv:2403.09616v1 Announce Type: new
Abstract: In-context segmentation has drawn more attention with the introduction of vision foundation models. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. In this work, we explore this problem from a new perspective, using one representative generation model, the latent diffusion model (LDM). We observe a task gap between generation and segmentation in diffusion models, but LDM is still an effective minimalist for …

abstract arxiv attention build context correlation cs.cv diffusion diffusion models explore foundation image introduction latent diffusion models modeling perspective prompts queries segmentation type via vision visual work

More from arxiv.org / cs.CV updates on arXiv.org

Pix2HDR -- A pixel-wise acquisition and deep learning-based synthesis approach for high-speed HDR videos 1 day, 22 hours ago | arxiv.org

abstract acquisition applications arxiv +16

LuViRA Dataset Validation and Discussion: Comparing Vision, Radio, and Audio Sensors for Indoor Localization 1 day, 22 hours ago | arxiv.org

abstract algorithms analysis arxiv +17

Unsupervised Representation Learning for 3D MRI Super Resolution with Degradation Adaptation 1 day, 22 hours ago | arxiv.org

abstract arxiv cs.cv deep learning +16

Accurate Spatial Gene Expression Prediction by integrating Multi-resolution features 1 day, 22 hours ago | arxiv.org

abstract analysis arxiv costs +17

TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts 1 day, 22 hours ago | arxiv.org

abstract arxiv attention control +10

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs 1 day, 22 hours ago | arxiv.org

abstract arxiv capabilities clip +21

EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS 1 day, 22 hours ago | arxiv.org

arxiv cs.cv cs.gr type

FRNet: Frustum-Range Networks for Scalable LiDAR Segmentation 1 day, 22 hours ago | arxiv.org

arxiv cs.cv cs.ro lidar +4

A Systematic Review of Deep Learning-based Research on Radiology Report Generation 1 day, 22 hours ago | arxiv.org

abstract arxiv automation clinical +18

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

AIML - Sr Machine Learning Engineer, Data and ML Innovation

@ Apple | Seattle, WA, United States

View on ai-jobs.net

Senior Data Engineer

@ Palta | Palta Cyprus, Palta Warsaw, Palta remote

View on ai-jobs.net