PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs | allainews.com

Feb. 13, 2024, 5:44 a.m. | Soroush Nasiriany Fei Xia Wenhao Yu Ted Xiao Jacky Liang Ishita Dasgupta Annie Xie Danny Dries

cs.LG updates on arXiv.org arxiv.org

Vision language models (VLMs) have shown impressive capabilities across a variety of tasks, from logical reasoning to visual understanding. This opens the door to richer interaction with the world, for example robotic control. However, VLMs produce only textual outputs, while robotic control and other spatial tasks require outputting continuous coordinates, actions, or trajectories. How can we enable VLMs to handle such settings without fine-tuning on task-specific data?
In this paper, we propose a novel visual prompting approach for VLMs that …

capabilities continuous control cs.cl cs.cv cs.lg cs.ro example iterative knowledge language language models pivot prompting reasoning robotic spatial tasks textual understanding vision visual visual prompting vlms world

More from arxiv.org / cs.LG updates on arXiv.org

Gland Segmentation Via Dual Encoders and Boundary-Enhanced Attention 2 days, 11 hours ago | arxiv.org

abstract arxiv attention automated +8

Sliced Wasserstein with Random-Path Projecting Directions 2 days, 11 hours ago | arxiv.org

abstract applications arxiv cs.ai +12

TIM: An Efficient Temporal Interaction Module for Spiking Transformer 2 days, 11 hours ago | arxiv.org

arxiv cs.cv cs.lg cs.ne +3

Accuracy vs Memory Advantage in the Quantum Simulation of Stochastic Processes 2 days, 11 hours ago | arxiv.org

abstract accuracy arxiv assumptions +20

Accelerating Inference in Molecular Diffusion Models with Latent Representations of Protein Structure 2 days, 11 hours ago | arxiv.org

abstract arxiv biology cs.lg +18

Large Language Models can Strategically Deceive their Users when Put Under Pressure 2 days, 11 hours ago | arxiv.org

abstract agent arxiv behavior +11

Learning Extrinsic Dexterity with Parameterized Manipulation Primitives 2 days, 11 hours ago | arxiv.org

arxiv cs.lg cs.ro manipulation +1

The Un-Kidnappable Robot: Acoustic Localization of Sneaking People 2 days, 11 hours ago | arxiv.org

arxiv cs.lg cs.ro localization +3

Diffusion Models as Stochastic Quantization in Lattice Field Theory 2 days, 11 hours ago | arxiv.org

abstract arxiv cs.lg diffusion +15

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net

Research Engineer

@ Allora Labs | Remote

View on ai-jobs.net

Ecosystem Manager

@ Allora Labs | Remote

View on ai-jobs.net

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net