EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models | allainews.com

April 18, 2024, 4:45 a.m. | Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu

cs.CV updates on arXiv.org arxiv.org

arXiv:2312.06722v2 Announce Type: replace
Abstract: Multimodal Large Language Models, combining the remarkable reasoning and generalization capabilities of Large Language Models (LLMs) with the ability to comprehend visual inputs, have opened up new avenues for embodied task planning. Given diverse environmental inputs, including real-time task progress, visual observations, and open-form language instructions, a proficient task planner is expected to predict feasible actions, which is a feat inherently achievable by Multimodal Large Language Models (MLLMs). In this paper, we aim to quantitatively …

abstract arxiv benchmarking capabilities cs.cl cs.cv cs.ro diverse embodied environmental form inputs language language models large language large language models llms multimodal planning progress real-time reasoning type visual

More from arxiv.org / cs.CV updates on arXiv.org

Anatomically aware dual-hop learning for pulmonary embolism detection in CT pulmonary angiograms an hour ago | arxiv.org

abstract arxiv cases cs.cv +13

PREGO: online mistake detection in PRocedural EGOcentric videos an hour ago | arxiv.org

abstract applications arxiv capability +12

Uncertainty estimates for semantic segmentation: providing enhanced reliability for automated motor claims handling an hour ago | arxiv.org

abstract arxiv automated automation +17

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation an hour ago | arxiv.org

abstract arxiv cs.cv dynamic +9

DSD-DA: Distillation-based Source Debiasing for Domain Adaptive Object Detection an hour ago | arxiv.org

abstract alignment arxiv bias +14

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models an hour ago | arxiv.org

abstract arxiv capabilities commonsense +21

REB: Reducing Biases in Representation for Industrial Anomaly Detection an hour ago | arxiv.org

anomaly anomaly detection arxiv biases +7

Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems an hour ago | arxiv.org

arxiv block bridge cs.ai +11

Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation an hour ago | arxiv.org

abstract arxiv brain cs.cv +16

Software Engineer for AI Training Data (School Specific)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Python)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Tier 2)

@ G2i Inc | Remote

View on ai-jobs.net

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net