MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI | allainews.com

June 14, 2024, 4:42 a.m. | Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruib

cs.CL updates on arXiv.org arxiv.org

arXiv:2311.16502v4 Announce Type: replace
Abstract: We introduce MMMU: a new benchmark designed to evaluate multimodal models on massive multi-discipline tasks demanding college-level subject knowledge and deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering. These questions span 30 subjects and 183 subfields, comprising 30 highly heterogeneous image types, such as charts, diagrams, maps, tables, …

abstract agi art arxiv benchmark business college core cs.ai cs.cl cs.cv design exams expert knowledge massive multimodal multimodal models questions reasoning replace six tasks type understanding

More from arxiv.org / cs.CL updates on arXiv.org

Multimodal Sentiment Analysis with Missing Modality: A Knowledge-Transfer Approach 15 hours ago | arxiv.org

abstract algorithms analysis arxiv +22

Advancing Abductive Reasoning in Knowledge Graphs through Complex Logical Hypothesis Generation 15 hours ago | arxiv.org

abstract applications arxiv cs.ai +13

LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? 15 hours ago | arxiv.org

abstract applications arxiv community +24

RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models 15 hours ago | arxiv.org

abstract advantages alignment arxiv +22

Exploring ChatGPT's Capabilities on Vulnerability Management 15 hours ago | arxiv.org

abstract analysis arxiv attention +22

Human Action Co-occurrence in Lifestyle Vlogs using Graph Link Prediction 15 hours ago | arxiv.org

action arxiv cs.cl cs.cv +9

Advancing continual lifelong learning in neural information retrieval: definition, dataset, framework, and empirical evaluation 15 hours ago | arxiv.org

abstract adapt arxiv capability +19

Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models 15 hours ago | arxiv.org

arxiv cs.ai cs.cl cs.cv +13

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs 15 hours ago | arxiv.org

arxiv bootstrapping cs.cl cs.cv +5

Senior Data Engineer

@ Displate | Warsaw

View on ai-jobs.net

Senior Principal Software Engineer

@ Oracle | Columbia, MD, United States

View on ai-jobs.net

Software Engineer for Manta Systems

@ PXGEO | Linköping, Östergötland County, Sweden

View on ai-jobs.net

DevOps Engineer

@ Teradyne | Odense, DK

View on ai-jobs.net

LIDAR System Engineer Trainee

@ Valeo | PRAGUE - PRA2

View on ai-jobs.net

Business Applications Administrator

@ Allegro | Poznań, Poland

View on ai-jobs.net