[D] PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns | allainews.com

March 22, 2024, 2:49 p.m. | /u/sgpfc

Machine Learning www.reddit.com

Dataset: [https://github.com/declare-lab/LLM-PuzzleTest/tree/master/PuzzleVQA](https://github.com/declare-lab/LLM-PuzzleTest/tree/master/PuzzleVQA)

Paper: [https://arxiv.org/abs/2403.13315](https://arxiv.org/abs/2403.13315)

Large multimodal models extend the impressive capabilities of large language models by integrating multimodal understanding abilities. However, it is not clear how they can emulate the general intelligence and reasoning ability of humans. As recognizing patterns and abstracting concepts are key to general intelligence, we introduce PuzzleVQA, a collection of puzzles based on abstract patterns. With this dataset, we evaluate large multimodal models with abstract patterns based on fundamental concepts, including colors, numbers, sizes, and shapes. …

abstract capabilities clear collection concepts dataset general however humans intelligence key language language models large language large language models large multimodal models machinelearning multimodal multimodal models patterns reasoning understanding

More from www.reddit.com / Machine Learning

[P] NLLB-200 Distill 350M for en-ko 4 hours ago | www.reddit.com

cpu english good gpu +9

[D] Real talk about RAG 12 hours ago | www.reddit.com

data deal documents machinelearning +5

[P] Classification finetuning experiments on small GPT-2 sized LLMs 17 hours ago | www.reddit.com

acc classification context cpu +16

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 18 hours ago | www.reddit.com

70b art biomedical domain +16

How do I convince my superior to do data preprocessing? [D] 18 hours ago | www.reddit.com

ai engineer build chat chatbots +11

[D] Llama-3 based OpenBioLLM-70B & 8B: Outperforms GPT-4, Gemini, Meditron-70B, Med-PaLM-1 & Med-PaLM-2 in Medical-domain 18 hours ago | www.reddit.com

70b art biomedical domain +16

[D] Mathematical aspects of tokenization 21 hours ago | www.reddit.com

compression educational encoding entropy +7

[R] Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey 22 hours ago | www.reddit.com

abstract advancement application challenges +15

[D] Does it make sense to talk about the probabilities of models? 1 day, 5 hours ago | www.reddit.com

compute data likelihood machinelearning +4

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Lead GNSS Data Scientist

@ Lurra Systems | Melbourne

View on ai-jobs.net

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Principal Data Engineering Manager

@ Microsoft | Redmond, Washington, United States

View on ai-jobs.net

Machine Learning Engineer

@ Apple | San Diego, California, United States

View on ai-jobs.net