Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction | allainews.com

Feb. 29, 2024, 5:45 a.m. | Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki

cs.CV updates on arXiv.org arxiv.org

arXiv:2402.17969v1 Announce Type: new
Abstract: Given the accelerating progress of vision and language modeling, accurate evaluation of machine-generated image captions remains critical. In order to evaluate captions more closely to human preferences, metrics need to discriminate between captions of varying quality and content. However, conventional metrics fail short of comparing beyond superficial matches of words or embedding similarities; thus, they still need improvement. This paper presents VisCE$^2$, a vision language model-based caption evaluation method. Our method focuses on visual context, …

abstract arxiv captions context cs.ai cs.cv evaluation extraction generated human image language language model machine metrics modeling progress quality type vision vision language model visual

More from arxiv.org / cs.CV updates on arXiv.org

Demonstration of an Adversarial Attack Against a Multimodal Vision Language Model for Pathology Imaging 10 hours ago | arxiv.org

adversarial arxiv cs.cv eess.iv +9

Hundred-Kilobyte Lookup Tables for Efficient Single-Image Super-Resolution 10 hours ago | arxiv.org

arxiv cs.cv eess.iv image +3

Swift Parameter-free Attention Network for Efficient Super-Resolution 10 hours ago | arxiv.org

arxiv attention cs.cv eess.iv +5

Generative Multimodal Models are In-Context Learners 10 hours ago | arxiv.org

abstract arxiv capabilities context +16

HeadArtist: Text-conditioned 3D Head Generation with Self Score Distillation 10 hours ago | arxiv.org

abstract arxiv call controlnet +11

WavePlanes: A compact Wavelet representation for Dynamic Neural Radiance Fields 10 hours ago | arxiv.org

arxiv compact cs.cv cs.gr +6

A Survey of Emerging Applications of Diffusion Probabilistic Models in MRI 10 hours ago | arxiv.org

abstract applications arxiv computational +11

Utilizing dataset affinity prediction in object detection to assess training data 10 hours ago | arxiv.org

abstract advantages arxiv bias +16

Integrating View Conditions for Image Synthesis 10 hours ago | arxiv.org

abstract arxiv challenge control +17

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net

Research Engineer

@ Allora Labs | Remote

View on ai-jobs.net

Ecosystem Manager

@ Allora Labs | Remote

View on ai-jobs.net

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net

AI Engineer Intern, Agents

@ Occam AI | US

View on ai-jobs.net