Retrieval-Augmented Transformer for Image Captioning. (arXiv:2207.13162v1 [cs.CV]) | allainews.com

July 28, 2022, 1:11 a.m. | Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

cs.CL updates on arXiv.org arxiv.org

Image captioning models aim at connecting Vision and Language by providing
natural language descriptions of input images. In the past few years, the task
has been tackled by learning parametric models and proposing visual feature
extraction advancements or by modeling better multi-modal connections. In this
paper, we investigate the development of an image captioning approach with a
kNN memory, with which knowledge can be retrieved from an external corpus to
aid the generation process. Our architecture combines a knowledge retriever …

arxiv captioning cv image retrieval transformer

More from arxiv.org / cs.CL updates on arXiv.org

Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition 19 hours ago | arxiv.org

abstract artificial artificial general intelligence arxiv +19

Visually grounded few-shot word learning in low-resource settings 19 hours ago | arxiv.org

abstract arxiv cs.cl eess.as +16

KTRL+F: Knowledge-Augmented In-Document Search 19 hours ago | arxiv.org

abstract arxiv challenges cs.cl +12

Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering 19 hours ago | arxiv.org

abstract alignment applications arxiv +19

Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks 19 hours ago | arxiv.org

abstract arxiv context cs.cl +17

LibriSQA: A Novel Dataset and Framework for Spoken Question Answering with Large Language Models 19 hours ago | arxiv.org

arxiv cs.cl dataset framework +9

Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models 19 hours ago | arxiv.org

abstract accuracy analysis arxiv +18

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement 19 hours ago | arxiv.org

arxiv cs.ai cs.cl language +6

MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition 19 hours ago | arxiv.org

abstract arxiv characters chinese +10

Senior Machine Learning Engineer (MLOps)

@ Promaton | Remote, Europe

View on ai-jobs.net

Research Associate (Data Science/Information Engineering/Applied Mathematics/Information Technology)

@ Nanyang Technological University | NTU Main Campus, Singapore

View on ai-jobs.net

Associate Director of Data Science and Analytics

@ Penn State University | Penn State University Park

View on ai-jobs.net

Student Worker- Data Scientist

@ TransUnion | Israel - Tel Aviv

View on ai-jobs.net

Vice President - Customer Segment Analytics Data Science Lead

@ JPMorgan Chase & Co. | Bengaluru, Karnataka, India

View on ai-jobs.net

Middle/Senior Data Engineer

@ Devexperts | Sofia, Bulgaria

View on ai-jobs.net