Cross-view Masked Diffusion Transformers for Person Image Synthesis | allainews.com

Feb. 5, 2024, 3:47 p.m. | Trung X. Pham Zhang Kang Chang D. Yoo

cs.CV updates on arXiv.org arxiv.org

We present X-MDPT (Cross-view Masked Diffusion Prediction Transformers), a novel diffusion model designed for pose-guided human image generation. X-MDPT distinguishes itself by employing masked diffusion transformers that operate on latent patches, a departure from the commonly-used Unet structures in existing works. The model comprises three key modules: 1) a denoising diffusion Transformer, 2) an aggregation network that consolidates conditions into a single vector for the diffusion process, and 3) a mask cross-prediction module that enhances representation learning with semantic information …

cs.cv denoising diffusion diffusion model human image image generation key modules novel person prediction synthesis transformer transformers unet view

More from arxiv.org / cs.CV updates on arXiv.org

Visual Environment Assessment for Safe Autonomous Quadrotor Landing 16 hours ago | arxiv.org

abstract aerial arxiv assessment +21

JPEG Quantized Coefficient Recovery via DCT Domain Spatial-Frequential Transformer 16 hours ago | arxiv.org

abstract arxiv compression cosine +14

Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks 16 hours ago | arxiv.org

abstract arxiv audio audio editing +20

Explainable Light-Weight Deep Learning Pipeline for Improved Drought Stress Identification 16 hours ago | arxiv.org

abstract arxiv crops cs.cv +16

ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation 16 hours ago | arxiv.org

arxiv cs.cv framework segmentation +5

A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis 16 hours ago | arxiv.org

analysis and analysis arxiv classification +7

Early Autism Diagnosis based on Path Signature and Siamese Unsupervised Feature Compressor 16 hours ago | arxiv.org

abstract arxiv autism children +17

Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning 16 hours ago | arxiv.org

abstract arxiv autonomy commonsense +15

Towards Diverse Binary Segmentation via A Simple yet General Gated Network 16 hours ago | arxiv.org

abstract arxiv basic binary +19

Founding AI Engineer, Agents

@ Occam AI | New York

View on ai-jobs.net

AI Engineer Intern, Agents

@ Occam AI | US

View on ai-jobs.net

AI Research Scientist

@ Vara | Berlin, Germany and Remote

View on ai-jobs.net

Data Architect

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data ETL Engineer

@ University of Texas at Austin | Austin, TX

View on ai-jobs.net

Data Scientist (Database Development)

@ Nasdaq | Bengaluru-Affluence

View on ai-jobs.net