Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers | allainews.com

May 10, 2024, 4:45 a.m. | Peng Gao, Le Zhuo, Ziyi Lin, Chris Liu, Junsong Chen, Ruoyi Du, Enze Xie, Xu Luo, Longtian Qiu, Yuhang Zhang, Chen Lin, Rongjie Huang, Shijie Geng, Re

cs.CV updates on arXiv.org arxiv.org

arXiv:2405.05945v1 Announce Type: new
Abstract: Sora unveils the potential of scaling Diffusion Transformer for generating photorealistic images and videos at arbitrary resolutions, aspect ratios, and durations, yet it still lacks sufficient implementation details. In this technical report, we introduce the Lumina-T2X family - a series of Flow-based Large Diffusion Transformers (Flag-DiT) equipped with zero-initialized attention, as a unified framework designed to transform noise into images, videos, multi-view 3D objects, and audio clips conditioned on text instructions. By tokenizing the latent …

abstract arxiv cs.cv diffusion diffusion transformer diffusion transformers family flow images implementation photorealistic photorealistic images report resolution scaling series sora technical text transformer transformers type via videos

More from arxiv.org / cs.CV updates on arXiv.org

Anatomically aware dual-hop learning for pulmonary embolism detection in CT pulmonary angiograms 15 hours ago | arxiv.org

abstract arxiv cases cs.cv +13

PREGO: online mistake detection in PRocedural EGOcentric videos 15 hours ago | arxiv.org

abstract applications arxiv capability +12

Uncertainty estimates for semantic segmentation: providing enhanced reliability for automated motor claims handling 15 hours ago | arxiv.org

abstract arxiv automated automation +17

CG-HOI: Contact-Guided 3D Human-Object Interaction Generation 15 hours ago | arxiv.org

abstract arxiv cs.cv dynamic +9

DSD-DA: Distillation-based Source Debiasing for Domain Adaptive Object Detection 15 hours ago | arxiv.org

abstract alignment arxiv bias +14

ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models 15 hours ago | arxiv.org

abstract arxiv capabilities commonsense +21

REB: Reducing Biases in Representation for Industrial Anomaly Detection 15 hours ago | arxiv.org

anomaly anomaly detection arxiv biases +7

Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems 15 hours ago | arxiv.org

arxiv block bridge cs.ai +11

Multicenter Privacy-Preserving Model Training for Deep Learning Brain Metastases Autosegmentation 15 hours ago | arxiv.org

abstract arxiv brain cs.cv +16

Software Engineer for AI Training Data (School Specific)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Python)

@ G2i Inc | Remote

View on ai-jobs.net

Software Engineer for AI Training Data (Tier 2)

@ G2i Inc | Remote

View on ai-jobs.net

Data Engineer

@ Lemon.io | Remote: Europe, LATAM, Canada, UK, Asia, Oceania

View on ai-jobs.net

Artificial Intelligence – Bioinformatic Expert

@ University of Texas Medical Branch | Galveston, TX

View on ai-jobs.net

Lead Developer (AI)

@ Cere Network | San Francisco, US

View on ai-jobs.net