Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality. (arXiv:2205.10063v1 [cs.CV]) | allainews.com

May 23, 2022, 1:12 a.m. | Xiang Li, Wenhai Wang, Lingfeng Yang, Jian Yang

cs.CV updates on arXiv.org arxiv.org

Masked AutoEncoder (MAE) has recently led the trends of visual
self-supervision area by an elegant asymmetric encoder-decoder design, which
significantly optimizes both the pre-training efficiency and fine-tuning
accuracy. Notably, the success of the asymmetric structure relies on the
"global" property of Vanilla Vision Transformer (ViT), whose self-attention
mechanism reasons over arbitrary subset of discrete image patches. However, it
is still unclear how the advanced Pyramid-based ViTs (e.g., PVT, Swin) can be
adopted in MAE pre-training as they commonly introduce operators …

arxiv cv enabling pre-training training transformers uniform vision

More from arxiv.org / cs.CV updates on arXiv.org

Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception 9 hours ago | arxiv.org

agent arxiv autonomous cs.cl +8

Low-resolution Prior Equilibrium Network for CT Reconstruction 9 hours ago | arxiv.org

abstract arxiv cs.cv deep learning +17

MARformer: An Efficient Metal Artifact Reduction Transformer for Dental CBCT Images 9 hours ago | arxiv.org

abstract artifact arxiv cs.cv +16

Back to Basics: Fast Denoising Iterative Algorithm 9 hours ago | arxiv.org

abstract algorithm arxiv basics +10

Predicting Thrombectomy Recanalization from CT Imaging Using Deep Learning Models 9 hours ago | arxiv.org

abstract arxiv benefit clinicians +10

Efficiently Adversarial Examples Generation for Visual-Language Models under Targeted Transfer Scenarios using Diffusion Models 9 hours ago | arxiv.org

abstract adversarial adversarial examples art +20

Methods and strategies for improving the novel view synthesis quality of neural radiation field 9 hours ago | arxiv.org

abstract application arxiv attention +16

AffordanceLLM: Grounding Affordance from Vision Language Models 9 hours ago | arxiv.org

arxiv cs.cv cs.ro language +3

DualFluidNet: an Attention-based Dual-pipeline Network for FLuid Simulation 9 hours ago | arxiv.org

arxiv attention cs.cv cs.gr +4

(373) Applications Manager – Business Intelligence - BSTD

@ South African Reserve Bank | South Africa

View on ai-jobs.net

Data Engineer Talend (confirmé/sénior) - H/F - CDI

@ Talan | Paris, France

View on ai-jobs.net

Data Science Intern (Summer) / Stagiaire en données (été)

@ BetterSleep | Montreal, Quebec, Canada

View on ai-jobs.net

Director - Master Data Management (REMOTE)

@ Wesco | Pittsburgh, PA, United States

View on ai-jobs.net

Architect Systems BigData REF2649A

@ Deutsche Telekom IT Solutions | Budapest, Hungary

View on ai-jobs.net

Data Product Coordinator

@ Nestlé | São Paulo, São Paulo, BR, 04730-000

View on ai-jobs.net