Attention-aware Post-training Quantization without Backpropagation | allainews.com

June 21, 2024, 4:46 a.m. | Junhan Kim, Ho-young Kim, Eulrang Cho, Chungman Lee, Joonyoung Kim, Yongkweon Jeon

cs.LG updates on arXiv.org arxiv.org

arXiv:2406.13474v1 Announce Type: new
Abstract: Quantization is a promising solution for deploying large-scale language models (LLMs) on resource-constrained devices. Existing quantization approaches, however, rely on gradient-based optimization, regardless of it being post-training quantization (PTQ) or quantization-aware training (QAT), which becomes problematic for hyper-scale LLMs with billions of parameters. This overhead can be alleviated via recently proposed backpropagation-free PTQ methods; however, their performance is somewhat limited by their lack of consideration of inter-layer dependencies. In this paper, we thus propose a …

abstract arxiv attention backpropagation cs.ai cs.lg deploying devices gradient however language language models llms optimization parameters quantization scale solution training type via

More from arxiv.org / cs.LG updates on arXiv.org

Bayesian identification of nonseparable Hamiltonians with multiplicative noise using deep learning and reduced-order modeling 2 days, 5 hours ago | arxiv.org

abstract arxiv bayesian cs.lg +17

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning 2 days, 5 hours ago | arxiv.org

abstract analysis arxiv cs.cv +16

Self-Supervised Detection of Perfect and Partial Input-Dependent Symmetries 2 days, 5 hours ago | arxiv.org

arxiv cs.cv cs.lg detection +3

MixerFlow: MLP-Mixer meets Normalising Flows 2 days, 5 hours ago | arxiv.org

abstract architectures arxiv context +15

Machine Learning-Enabled Software and System Architecture Frameworks 2 days, 5 hours ago | arxiv.org

abstract architecture arxiv concerns +22

Efficient Interaction-Aware Interval Analysis of Neural Network Feedback Loops 2 days, 5 hours ago | arxiv.org

abstract analysis arxiv cs.lg +19

Kernelised Normalising Flows 2 days, 5 hours ago | arxiv.org

abstract architecture arxiv capabilities +14

GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism 2 days, 5 hours ago | arxiv.org

abstract arxiv class cs.dc +25

Reinforcement Learning in Credit Scoring and Underwriting 2 days, 5 hours ago | arxiv.org

abstract action adapt arxiv +17

Software Engineer II –Decision Intelligence Delivery and Support

@ Bristol Myers Squibb | Hyderabad

View on ai-jobs.net

Senior Data Governance Consultant (Remote in US)

@ Resultant | Indianapolis, IN, United States

View on ai-jobs.net

Power BI Developer

@ Brompton Bicycle | Greenford, England, United Kingdom

View on ai-jobs.net

VP, Enterprise Applications

@ Blue Yonder | Scottsdale

View on ai-jobs.net

Data Scientist - Moloco Commerce Media

@ Moloco | Redwood City, California, United States

View on ai-jobs.net

Senior Backend Engineer (New York)

@ Kalepa | New York City. Hybrid

View on ai-jobs.net