Backdoor Removal for Generative Large Language Models | allainews.com

May 14, 2024, 4:50 a.m. | Haoran Li, Yulin Chen, Zihao Zheng, Qi Hu, Chunkit Chan, Heshan Liu, Yangqiu Song

cs.CL updates on arXiv.org arxiv.org

arXiv:2405.07667v1 Announce Type: cross
Abstract: With rapid advances, generative large language models (LLMs) dominate various Natural Language Processing (NLP) tasks from understanding to reasoning. Yet, language models' inherent vulnerabilities may be exacerbated due to increased accessibility and unrestricted model training on massive textual data from the Internet. A malicious adversary may publish poisoned data online and conduct backdoor attacks on the victim LLMs pre-trained on the poisoned data. Backdoored LLMs behave innocuously for normal queries and generate harmful responses when …

abstract accessibility advances arxiv backdoor cs.cl cs.cr data generative internet language language models language processing large language large language models llms massive natural natural language natural language processing nlp processing reasoning tasks textual training type understanding vulnerabilities

More from arxiv.org / cs.CL updates on arXiv.org

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding 17 hours ago | arxiv.org

abstract alternative arxiv bayes +17

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models 17 hours ago | arxiv.org

abstract advances architectures arxiv +21

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models 17 hours ago | arxiv.org

abstract arxiv audio audio generation +26

Model-Based Minimum Bayes Risk Decoding for Text Generation 17 hours ago | arxiv.org

abstract alternative arxiv bayes +15

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models 17 hours ago | arxiv.org

abstract arxiv cond-mat.mtrl-sci cs.ai +28

Leveraging Large Language Models for NLG Evaluation: Advances and Challenges 17 hours ago | arxiv.org

abstract advances arxiv challenges +21

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding 17 hours ago | arxiv.org

abstract algorithms arxiv bayes +15

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization 17 hours ago | arxiv.org

arxiv attacks cs.cl jailbreaking +7

Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment 17 hours ago | arxiv.org

abstract alignment arxiv bias +27

Senior Machine Learning Engineer

@ GPTZero | Toronto, Canada

View on ai-jobs.net

Sr. Data Operations

@ Carousell Group | West Jakarta, Indonesia

View on ai-jobs.net

Senior Analyst, Business Intelligence & Reporting

@ Deutsche Bank | Bucharest

View on ai-jobs.net

Business Intelligence Subject Matter Expert (SME) - Assistant Vice President

@ Deutsche Bank | Cary, 3000 CentreGreen Way

View on ai-jobs.net

Enterprise Business Intelligence Specialist

@ NAIC | Kansas City

View on ai-jobs.net

Senior Business Intelligence (BI) Developer - Associate

@ Deutsche Bank | Cary, 3000 CentreGreen Way

View on ai-jobs.net