Hijacking Large Language Models via Adversarial In-Context Learning | allinfosecnews.com

June 18, 2024, 4:20 a.m. | Yao Qiang, Xiangyu Zhou, Dongxiao Zhu

cs.CR updates on arXiv.org arxiv.org

arXiv:2311.09948v2 Announce Type: replace-cross
Abstract: In-context learning (ICL) has emerged as a powerful paradigm leveraging LLMs for specific downstream tasks by utilizing labeled examples as demonstrations (demos) in the precondition prompts. Despite its promising performance, ICL suffers from instability with the choice and arrangement of examples. Additionally, crafted adversarial attacks pose a notable threat to the robustness of ICL. However, existing attacks are either easy to detect, rely on external models, or lack specificity towards ICL. This work introduces a …

adversarial adversarial attacks arxiv attacks context cs.cl cs.cr cs.lg examples hijacking instability language language models large llms paradigm performance prompts

More from arxiv.org / cs.CR updates on arXiv.org

SoK: Facial Deepfake Detectors 12 hours ago | arxiv.org

arxiv cs.cr cs.cv cs.lg +19

Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration 12 hours ago | arxiv.org

aim arxiv attacks calibration +16

A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models 12 hours ago | arxiv.org

arxiv attack classification cs.ai +11

Locally Differentially Private Distributed Online Learning with Guaranteed Optimality 12 hours ago | arxiv.org

address algorithms arxiv awareness +19

A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models 12 hours ago | arxiv.org

arxiv challenge covert cs.cl +18

Detecting Misuse of Security APIs: A Systematic Review 12 hours ago | arxiv.org

api api design apis application +25

Privacy Preserving Reinforcement Learning for Population Processes 12 hours ago | arxiv.org

algorithm algorithms arxiv control +8

Video Inpainting Localization with Contrastive Learning 12 hours ago | arxiv.org

arxiv cs.cr cs.cv localization +1

CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems 12 hours ago | arxiv.org

actions adversarial adversarial attacks agent +13

Information Technology Specialist I: Windows Engineer

@ Los Angeles County Employees Retirement Association (LACERA) | Pasadena, California

View on infosec-jobs.com

Information Technology Specialist I, LACERA: Information Security Engineer

@ Los Angeles County Employees Retirement Association (LACERA) | Pasadena, CA

View on infosec-jobs.com

Vice President, Controls Design & Development-7

@ State Street | Quincy, Massachusetts

View on infosec-jobs.com

Vice President, Controls Design & Development-5

@ State Street | Quincy, Massachusetts

View on infosec-jobs.com

Data Scientist & AI Prompt Engineer

@ Varonis | Israel

View on infosec-jobs.com

Contractor

@ Birlasoft | INDIA - MUMBAI - BIRLASOFT OFFICE, IN

View on infosec-jobs.com