MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance | allinfosecnews.com

June 18, 2024, 4:19 a.m. | Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang

cs.CR updates on arXiv.org arxiv.org

arXiv:2401.02906v3 Announce Type: replace
Abstract: The deployment of multimodal large language models (MLLMs) has brought forth a unique vulnerability: susceptibility to malicious attacks through visual inputs. This paper investigates the novel challenge of defending MLLMs against such attacks. Compared to large language models (LLMs), MLLMs include an additional image modality. We discover that images act as a ``foreign language" that is not considered during safety alignment, making MLLMs more prone to producing harmful responses. Unfortunately, unlike the discrete tokens considered …

arxiv attacks challenge cs.cl cs.cr cs.cv defending deployment discover image inputs language language models large llms malicious mllms multimodal novel performance safety vulnerability

More from arxiv.org / cs.CR updates on arXiv.org

SoK: Facial Deepfake Detectors 12 hours ago | arxiv.org

arxiv cs.cr cs.cv cs.lg +19

Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration 12 hours ago | arxiv.org

aim arxiv attacks calibration +16

A Probabilistic Fluctuation based Membership Inference Attack for Diffusion Models 12 hours ago | arxiv.org

arxiv attack classification cs.ai +11

Locally Differentially Private Distributed Online Learning with Guaranteed Optimality 12 hours ago | arxiv.org

address algorithms arxiv awareness +19

A Resilient and Accessible Distribution-Preserving Watermark for Large Language Models 12 hours ago | arxiv.org

arxiv challenge covert cs.cl +18

Detecting Misuse of Security APIs: A Systematic Review 12 hours ago | arxiv.org

api api design apis application +25

Privacy Preserving Reinforcement Learning for Population Processes 12 hours ago | arxiv.org

algorithm algorithms arxiv control +8

Video Inpainting Localization with Contrastive Learning 12 hours ago | arxiv.org

arxiv cs.cr cs.cv localization +1

CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems 12 hours ago | arxiv.org

actions adversarial adversarial attacks agent +13

Information Technology Specialist I: Windows Engineer

@ Los Angeles County Employees Retirement Association (LACERA) | Pasadena, California

View on infosec-jobs.com

Information Technology Specialist I, LACERA: Information Security Engineer

@ Los Angeles County Employees Retirement Association (LACERA) | Pasadena, CA

View on infosec-jobs.com

Vice President, Controls Design & Development-7

@ State Street | Quincy, Massachusetts

View on infosec-jobs.com

Vice President, Controls Design & Development-5

@ State Street | Quincy, Massachusetts

View on infosec-jobs.com

Data Scientist & AI Prompt Engineer

@ Varonis | Israel

View on infosec-jobs.com

Contractor

@ Birlasoft | INDIA - MUMBAI - BIRLASOFT OFFICE, IN

View on infosec-jobs.com