Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!. (arXiv:2310.03693v1 [cs.CL]) | allinfosecnews.com

Oct. 6, 2023, 1:10 a.m. | Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson

cs.CR updates on arXiv.org arxiv.org

Optimizing large language models (LLMs) for downstream use cases often
involves the customization of pre-trained LLMs through further fine-tuning.
Meta's open release of Llama models and OpenAI's APIs for fine-tuning GPT-3.5
Turbo on custom datasets also encourage this practice. But, what are the safety
costs associated with such custom fine-tuning? We note that while existing
safety alignment infrastructures can restrict harmful behaviors of LLMs at
inference time, they do not cover safety risks when fine-tuning privileges are
extended to end-users. …

apis cases customization datasets gpt gpt-3 language language models large llama llms meta openai practice release safety use cases

More from arxiv.org / cs.CR updates on arXiv.org

Differentially private Bayesian tests 2 days, 7 hours ago | arxiv.org

arxiv confidential cornerstone cs.cr +16

On the Learnability of Watermarks for Language Models 2 days, 7 hours ago | arxiv.org

arxiv ask can cs.cl +12

Intriguing Properties of Diffusion Models: An Empirical Study of the Natural Attack Capability in Text-to-Image … 2 days, 7 hours ago | arxiv.org

applications arxiv attack cs.cr +14

On the Reliability of Watermarks for Large Language Models 2 days, 7 hours ago | arxiv.org

arxiv bots cs.cl cs.cr +23

A Watermark for Large Language Models 2 days, 7 hours ago | arxiv.org

arxiv can cs.cl cs.cr +13

Asymmetric Distributed Trust 2 days, 7 hours ago | arxiv.org

abstraction algorithms arxiv can +12

Read Disturbance in High Bandwidth Memory: A Detailed Experimental Study on HBM2 DRAM Chips 2 days, 7 hours ago | arxiv.org

arxiv bandwidth chips cs.ar +5

ABACuS: All-Bank Activation Counters for Scalable and Low Overhead RowHammer Mitigation 2 days, 7 hours ago | arxiv.org

access address area arxiv +17

A Case Study of Large Language Models (ChatGPT and CodeBERT) for Security-Oriented Code Analysis 2 days, 7 hours ago | arxiv.org

analysis arxiv can capabilities +17

Sr Cyber Threat Hunt Researcher

@ Peraton | Beltsville, MD, United States

View on infosec-jobs.com

Lead Consultant, Hydrogeologist

@ WSP | Chattanooga, TN, United States

View on infosec-jobs.com

Senior Security Engineer - Netskope/Proofpoint

@ Sainsbury's | London, London, United Kingdom

View on infosec-jobs.com

Senior Technical Analyst-Network Security

@ Computacenter | Bengaluru Bengaluru (Bengaluru, IN, 560025

View on infosec-jobs.com

Senior DevSecOps Engineer - Clearance Required

@ Logistics Management Institute | Remote, United States

View on infosec-jobs.com

Software Test Automation Manager - Cloud Security

@ Tenable | Israel - Office - CS

View on infosec-jobs.com