Cross-Task Defense: Instruction-Tuning LLMs for Content Safety | allinfosecnews.com

May 27, 2024, 4:12 a.m. | Yu Fu, Wen Xiao, Jia Chen, Jiachen Li, Evangelos Papalexakis, Aichi Chien, Yue Dong

cs.CR updates on arXiv.org arxiv.org

arXiv:2405.15202v1 Announce Type: cross
Abstract: Recent studies reveal that Large Language Models (LLMs) face challenges in balancing safety with utility, particularly when processing long texts for NLP tasks like summarization and translation. Despite defenses against malicious short questions, the ability of LLMs to safely handle dangerous long content, such as manuals teaching illicit activities, remains unclear. Our work aims to develop robust defenses for LLMs in processing malicious documents alongside benign NLP task queries. We introduce a defense dataset comprised …

arxiv challenges cs.cl cs.cr defense defenses language language models large llms malicious nlp questions reveal safety studies task teaching texts translation utility

More from arxiv.org / cs.CR updates on arXiv.org

EnSolver: Uncertainty-Aware Ensemble CAPTCHA Solvers with Theoretical Guarantees 7 hours ago | arxiv.org

aim arxiv automated automated bots +17

Straggler-Resilient Differentially-Private Decentralized Learning 7 hours ago | arxiv.org

amplification analytical arxiv communication +21

BlockChain I/O: Enabling Cross-Chain Commerce 7 hours ago | arxiv.org

arxiv blockchain blockchains commerce +9

Machine Learning Predictors for Min-Entropy Estimation 7 hours ago | arxiv.org

application applications arxiv assessment +15

Quantum-Enhanced Secure Approval Voting Protocol 7 hours ago | arxiv.org

arxiv aspect changing computing +22

IDT: Dual-Task Adversarial Attacks for Privacy Protection 7 hours ago | arxiv.org

adversarial adversarial attacks arxiv attacks +24

Private Zeroth-Order Nonsmooth Nonconvex Optimization 7 hours ago | arxiv.org

algorithm alpha arxiv complexity +16

Instance-Optimal Private Density Estimation in the Wasserstein Distance 7 hours ago | arxiv.org

arxiv cs.cr cs.ds cs.lg +11

Too Good to be True? Turn Any Model Differentially Private With DP-Weights 7 hours ago | arxiv.org

arxiv cs.ai cs.cr cs.lg +14

Senior Streaming Platform Engineer

@ Armis Security | Tel Aviv-Yafo, Tel Aviv District, Israel

View on infosec-jobs.com

Senior Streaming Platform Engineer

@ Armis Security | Tel Aviv-Yafo, Tel Aviv District, Israel

View on infosec-jobs.com

Deputy Chief Information Officer of Operations (Senior Public Service Administrator, Opt. 3)

@ State of Illinois | Springfield, IL, US, 62701-1222

View on infosec-jobs.com

Deputy Chief Information Officer of Operations (Senior Public Service Administrator, Opt. 3)

@ State of Illinois | Springfield, IL, US, 62701-1222

View on infosec-jobs.com

Analyst, Security

@ DailyPay | New York City

View on infosec-jobs.com

Analyst, Security

@ DailyPay | New York City

View on infosec-jobs.com