Jatmo: Prompt Injection Defense by Task-Specific Finetuning. (arXiv:2312.17673v1 [cs.CR]) | allinfosecnews.com

Jan. 1, 2024, 2:10 a.m. | Julien Piet, Maha Alrashed, Chawin Sitawarin, Sizhe Chen, Zeming Wei, Elizabeth Sun, Basel Alomair, David Wagner

cs.CR updates on arXiv.org arxiv.org

Large Language Models (LLMs) are attracting significant research attention
due to their instruction-following abilities, allowing users and developers to
leverage LLMs for a variety of tasks. However, LLMs are vulnerable to
prompt-injection attacks: a class of attacks that hijack the model's
instruction-following abilities, changing responses to prompts to undesired,
possibly malicious ones. In this work, we introduce Jatmo, a method for
generating task-specific models resilient to prompt-injection attacks. Jatmo
leverages the fact that LLMs can only follow instructions once they …

attacks attention changing class defense developers finetuning hijack injection injection attacks language language models large llms malicious prompt prompt injection prompts research task vulnerable

More from arxiv.org / cs.CR updates on arXiv.org

Black-Box Access is Insufficient for Rigorous AI Audits 4 hours ago | arxiv.org

access ai audits ai governance art +14

zkFL: Zero-Knowledge Proof-based Gradient Aggregation for Federated Learning 4 hours ago | arxiv.org

aggregation arxiv big big data +19

Encrypted Dynamic Control exploiting Limited Number of Multiplications and a Method using Ring-LWE based Cryptosystem 4 hours ago | arxiv.org

arxiv can control controller +13

Certified Everlasting Secure Collusion-Resistant Functional Encryption, and More 4 hours ago | arxiv.org

arxiv can certificate certified +11

On the Security Vulnerabilities of Text-to-SQL Models 4 hours ago | arxiv.org

algorithms arxiv attacks bridge +28

The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks 4 hours ago | arxiv.org

advancements adversary arxiv cs.cl +21

DP-BREM: Differentially-Private and Byzantine-Robust Federated Learning with Client Momentum 4 hours ago | arxiv.org

aim arxiv attacks client +21

Building Your Own Trusted Execution Environments Using FPGA 4 hours ago | arxiv.org

arm arxiv benefits building +19

Decoding Geometric Properties in Non-Random Data from First Information-Theoretic Principles 4 hours ago | arxiv.org

applications arxiv coding communication +21

Senior Cyber Security Analyst

@ Valley Water | San Jose, CA

View on infosec-jobs.com

Grp 59 - Cyber System Exploitation CO-OP (July-December, 2024)

@ MIT Lincoln Laboratory | Lexington, MA, US

View on infosec-jobs.com

SecOps Transformation Advisor

@ Palo Alto Networks | Santa Clara, CA, United States

View on infosec-jobs.com

Cybersecurity Editor

@ Launch Potato | Halifax, Canada (remote)

View on infosec-jobs.com

Security Consultant

@ LRQA | Singapore, Singapore, SG, 119963

View on infosec-jobs.com

Senior Security Engineer

@ Splash | Canada (Remote in Eastern or Central time zones)

View on infosec-jobs.com