Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan / April 20, 2026

arXiv:2603.11331v2 Announce Type: replace-cross
Abstract: Adversarial attacks can reliably steer safety-aligned large language models toward unsafe behavior. Empirically, we find that strong adversarial prompt-injection attacks can amplify attack succ…

Author name: Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover