Prashant Kulkarni - Provide.ai

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection

Prashant Kulkarni / May 1, 2026

arXiv:2604.28129v1 Announce Type: cross
Abstract: Multi-turn prompt injection follows a known attack path — trust-building, pivoting, escalation but text-level defenses miss covert attacks where individual turns appear benign. We show this attack pat…

Author name: Prashant Kulkarni

Latent Adversarial Detection: Adaptive Probing of LLM Activations for Multi-Turn Attack Detection