Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Finding and Reactivating Post-Trained LLMs’ Hidden Safety Mechanisms

Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang / April 2, 2026

arXiv:2604.00012v1 Announce Type: new
Abstract: Despite the impressive performance of general-purpose large language models (LLMs), they often require fine-tuning or post-training to excel at specific tasks. For instance, large reasoning models (LRMs)…

Author name: Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Finding and Reactivating Post-Trained LLMs’ Hidden Safety Mechanisms