Safer Reasoning Traces: Measuring and Mitigating Chain-of-Thought Leakage in LLMs
Este artículo investiga cómo la generación de cadenas de pensamiento (CoT) en modelos de lenguaje puede aumentar la filtración de información personal identificable (PII), proponiendo un marco para medir este riesgo y evaluar diversas estrategias de mitigación en tiempo de inferencia que equilibren la utilidad y la seguridad.