Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering
Este artículo presenta K-CAST, un método de direccionamiento de activaciones basado en kNN que mitiga dinámicamente los sesgos de contenido en el razonamiento de los modelos de lenguaje grandes, mejorando significativamente su precisión lógica sin afectar sus capacidades lingüísticas.