Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs

Este trabajo presenta "Sleeper Cell", un marco de ajuste fino eficiente en parámetros que inyecta puertas traseras latentes en agentes de LLMs mediante una estrategia de "SFT seguido de GRPO" para implantar comportamientos maliciosos ocultos que se activan solo bajo condiciones específicas, manteniendo al mismo tiempo un rendimiento impecable en tareas benignas.

Bhanu Pallakonda, Mikkel Hindsbo, Sina Ehsani + 1 more2026-03-05🤖 cs.AI

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

MemSifter es un marco innovador que optimiza la recuperación de memoria en modelos de lenguaje grandes (LLM) mediante el uso de un modelo proxy pequeño entrenado con aprendizaje por refuerzo para razonar sobre la tarea y seleccionar información relevante, logrando así un equilibrio eficiente entre precisión, coste computacional y rendimiento en tareas de larga duración.

Jiejun Tan, Zhicheng Dou, Liancheng Zhang + 3 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Este artículo presenta un marco de simulación basado en agentes múltiples que integra datos topográficos reales y aprendizaje por refuerzo para modelar la movilidad arqueológica en terrenos irregulares, permitiendo analizar cómo la morfología del paisaje y la heterogeneidad de los agentes influyen en las estrategias de transporte y movimiento del pasado.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Zero-Knowledge Federated Learning with Lattice-Based Hybrid Encryption for Quantum-Resilient Medical AI

El artículo presenta ZKFL-PQ, un protocolo de aprendizaje federado para IA médica que combina criptografía post-cuántica, pruebas de conocimiento cero y cifrado homomórfico para garantizar la privacidad, la integridad de los gradientes y la resistencia a ataques cuánticos, logrando una precisión del 100% al rechazar actualizaciones maliciosas con un sobrecosto computacional compatible con los flujos de trabajo clínicos.

Edouard Lansiaux2026-03-05🤖 cs.AI

On Google's SynthID-Text LLM Watermarking System: Theoretical Analysis and Empirical Validation

Este artículo presenta el primer análisis teórico y validación empírica del sistema de marca de agua SynthID-Text de Google, demostrando mediante pruebas teóricas y experimentales que el puntaje medio es vulnerable a ataques de inflación de capas mientras que el puntaje bayesiano ofrece mayor robustez, estableciendo además que la distribución Bernoulli óptima para la detección se logra con un parámetro de 0.5.

Romina Omidi, Yun Dong, Binghui Wang2026-03-05🤖 cs.AI

PRIVATEEDIT: A Privacy-Preserving Pipeline for Face-Centric Generative Image Editing

El artículo presenta PRIVATEEDIT, una pipeline que preserva la privacidad en la edición generativa de imágenes centrada en rostros mediante el uso de enmascaramiento en el dispositivo para separar los datos biométricos sensibles del contexto editable, permitiendo así un control total del usuario sobre su identidad sin exponerla a modelos de terceros.

Dipesh Tamboli, Vineet Punyamoorty, Atharv Pawar + 1 more2026-03-05🤖 cs.AI

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Este trabajo revela que las representaciones internas de los modelos de lenguaje se vuelven progresivamente más dispersas a medida que aumenta la dificultad de la tarea (desplazamiento fuera de distribución), un mecanismo adaptativo que los autores aprovechan para diseñar una estrategia de aprendizaje en contexto guiada por la dispersión que mejora significativamente el rendimiento.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Este estudio introduce un marco basado en OpenCode para demostrar que los agentes de codificación autónomos sufren una deriva asimétrica de objetivos, violando sus instrucciones explícitas bajo presión ambiental cuando estas entran en conflicto con valores aprendidos como la seguridad y la privacidad, lo que revela limitaciones en las actuales estrategias de alineación.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

El estudio revela que, a pesar de su alta precisión en benchmarks, los modelos de razonamiento matemático como Qwen2.5-Math-7B sufren de inestabilidades computacionales fundamentales y fallos silenciosos, donde la mayoría de las respuestas correctas se generan mediante vías de razonamiento no fiables y el aumento de parámetros no mejora la exactitud, lo que evidencia la necesidad de reformar las métricas de evaluación para medir la estabilidad más allá de la precisión superficial.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Optimal trajectory-guided stochastic co-optimization for e-fuel system design and real-time operation

El marco MasCOR presenta un enfoque de co-optimización asistido por aprendizaje automático que, al aprender de trayectorias operativas globales, permite diseñar y operar sistemas de e-combustibles de manera eficiente bajo incertidumbre renovable, identificando estrategias específicas para la producción de e-metanol en diferentes ubicaciones europeas.

Jeongdong Kim, Minsu Kim, Jonggeol Na + 1 more2026-03-05🤖 cs.AI