Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Este estudio utiliza modelos de lenguaje abiertos chinos que censuran temas políticamente sensibles como un banco de pruebas natural para evaluar técnicas de elicitación de honestidad y detección de mentiras, encontrando que métodos como el muestreo sin plantillas de chat y el prompting de autoevaluación mejoran la veracidad, aunque ninguna técnica elimina completamente las respuestas falsas.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

RoboPocket: Improve Robot Policies Instantly with Your Phone

El artículo presenta RoboPocket, un sistema portátil que utiliza realidad aumentada en smartphones para visualizar las predicciones de un robot y permitir la iteración instantánea de políticas mediante correcciones interactivas y ajuste en línea, logrando así una eficiencia de datos significativamente superior a las estrategias tradicionales sin necesidad de ejecutar físicamente al robot.

Junjie Fang, Wendi Chen, Han Xue + 7 more2026-03-06🤖 cs.AI

Recurrent Action Transformer with Memory

El artículo presenta RATE, una arquitectura de transformador recurrente con memoria diseñada para el aprendizaje por refuerzo fuera de línea que supera las limitaciones de los modelos estándar en entornos parcialmente observables al integrar un mecanismo de memoria que regula la retención de información, logrando un rendimiento superior en tareas que dependen de la memoria sin sacrificar la competitividad en tareas estándar.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Este artículo revisa y analiza las funciones de recompensa utilizadas en el aprendizaje por refuerzo para la conducción autónoma, identificando desafíos como la falta de estandarización y la dificultad para equilibrar objetivos conflictivos, para finalmente proponer futuras líneas de investigación que incluyan marcos de validación y recompensas estructuradas y conscientes del contexto.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Esta investigación propone un sistema innovador que integra Modelos de Lenguaje Grandes (LLM) con el Grafo de Conocimiento Académico de la ANU y un modelo de documentos profundos para procesar consultas semánticas complejas sobre la producción científica en ciencias de la computación, logrando una mayor precisión y eficiencia en la recuperación de información que los métodos tradicionales.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

El artículo presenta a Merlin, un modelo fundacional de visión-idioma tridimensional entrenado sin anotaciones manuales en un vasto conjunto de datos de tomografías computarizadas abdominales, que supera a los modelos existentes en una amplia gama de tareas diagnósticas, pronósticas y de generación de informes, demostrando una alta generalización en múltiples instituciones.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

A Bayesian Framework for Active Tactile Object Recognition, Pose Estimation and Shape Transfer Learning

Este artículo presenta un marco bayesiano unificado que combina un filtro de partículas personalizado y una superficie implícita de proceso gaussiano para permitir a los robots reconocer objetos y estimar su pose mediante el tacto activo, mientras transfieren conocimiento de formas conocidas para reconstruir y aprender nuevas formas.

Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers + 2 more2026-03-05🤖 cs.AI

Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration

Este artículo presenta OVMSE, un marco novedoso de aprendizaje por refuerzo multiagente de offline a online que combina una memoria de función de valor offline para preservar el conocimiento preentrenado y una estrategia de exploración secuencial descentralizada para mejorar la eficiencia de muestreo y el rendimiento en entornos complejos como StarCraft.

Hai Zhong, Xun Wang, Zhuoran Li + 1 more2026-03-05🤖 cs.AI

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Este artículo propone definiciones precisas de memoria inspiradas en la ciencia cognitiva y una metodología experimental estandarizada para clasificar y evaluar objetivamente las capacidades de memoria de los agentes de Aprendizaje por Refuerzo, demostrando empíricamente la necesidad de adherirse a este enfoque para evitar juicios erróneos.

Egor Cherepanov, Nikita Kachaev, Artem Zholus + 2 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Este trabajo identifica y demuestra empíricamente la "fuga de preferencias", un problema de contaminación en el que los modelos de lenguaje grandes (LLMs) utilizados como jueces muestran un sesgo sistemático hacia los modelos generadores de datos sintéticos con los que comparten origen o familia, lo que compromete la integridad de la evaluación y el entrenamiento de modelos.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI