cs.AI artículos | Gist.Science

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Este estudio utiliza modelos de lenguaje abiertos chinos que censuran temas políticamente sensibles como un banco de pruebas natural para evaluar técnicas de elicitación de honestidad y detección de mentiras, encontrando que métodos como el muestreo sin plantillas de chat y el prompting de autoevaluación mejoran la veracidad, aunque ninguna técnica elimina completamente las respuestas falsas.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Este estudio demuestra que las activaciones masivas y los sumideros de atención, aunque a menudo coexisten como un artefacto arquitectónico de los Transformers modernos, cumplen funciones distintas (globales y locales, respectivamente) que se desacoplan al modificar la configuración de pre-normalización.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

El artículo presenta POET-X, una variante eficiente en memoria y escalable del marco POET que permite el entrenamiento de modelos de lenguaje grandes de miles de millones de parámetros en una sola GPU Nvidia H100, superando las limitaciones de consumo de memoria y costo computacional de la implementación original y de optimizadores estándar como AdamW.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

RoboPocket: Improve Robot Policies Instantly with Your Phone

El artículo presenta RoboPocket, un sistema portátil que utiliza realidad aumentada en smartphones para visualizar las predicciones de un robot y permitir la iteración instantánea de políticas mediante correcciones interactivas y ajuste en línea, logrando así una eficiencia de datos significativamente superior a las estrategias tradicionales sin necesidad de ejecutar físicamente al robot.

Junjie Fang, Wendi Chen, Han Xue + 7 more2026-03-06🤖 cs.AI

Recurrent Action Transformer with Memory

El artículo presenta RATE, una arquitectura de transformador recurrente con memoria diseñada para el aprendizaje por refuerzo fuera de línea que supera las limitaciones de los modelos estándar en entornos parcialmente observables al integrar un mecanismo de memoria que regula la retención de información, logrando un rendimiento superior en tareas que dependen de la memoria sin sacrificar la competitividad en tareas estándar.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artículo propone un nuevo método basado en modelos de difusión para la segmentación de instancias camufladas de vocabulario abierto (OVCIS), que fusiona características visuales y textuales para superar los desafíos de la segmentación de objetos ocultos y permitir la detección de clases no vistas previamente, con aplicaciones en vigilancia y monitoreo de vida silvestre.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

El artículo presenta Export3D, un método de animación de retratos en una sola toma que genera un triplano 3D condicional mediante un marco de preentrenamiento contrastivo para controlar la expresión y la vista de la cámara sin intercambiar la apariencia de la identidad.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Este artículo revisa y analiza las funciones de recompensa utilizadas en el aprendizaje por refuerzo para la conducción autónoma, identificando desafíos como la falta de estandarización y la dificultad para equilibrar objetivos conflictivos, para finalmente proponer futuras líneas de investigación que incluyan marcos de validación y recompensas estructuradas y conscientes del contexto.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Esta investigación propone un sistema innovador que integra Modelos de Lenguaje Grandes (LLM) con el Grafo de Conocimiento Académico de la ANU y un modelo de documentos profundos para procesar consultas semánticas complejas sobre la producción científica en ciencias de la computación, logrando una mayor precisión y eficiencia en la recuperación de información que los métodos tradicionales.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

El artículo presenta a Merlin, un modelo fundacional de visión-idioma tridimensional entrenado sin anotaciones manuales en un vasto conjunto de datos de tomografías computarizadas abdominales, que supera a los modelos existentes en una amplia gama de tareas diagnósticas, pronósticas y de generación de informes, demostrando una alta generalización en múltiples instituciones.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

A Bayesian Framework for Active Tactile Object Recognition, Pose Estimation and Shape Transfer Learning

Este artículo presenta un marco bayesiano unificado que combina un filtro de partículas personalizado y una superficie implícita de proceso gaussiano para permitir a los robots reconocer objetos y estimar su pose mediante el tacto activo, mientras transfieren conocimiento de formas conocidas para reconstruir y aprender nuevas formas.

Haodong Zheng, Andrei Jalba, Raymond H. Cuijpers + 2 more2026-03-05🤖 cs.AI

Conjuring Semantic Similarity

Este trabajo propone un enfoque novedoso para medir la similitud semántica entre expresiones textuales basándose en la distancia entre las distribuciones de imágenes que estas evocan mediante modelos generativos, calculada específicamente mediante la divergencia de Jeffreys entre sus ecuaciones diferenciales estocásticas.

Tian Yu Liu, Stefano Soatto2026-03-05🤖 cs.AI

Offline-to-Online Multi-Agent Reinforcement Learning with Offline Value Function Memory and Sequential Exploration

Este artículo presenta OVMSE, un marco novedoso de aprendizaje por refuerzo multiagente de offline a online que combina una memoria de función de valor offline para preservar el conocimiento preentrenado y una estrategia de exploración secuencial descentralizada para mejorar la eficiencia de muestreo y el rendimiento en entornos complejos como StarCraft.

Hai Zhong, Xun Wang, Zhuoran Li + 1 more2026-03-05🤖 cs.AI

Toward Reasoning on the Boundary: A Mixup-based Approach for Graph Anomaly Detection

El artículo presenta ANOMIX, un marco basado en la técnica de mixup que sintetiza negativos difíciles para refinar el espacio de representaciones de las GNN y mejorar la detección de anomalías sutiles en los límites de decisión que los métodos actuales no logran identificar.

Hwan Kim, Junghoon Kim, Sungsu Lim2026-03-05🤖 cs.AI

Curriculum-enhanced GroupDRO: Challenging the Norm of Avoiding Curriculum Learning in Subpopulation Shift Setups

Este trabajo propone CeGDRO, un enfoque que integra el aprendizaje curricular con la optimización robusta distribucional de grupos para inicializar los pesos del modelo en un punto imparcial y priorizar muestras específicas, logrando así superar el estado del arte en escenarios de desplazamiento de subpoblaciones.

Antonio Barbalau2026-03-05🤖 cs.AI

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Este artículo propone definiciones precisas de memoria inspiradas en la ciencia cognitiva y una metodología experimental estandarizada para clasificar y evaluar objetivamente las capacidades de memoria de los agentes de Aprendizaje por Refuerzo, demostrando empíricamente la necesidad de adherirse a este enfoque para evitar juicios erróneos.

Egor Cherepanov, Nikita Kachaev, Artem Zholus + 2 more2026-03-05🤖 cs.AI

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

El artículo presenta LMUnit, un modelo unificado que utiliza pruebas unitarias en lenguaje natural para evaluar de manera más precisa y consistente el comportamiento de los modelos de lenguaje, superando las limitaciones de las métricas automáticas tradicionales y la evaluación humana.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Difficult Examples Hurt Unsupervised Contrastive Learning: A Theoretical Perspective

Este artículo demuestra teórica y empíricamente que eliminar los ejemplos difíciles en el aprendizaje contrastivo no supervisado mejora el rendimiento de clasificación y los límites de generalización, a diferencia de lo que ocurre en el aprendizaje supervisado.

Yi-Ge Zhang, Jingyi Cui, Qiran Li + 1 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Este trabajo identifica y demuestra empíricamente la "fuga de preferencias", un problema de contaminación en el que los modelos de lenguaje grandes (LLMs) utilizados como jueces muestran un sesgo sistemático hacia los modelos generadores de datos sintéticos con los que comparten origen o familia, lo que compromete la integridad de la evaluación y el entrenamiento de modelos.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

El artículo presenta DCENWCNet, un nuevo modelo de red neuronal convolucional en conjunto que integra tres arquitecturas con configuraciones únicas para clasificar células blancas de la sangre con alta precisión y utiliza LIME para mejorar la interpretabilidad de sus predicciones.

Sibasish Dhibar2026-03-05🤖 cs.AI

← Anterior Siguiente →