A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabajo presenta un sistema multiagente basado en modelos de lenguaje grandes multimodales que supera significativamente al estado del arte en la extracción automatizada y robusta de información química de la literatura, logrando un puntaje F1 del 76,27% en gráficos de reacciones complejos y demostrando una amplia versatilidad en diversas tareas de extracción de datos.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Este trabajo presenta MAP, un método de decodificación sin entrenamiento que mitiga las alucinaciones en los Modelos Grandes de Visión y Lenguaje interpretando sus estados ocultos como un mapa semántico 2D y refinando las representaciones mediante operaciones de atención a nivel de mapa para mejorar la consistencia factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

El artículo presenta SGDFuse, un modelo de difusión condicional guiado por Segment Anything Model (SAM) que utiliza máscaras semánticas como priores explícitos para lograr una fusión de imágenes infrarrojas y visibles de alta fidelidad, preservando objetivos clave y mejorando el rendimiento en tareas visuales posteriores.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Este artículo presenta un nuevo enfoque de alineación de seguridad llamado "Answer-Then-Check", respaldado por el conjunto de datos ReSA, que entrena a los modelos de lenguaje para razonar y evaluar críticamente la seguridad de sus respuestas antes de generarlas, logrando así una mayor robustez ante ataques de jailbreak sin comprometer sus capacidades generales ni aumentar las rechazos innecesarios.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artículo presenta una meta-evaluación exhaustiva de las métricas de latencia para la traducción simultánea de voz a texto, identificando sesgos estructurales existentes e introduciendo las nuevas métricas YAAL y LongYAAL junto con la herramienta SoftSegmenter para lograr evaluaciones más precisas en formatos cortos y largos.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

El artículo presenta LikePhys, un método libre de entrenamiento que evalúa la comprensión de la física intuitiva en modelos de difusión de video mediante una métrica de preferencia basada en la verosimilitud, demostrando una fuerte alineación con las preferencias humanas y revelando que, aunque los modelos actuales tienen dificultades con dinámicas complejas, su comprensión física mejora a medida que aumenta la capacidad del modelo y la configuración de inferencia.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Phys2Real: Fusing VLM Priors with Interactive Online Adaptation for Uncertainty-Aware Sim-to-Real Manipulation

El artículo presenta Phys2Real, un pipeline de aprendizaje por refuerzo que fusiona estimaciones de parámetros físicos inferidas por modelos de visión y lenguaje con la adaptación interactiva en línea basada en incertidumbre para lograr una transferencia efectiva de simulación a realidad en tareas de manipulación robótica.

Maggie Wang, Stephen Tian, Aiden Swann, Ola Shorinwa, Jiajun Wu, Mac Schwager2026-03-09🤖 cs.AI

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Este artículo presenta un enfoque de "objetivos just-in-time" que infiere y optimiza en tiempo real las metas específicas del usuario para transformar a los modelos de lenguaje en herramientas especializadas de alta calidad, superando significativamente a los LLMs estándar en tareas personalizadas.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

El artículo presenta 3DThinker, un marco innovador que permite a los modelos de visión y lenguaje realizar un razonamiento espacial 3D basado en la imaginación geométrica a partir de vistas limitadas, sin depender de datos 3D etiquetados ni entradas previas en tres dimensiones.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

El artículo presenta un marco de evaluación y mejora para agentes de IA que buscan información estratégicamente, demostrando que mediante técnicas de inferencia inspiradas en el diseño experimental bayesiano, modelos de lenguaje más pequeños pueden superar tanto a humanos como a modelos de vanguardia en tareas de toma de decisiones bajo incertidumbre como "Barcos de Batalla" y "Adivina Quién".

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

REx86: A Local Large Language Model for Assisting in x86 Assembly Reverse Engineering

El artículo presenta REx86, un modelo de lenguaje local de código abierto basado en Qwen2.5-Coder-7B y afinado con un conjunto de datos específico, que mejora significativamente la comprensión y el análisis de ensamblador x86 para ingeniería inversa en entornos seguros, superando a otros modelos locales y reduciendo errores de interpretación.

Darrin Lea, James Ghawaly, Golden Richard + 2 more2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artículo propone un marco de evaluación basado en la métrica de Transformación de Referencia Cultural (CRT) para analizar cómo los modelos de difusión manejan la iconicidad multimodal, distinguiendo entre el reconocimiento de referencias culturales compartidas y su realización visual, y revelando que su comportamiento depende de factores como la frecuencia de los datos, la popularidad de la referencia y la sensibilidad lingüística, más allá de la simple reproducción de imágenes.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

XR-DT: Extended Reality-Enhanced Digital Twin for Safe Motion Planning via Human-Aware Model Predictive Path Integral Control

Este artículo presenta XR-DT, un marco de gemelo digital potenciado por realidad extendida que integra el modelo de control HA-MPPI y la predicción de trayectorias humanas ATLAS para lograr una planificación de movimiento segura, eficiente e interpretable en entornos compartidos entre humanos y robots.

Tianyi Wang, Jiseop Byeon, Ahmad Yehia, Yiming Xu, Jihyung Park, Tianyi Zeng, Sikai Chen, Ziran Wang, Junfeng Jiao, Christian Claudel2026-03-09🤖 cs.AI

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Este trabajo propone un método que utiliza la familia de divergencias α\alpha para aproximar una distribución objetivo filtrada, permitiendo controlar explícitamente la compensación entre precisión y diversidad en modelos de lenguaje grandes y superando a los enfoques anteriores en cobertura sin sacrificar el rendimiento en la resolución de problemas de razonamiento.

Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman2026-03-09🤖 cs.AI