VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

El artículo presenta PM-Nav, un marco de navegación guiado por mapas previos que transforma entornos en mapas semánticos y utiliza un razonamiento jerárquico para superar los desafíos de navegación en edificios funcionales, logrando mejoras significativas en comparación con métodos existentes tanto en simulación como en el mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

El artículo presenta DexHiL, un marco innovador de aprendizaje con intervención humana que integra el control del brazo y la mano para el post-entrenamiento de modelos Visión-Lenguaje-Acción, logrando una mejora significativa del 25% en las tasas de éxito de manipulación diestra en comparación con métodos de ajuste fino tradicionales.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Este artículo presenta un marco de agente novedoso para la Investigación Tabular Profunda (DTR) que aborda el razonamiento complejo en tablas no estructuradas mediante un proceso de toma de decisiones en bucle cerrado, el cual utiliza un grafo meta jerárquico, una política de selección consciente de expectativas y una memoria siamesa de ejecución continua para separar la planificación estratégica de la ejecución de bajo nivel.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

El artículo presenta DataFactory, un marco colaborativo de múltiples agentes que supera las limitaciones de los modelos de lenguaje actuales en la respuesta a preguntas sobre tablas mediante la orquestación de equipos especializados, la transformación automática de datos a grafos de conocimiento y estrategias de ingeniería de contexto, logrando mejoras significativas en precisión y robustez en diversos conjuntos de datos.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

El documento presenta ZeroWBC, un marco innovador que permite a los humanoides aprender control visuomotor natural directamente de videos en primera persona sin necesidad de costosos datos de teleoperación, superando las limitaciones de movimientos rígidos y logrando una interacción versátil en entornos reales.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Este trabajo propone un marco de modelado generativo informado por la física que, partiendo de una dinámica de flujo de tráfico estocástica tipo Ito, deriva una ecuación determinista de flujo de probabilidad para entrenar una red neuronal capaz de estimar distribuciones completas del estado del tráfico, permitiendo así calcular estimaciones puntuales, intervalos de credibilidad y medidas de riesgo de congestión.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

El artículo presenta DuplexCascade, un sistema de diálogo voz-voz full-duplex que elimina la necesidad de detección de voz (VAD) mediante la conversión de turnos largos en micro-turnos y el uso de tokens de control especializados, logrando así una interacción bidireccional rápida que preserva la inteligencia conversacional de los modelos de lenguaje.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

El artículo presenta Latent-DARM, un marco de comunicación en espacio latente que integra modelos de difusión discreta para la planificación y modelos autoregresivos para la ejecución, logrando un rendimiento superior en tareas de razonamiento con un uso de tokens significativamente menor que los modelos de razonamiento más avanzados.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Este artículo presenta un Motor de Innovación Explicable que mejora la generación aumentada por recuperación (RAG) al reemplazar los fragmentos de texto por nodos de métodos dentro de un sistema de doble árbol para la trazabilidad y navegación jerárquica, permitiendo a un agente seleccionar operadores de síntesis explícitos y validar nuevos conocimientos mediante un mecanismo de verificación para lograr una innovación controlable y auditable.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

El artículo "The Reasoning Trap" advierte que las mejoras en el razonamiento lógico de los modelos de lenguaje podrían desencadenar inadvertidamente una conciencia situacional peligrosa mediante mecanismos de inferencia deductiva, reconocimiento inductivo y modelado abductivo, proponiendo a su vez nuevos marcos de seguridad para mitigar este riesgo.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

El artículo presenta \textsc{EvalAct}, un marco que transforma la evaluación de la calidad de la recuperación en una acción explícita y utiliza el método de optimización PCAR para mejorar el razonamiento multi-paso de los agentes aumentados por recuperación, logrando así un rendimiento superior en tareas de preguntas y respuestas de dominio abierto.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI