cs.AI artículos | Gist.Science

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

El artículo presenta Sim2Act, un marco robusto de aprendizaje de simulación a decisión que mejora la fiabilidad de las políticas en entornos críticos mediante un mecanismo de calibración adversarial y una estrategia de perturbación relativa a grupos para mitigar los errores de simulación sin sacrificar acciones de alto riesgo y recompensa.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Este trabajo presenta Doki, una interfaz nativa de texto para la creación de videos generativos que permite a los usuarios definir activos, estructurar escenas y editar contenido mediante escritura libre, facilitando así la narración visual sin necesidad de herramientas especializadas.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li2026-03-11🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

El artículo presenta GST-VLA, un modelo de visión-lenguaje-acción que mejora la percepción geométrica y el razonamiento espacial mediante un tokenizador de Gaussiana 3D y un proceso de pensamiento encadenado consciente de la profundidad, logrando un rendimiento superior en tareas de manipulación robótica.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Este estudio demuestra que integrar puntuaciones de sentimiento derivadas de noticias en inglés y chino mediante un modelo LLM Qwen3 finetuneado mejora significativamente la precisión de las predicciones de precios del aluminio y la utilidad económica en mercados volátiles en comparación con los modelos tradicionales que solo utilizan datos tabulares.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artículo propone un marco unificado y una taxonomía para los modelos de mundo latentes en la conducción automatizada que organizan las representaciones latentes y los mecanismos internos, estableciendo directrices de evaluación y desafíos de investigación para lograr sistemas más robustos, generalizables y eficientes.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artículo presenta un marco basado en transformadores para la recuperación de casos de cáncer de piel mediante consultas compuestas de imagen y texto, que logra mejoras sobre el estado del arte al alinear jerárquicamente representaciones globales y locales mediante un mecanismo de atención espacial y un ponderamiento convexo informado clínicamente.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

El artículo presenta VIVID-Med, un marco innovador que utiliza un modelo de lenguaje grande (LLM) congelado como maestro semántico estructurado para preentrenar transformadores de visión (ViT) médicos, logrando un rendimiento superior en diversas tareas de análisis de imágenes médicas con una fracción de los datos necesarios y eliminando la necesidad de depender del LLM en la fase de despliegue.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

El artículo presenta PM-Nav, un marco de navegación guiado por mapas previos que transforma entornos en mapas semánticos y utiliza un razonamiento jerárquico para superar los desafíos de navegación en edificios funcionales, logrando mejoras significativas en comparación con métodos existentes tanto en simulación como en el mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

El artículo presenta DexHiL, un marco innovador de aprendizaje con intervención humana que integra el control del brazo y la mano para el post-entrenamiento de modelos Visión-Lenguaje-Acción, logrando una mejora significativa del 25% en las tasas de éxito de manipulación diestra en comparación con métodos de ajuste fino tradicionales.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

El modelo QUSR aborda la super-resolución de imágenes en escenarios reales mediante la integración de un prior de calidad basado en modelos de lenguaje multimodal y una generación de ruido guiada por la incertidumbre que adapta la perturbación para preservar detalles y minimizar artefactos.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

El estudio demuestra que los sistemas de deliberación multi-LLM exhiben inestabilidad caótica y sensibilidad a las condiciones iniciales incluso en configuraciones deterministas, identificando la diferenciación de roles y la heterogeneidad de modelos como causas principales de divergencia y subrayando la necesidad de auditorías de estabilidad en el diseño de estos sistemas.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artículo propone un método de regularización basado en la Probabilidad de Necesidad y Suficiencia (PNS) para el aprendizaje incremental de clases, que utiliza un generador contrafactual dual para eliminar correlaciones espurias intra e inter-tarea y así mitigar la colisión de características y el olvido catastrófico.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Este artículo presenta un marco de agente novedoso para la Investigación Tabular Profunda (DTR) que aborda el razonamiento complejo en tablas no estructuradas mediante un proceso de toma de decisiones en bucle cerrado, el cual utiliza un grafo meta jerárquico, una política de selección consciente de expectativas y una memoria siamesa de ejecución continua para separar la planificación estratégica de la ejecución de bajo nivel.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

El artículo presenta DataFactory, un marco colaborativo de múltiples agentes que supera las limitaciones de los modelos de lenguaje actuales en la respuesta a preguntas sobre tablas mediante la orquestación de equipos especializados, la transformación automática de datos a grafos de conocimiento y estrategias de ingeniería de contexto, logrando mejoras significativas en precisión y robustez en diversos conjuntos de datos.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

El artículo presenta TrustBench, un marco de verificación de confianza en tiempo real que interviene antes de la ejecución de las acciones de agentes autónomos mediante plugins específicos de dominio, logrando una reducción del 87% en acciones dañinas con una latencia inferior a 200 ms.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap es un marco de aprendizaje por refuerzo que utiliza rúbricas generadas por LLMs para proporcionar señales de recompensa granulares y específicas, logrando así una generación de descripciones de imágenes densas superior a los métodos supervisados y otros enfoques de RL, incluso con modelos de tamaño reducido.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Este trabajo propone un marco de aprendizaje efectivo para representaciones de netlistas que supera la escasez de datos etiquetados al utilizar RTL imperfecto generado por modelos de lenguaje grande, demostrando que sus patrones estructurales preservados permiten entrenar modelos que generalizan bien a diseños reales y superan a los métodos existentes.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

El artículo presenta GIAT, un nuevo marco Transformer informado geológicamente que integra filtros de correlación de secuencia por categoría para guiar el mecanismo de atención hacia patrones coherentes, logrando así una identificación de litología más precisa, fiable e interpretable que los modelos existentes.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

El documento presenta ZeroWBC, un marco innovador que permite a los humanoides aprender control visuomotor natural directamente de videos en primera persona sin necesidad de costosos datos de teleoperación, superando las limitaciones de movimientos rígidos y logrando una interacción versátil en entornos reales.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

El artículo presenta resultados mejorados para cinco números de Ramsey clásicos y demuestra la eficacia de AlphaEvolve, un agente de mutación de código basado en modelos de lenguaje, como un metaalgoritmo único capaz de generar algoritmos de búsqueda que superan o igualan los límites inferiores conocidos en este campo.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

← Anterior Siguiente →