cs.AI artículos | Gist.Science

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

El artículo presenta CostNav, un nuevo benchmark que evalúa la viabilidad económica real de los agentes de IA física para la navegación mediante el análisis de costos y beneficios utilizando datos regulatorios y financieros de la industria, revelando que los métodos actuales, aunque exitosos en tareas simplificadas, no son económicamente viables en escenarios del mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

El artículo presenta IndiMathBench, un nuevo conjunto de pruebas de 312 problemas matemáticos de las Olimpiadas de Matemáticas de la India formalizados en Lean 4 mediante un pipeline híbrido de IA y verificación humana, diseñado para evaluar y destacar las limitaciones actuales de los modelos de lenguaje en la demostración automática de teoremas.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

El artículo presenta C3, un método de cuantificación de incertidumbre que entrena modelos de video generativos para estimar y visualizar de forma calibrada la confianza a nivel de subparche, permitiendo detectar y localizar alucinaciones en tareas de generación de video controlado y aprendizaje robótico.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

El artículo presenta Trio, un marco de generación molecular que integra modelado de lenguaje, aprendizaje por refuerzo y búsqueda en árbol Monte Carlo para lograr un diseño de ligandos dirigido, interpretable y en bucle cerrado que supera a los métodos actuales en afinidad de unión, propiedades farmacológicas y diversidad química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Este trabajo introduce variantes de bosques aleatorios basadas en el principio de minimización del riesgo máximo (MaxRM) para mejorar la generalización fuera de distribución, ofreciendo algoritmos eficientes, demostrando consistencia estadística y garantizando resultados en distribuciones de prueba no vistas.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

El artículo presenta GTR-Turbo, un método eficiente que utiliza un modelo maestro "gratuito" generado mediante la fusión de checkpoints durante el entrenamiento por refuerzo para mejorar el rendimiento de los agentes VLM, reducir costos computacionales y eliminar la dependencia de modelos propietarios costosos.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

El artículo presenta el PBT (Pretrained Battery Transformer), un modelo fundacional que utiliza capas de expertos codificados con conocimiento de baterías para predecir universalmente la vida útil de baterías de litio, sodio y zinc con un rendimiento superior al estado del arte, superando los desafíos de escasez y heterogeneidad de datos.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudio presenta un marco basado en YOLOv8 y Finer-CAM que, al analizar proyecciones 2D de nubes de puntos TLS, logra una precisión del 96% en la clasificación de siete especies arbóreas europeas y demuestra que el modelo utiliza principalmente las copas para su identificación, mientras que los tallos son más determinantes para especies como el fresno, el pino silvestre y el douglas, mejorando así la interpretabilidad y confianza en las predicciones del modelo.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Este artículo demuestra que los transformadores pequeños, en entornos controlados denominados "túneles de viento bayesianos", realizan inferencia bayesiana con alta precisión mediante un mecanismo geométrico específico donde las corrientes residuales almacenan creencias y la atención gestiona el enrutamiento, superando así a las arquitecturas MLP y revelando la base geométrica del razonamiento en modelos grandes.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artículo demuestra que el entrenamiento por entropía cruzada en los transformadores genera dinámicas de gradiente acopladas que esculpen manifiestos bayesianos de baja dimensión, unificando así la optimización, la geometría interna y el razonamiento probabilístico en contexto mediante un mecanismo de enrutamiento basado en ventajas y actualizaciones de valores ponderadas por responsabilidad.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

El estudio demuestra que los modelos de lenguaje modernos preservan una sustrato geométrico de baja dimensión, alineado con la entropía predictiva, que codifica la estructura bayesiana y permite inferencias aproximadas similares a las observadas en entornos sintéticos controlados.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Este trabajo analiza el problema del "sobre-búsqueda" en modelos de lenguaje grandes aumentados con búsqueda, proponiendo la métrica Tokens por Corrección (TPC) para cuantificar este fenómeno, identificando sus causas y efectos negativos, y presentando estrategias de mitigación junto con el conjunto de datos OverSearchQA para fomentar investigaciones futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudio presenta una arquitectura multi-tenant segura combinada con un mecanismo de "destrucción tras el uso" para entornos de LLM empresariales, logrando aislar instancias y eliminar contextos efímeros para prevenir eficazmente la fuga de datos mediante una alta tasa de éxito en pruebas de defensa contra ataques de filtración y persistencia.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artículo presenta un ataque de denegación de servicio económico y sigiloso para agentes de LLM que, mediante la manipulación de llamadas a herramientas bajo el Protocolo de Contexto del Modelo (MCP) y optimizado con Búsqueda de Árbol Monte Carlo, genera cadenas de interacción prolongadas que multiplican drásticamente los costos y el consumo de recursos sin ser detectado por filtros convencionales.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artículo presenta un agente de aprendizaje por refuerzo para el videojuego Dark Souls III que, mediante un gráfico de habilidades dirigido y un currículo jerárquico, descompone el control en cinco habilidades reutilizables, logrando una mayor eficiencia de muestras y permitiendo la adaptación selectiva a cambios ambientales sin necesidad de reentrenar todo el sistema.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR es un agente multimodal que optimiza el razonamiento a largo plazo bajo presupuestos de contexto limitados, transformando la memoria estructurada en imágenes visuales para priorizar la información crucial y comprimir los detalles auxiliares de manera adaptativa.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

El artículo presenta MHDash, una plataforma de código abierto diseñada para evaluar y auditar asistentes de IA en salud mental mediante un análisis granular de riesgos en diálogos multi-turno, demostrando que las métricas agregadas convencionales son insuficientes para garantizar la seguridad en casos de alto riesgo como la ideación suicida.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Este artículo demuestra teóricamente y valida empíricamente que las alucinaciones en los modelos de lenguaje son una consecuencia inevitable de la optimización de la memoria bajo capacidad limitada, donde la estrategia óptima de compresión de información requiere asignar alta confianza a hechos no reales para minimizar la pérdida de información.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Este artículo presenta EverMemBench, el primer benchmark diseñado para evaluar la memoria a largo plazo en diálogos colaborativos multiusuario, revelando las limitaciones actuales de los sistemas LLM en tareas de razonamiento multi-hop, comprensión temporal y conciencia de memoria en entornos complejos y realistas.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

El artículo presenta DEFT, un generador de trayectorias basado en difusión que permite a los robots completar tareas de manipulación de manera segura y efectiva incluso bajo condiciones de fallo en la actuación, superando significativamente a los métodos tradicionales en simulación y en el mundo real.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

← Anterior Siguiente →