cs.AI artículos | Gist.Science

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

El artículo presenta D-GAP, un método de aumento de datos agnóstico al conjunto de datos y guiado por gradientes que mejora la robustez fuera de dominio al aplicar perturbaciones adaptativas tanto en el espectro de amplitud (espacio de frecuencia) como en los valores de píxel para reducir el sesgo de aprendizaje y restaurar detalles espaciales.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

El artículo presenta STREAM-VAE, un modelo de autoencoder variacional que mejora la detección de anomalías en telemetría de vehículos mediante un enrutamiento dual que separa las dinámicas de deriva lenta y picos rápidos para generar puntuaciones estables y robustas.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

El artículo presenta REMSA, un agente consciente de restricciones que, aprovechando la primera base de datos estructurada de modelos fundamentales de teledetección (RS-FMD), automatiza la selección de modelos óptimos para tareas específicas mediante consultas en lenguaje natural y una evaluación rigurosa basada en expertos.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artículo presenta un marco de olvido selectivo jerárquico de doble estrategia que, mediante actualizaciones de gradiente geométricamente restringidas e intervenciones a nivel de tokens conscientes de conceptos, elimina eficazmente conocimientos médicos específicos de grandes modelos de lenguaje preservando sus competencias fundamentales y garantizando la privacidad con una modificación mínima de parámetros.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

El artículo presenta CostNav, un nuevo benchmark que evalúa la viabilidad económica real de los agentes de IA física para la navegación mediante el análisis de costos y beneficios utilizando datos regulatorios y financieros de la industria, revelando que los métodos actuales, aunque exitosos en tareas simplificadas, no son económicamente viables en escenarios del mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

El artículo presenta IndiMathBench, un nuevo conjunto de pruebas de 312 problemas matemáticos de las Olimpiadas de Matemáticas de la India formalizados en Lean 4 mediante un pipeline híbrido de IA y verificación humana, diseñado para evaluar y destacar las limitaciones actuales de los modelos de lenguaje en la demostración automática de teoremas.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

El artículo presenta C3, un método de cuantificación de incertidumbre que entrena modelos de video generativos para estimar y visualizar de forma calibrada la confianza a nivel de subparche, permitiendo detectar y localizar alucinaciones en tareas de generación de video controlado y aprendizaje robótico.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

El artículo presenta Trio, un marco de generación molecular que integra modelado de lenguaje, aprendizaje por refuerzo y búsqueda en árbol Monte Carlo para lograr un diseño de ligandos dirigido, interpretable y en bucle cerrado que supera a los métodos actuales en afinidad de unión, propiedades farmacológicas y diversidad química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Este trabajo introduce variantes de bosques aleatorios basadas en el principio de minimización del riesgo máximo (MaxRM) para mejorar la generalización fuera de distribución, ofreciendo algoritmos eficientes, demostrando consistencia estadística y garantizando resultados en distribuciones de prueba no vistas.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

El artículo presenta GTR-Turbo, un método eficiente que utiliza un modelo maestro "gratuito" generado mediante la fusión de checkpoints durante el entrenamiento por refuerzo para mejorar el rendimiento de los agentes VLM, reducir costos computacionales y eliminar la dependencia de modelos propietarios costosos.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

El artículo presenta el PBT (Pretrained Battery Transformer), un modelo fundacional que utiliza capas de expertos codificados con conocimiento de baterías para predecir universalmente la vida útil de baterías de litio, sodio y zinc con un rendimiento superior al estado del arte, superando los desafíos de escasez y heterogeneidad de datos.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Este estudio presenta un marco basado en YOLOv8 y Finer-CAM que, al analizar proyecciones 2D de nubes de puntos TLS, logra una precisión del 96% en la clasificación de siete especies arbóreas europeas y demuestra que el modelo utiliza principalmente las copas para su identificación, mientras que los tallos son más determinantes para especies como el fresno, el pino silvestre y el douglas, mejorando así la interpretabilidad y confianza en las predicciones del modelo.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Este artículo demuestra que los transformadores pequeños, en entornos controlados denominados "túneles de viento bayesianos", realizan inferencia bayesiana con alta precisión mediante un mecanismo geométrico específico donde las corrientes residuales almacenan creencias y la atención gestiona el enrutamiento, superando así a las arquitecturas MLP y revelando la base geométrica del razonamiento en modelos grandes.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Este artículo demuestra que el entrenamiento por entropía cruzada en los transformadores genera dinámicas de gradiente acopladas que esculpen manifiestos bayesianos de baja dimensión, unificando así la optimización, la geometría interna y el razonamiento probabilístico en contexto mediante un mecanismo de enrutamiento basado en ventajas y actualizaciones de valores ponderadas por responsabilidad.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

El estudio demuestra que los modelos de lenguaje modernos preservan una sustrato geométrico de baja dimensión, alineado con la entropía predictiva, que codifica la estructura bayesiana y permite inferencias aproximadas similares a las observadas en entornos sintéticos controlados.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Este trabajo analiza el problema del "sobre-búsqueda" en modelos de lenguaje grandes aumentados con búsqueda, proponiendo la métrica Tokens por Corrección (TPC) para cuantificar este fenómeno, identificando sus causas y efectos negativos, y presentando estrategias de mitigación junto con el conjunto de datos OverSearchQA para fomentar investigaciones futuras.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Este estudio presenta una arquitectura multi-tenant segura combinada con un mecanismo de "destrucción tras el uso" para entornos de LLM empresariales, logrando aislar instancias y eliminar contextos efímeros para prevenir eficazmente la fuga de datos mediante una alta tasa de éxito en pruebas de defensa contra ataques de filtración y persistencia.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Este artículo presenta un ataque de denegación de servicio económico y sigiloso para agentes de LLM que, mediante la manipulación de llamadas a herramientas bajo el Protocolo de Contexto del Modelo (MCP) y optimizado con Búsqueda de Árbol Monte Carlo, genera cadenas de interacción prolongadas que multiplican drásticamente los costos y el consumo de recursos sin ser detectado por filtros convencionales.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Este artículo presenta un agente de aprendizaje por refuerzo para el videojuego Dark Souls III que, mediante un gráfico de habilidades dirigido y un currículo jerárquico, descompone el control en cinco habilidades reutilizables, logrando una mayor eficiencia de muestras y permitiendo la adaptación selectiva a cambios ambientales sin necesidad de reentrenar todo el sistema.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR es un agente multimodal que optimiza el razonamiento a largo plazo bajo presupuestos de contexto limitados, transformando la memoria estructurada en imágenes visuales para priorizar la información crucial y comprimir los detalles auxiliares de manera adaptativa.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

← Anterior Siguiente →