cs.AI artículos | Gist.Science

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Este trabajo propone un marco unificado de preentrenamiento basado en difusión para modelos fundamentales de grafos cerebrales que supera las limitaciones de los métodos existentes al guiar estrategias de enmascaramiento y reconstrucción que preservan los patrones de conectividad semántica y capturan información estructural global, logrando mejoras consistentes en múltiples conjuntos de datos neuroimagenarios.

Xinxu Wei, Rong Zhou, Lifang He, Yu Zhang2026-03-10🤖 cs.LG

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

El artículo presenta CoCoA, un algoritmo de decodificación sin entrenamiento que mitiga las alucinaciones en los modelos de lenguaje grandes al penalizar las salidas que muestran inestabilidad representacional e inconsistencia interna entre sus capas intermedias, mejorando así la precisión factual sin necesidad de reentrenamiento.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi2026-03-10💬 cs.CL

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

El marco SToRM propone un método de reducción supervisada de tokens para modelos de lenguaje multimodal que permite una conducción autónoma de extremo a extremo eficiente, reduciendo los costos computacionales hasta en un 30x sin sacrificar el rendimiento en comparación con el uso de todos los tokens.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

Accelerating Robotic Reinforcement Learning with Agent Guidance

El artículo presenta AGPS, un marco que automatiza el aprendizaje por refuerzo en robótica mediante un agente multimodal que sustituye la supervisión humana, mejorando significativamente la eficiencia de las muestras y la escalabilidad en tareas de manipulación.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

El artículo M2RL compara los paradigmas de entrenamiento mixto y de fusión de modelos para el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) en múltiples dominios, descubriendo que estos interactúan de forma sinérgica sin interferencias significativas y analizando los mecanismos internos que explican estas ganancias mutuas.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

El artículo presenta SkillsBench, un benchmark que demuestra que las habilidades curadas mejoran significativamente el rendimiento de los agentes de IA en diversas tareas, mientras que las generadas automáticamente no aportan beneficios y un diseño enfocado resulta más efectivo que la documentación exhaustiva.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

A Geometric Taxonomy of Hallucinations in LLMs

Este artículo propone una taxonomía geométrica de las alucinaciones en los modelos de lenguaje grande, clasificándolas en tres tipos según sus firmas en el espacio de incrustaciones, e introduce dos índices de detección (SGI y DGI) que demuestran alta eficacia en la identificación de falta de fidelidad y confabulación, al tiempo que revelan limitaciones metodológicas en la detección de errores factuales debido a sesgos estilísticos.

Javier Marín2026-03-10💬 cs.CL

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

El artículo presenta TrasMuon, un optimizador que mejora la estabilidad y velocidad de convergencia de los métodos Muon al preservar su geometría ortogonalizada mientras introduce una calibración global y un recorte de región de confianza basado en la energía para mitigar la sensibilidad a la magnitud de los pasos y los picos de alta energía.

Peng Cheng, Jiucheng Zang, Qingnan Li, Liheng Ma, Yufei Cui, Yingxue Zhang, Boxing Chen, Ming Jian, Wen Tong2026-03-10🤖 cs.LG

Can a Lightweight Automated AI Pipeline Solve Research-Level Mathematical Problems?

Este trabajo demuestra que una pipeline automatizada ligera, que integra modelos de lenguaje avanzados optimizados para la verificación basada en citas, es capaz de generar y resolver problemas matemáticos de nivel de investigación, incluyendo conjuntos de problemas del ICCM y preguntas de investigación inéditas, cuyos resultados han sido verificados y publicados.

Lve Meng (University of Science,Technology of China, Zhongguancun Academy), Weilong Zhao (Université Paris Cité), Yanzhi Zhang (Zhongguancun Academy), Haoxiang Guan (Zhongguancun Academy), Jiyan He (Zhongguancun Academy)2026-03-10🔢 math

Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation

Este trabajo presenta la Política de Velocidad Media (MVP), un nuevo método de política generativa que, mediante una restricción de velocidad instantánea, logra la generación de acciones en un solo paso con alta expresividad y velocidad, superando el estado del arte en tareas de manipulación robótica.

Guojian Zhan, Letian Tao, Pengcheng Wang, Yixiao Wang, Yiheng Li, Yuxin Chen, Hongyang Li, Masayoshi Tomizuka, Shengbo Eben Li2026-03-10🤖 cs.LG

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

El artículo presenta Pawsterior, un marco de coincidencia de flujos variacionales que mejora la inferencia basada en simulación al incorporar directamente la geometría de dominios estructurados y permitir la inferencia de variables latentes discretas, superando así las limitaciones de los métodos de flujo convencionales.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

El artículo presenta XTF, un marco de filtrado de ruido a nivel de token que mejora el ajuste fino de modelos de lenguaje grandes al descomponer las contribuciones de los datos en atributos explicables (importancia del razonamiento, novedad del conocimiento y relevancia de la tarea) y enmascarar selectivamente los gradientes de los tokens ruidosos, logrando mejoras significativas en tareas de matemáticas, código y medicina.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui Ren2026-03-10💬 cs.CL

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

El artículo presenta LongAudio-RAG, un marco híbrido que mejora la respuesta a preguntas sobre audios de larga duración al fundamentar las respuestas de los modelos de lenguaje en eventos acústicos recuperados de una base de datos SQL, permitiendo un despliegue eficiente en entornos edge-cloud con alta precisión y baja alucinación.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

CogitoRAG es un marco de Recuperación Aumentada por Generación (RAG) inspirado en la memoria episódica humana que mejora la integración de conocimientos y el razonamiento mediante la extracción de la esencia semántica, la construcción de un grafo de conocimiento multidimensional y un mecanismo de difusión semántica global, superando así a los métodos existentes en benchmarks de preguntas y respuestas complejas.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun Yu2026-03-10💬 cs.CL

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Este artículo presenta CondMedQA, el primer benchmark para preguntas biomedicas condicionales, y propone el marco de Razonamiento con Puertas de Condición (CGR), que mejora la precisión en la respuesta a preguntas médicas al adaptar el conocimiento a factores específicos del paciente mediante grafos de conocimiento conscientes de las condiciones.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei Han2026-03-10💬 cs.CL

Conformal Tradeoffs: Guarantees Beyond Coverage

Este artículo propone un marco para la certificación operativa de predictores conformales que, más allá de garantizar la cobertura marginal, utiliza correcciones de muestra pequeña y conjuntos de auditoría independientes para cuantificar y gestionar las compensaciones finitas entre la frecuencia de compromiso, las deferencias y la exposición al error en despliegues reales.

Petrus H. Zwart2026-03-10🤖 cs.LG

ABD: Default Exception Abduction in Finite First Order Worlds

Este artículo presenta ABD, un benchmark para la abducción de excepciones por defecto en mundos finitos de primer orden, que evalúa la capacidad de los modelos de lenguaje para generar fórmulas que restauran la satisfacibilidad manteniendo la parsimonia, revelando mediante verificación SMT y pruebas en diez modelos avanzados brechas significativas en la generalización y la economía de las excepciones.

Serafim Batzoglou2026-03-10✓ Author reviewed ⓘ💻 cs

INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

El artículo presenta INDUCTION, un nuevo benchmark en lógica de primer orden diseñado para evaluar la capacidad de los modelos para sintetizar conceptos a partir de estructuras finitas, revelando gradientes de dificultad, familias estructurales persistentemente complejas y una correlación positiva entre la concisión de las fórmulas y su capacidad de generalización.

Serafim Batzoglou2026-03-10💻 cs

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Este artículo establece un nuevo estándar de evaluación para el Aprendizaje por Refuerzo Multiagente (MARL) en la gestión energética urbana mediante el entorno CityLearn, demostrando que los enfoques de entrenamiento descentralizado superan a los centralizados y proponiendo nuevas métricas clave que revelan la resiliencia y sostenibilidad de las políticas aprendidas.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

El artículo presenta MrBERT, una familia de codificadores multilingües modernos optimizados mediante adaptación de vocabulario, dominio y dimensión que logran resultados de vanguardia en tareas específicas de catalán y español, así como en dominios especializados como el biomédico y legal, al tiempo que incorporan aprendizaje de representaciones matryoshka para reducir costos de inferencia y almacenamiento.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

← Anterior Siguiente →