cs.AI artículos | Gist.Science

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabajo presenta VLM-SubtleBench, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para realizar razonamiento comparativo sutil en diferencias finas y diversos dominios, revelando brechas significativas entre su rendimiento y el humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Este artículo propone la segmentación de imágenes como banco de pruebas visual para estudiar la formación de coaliciones en juegos hedónicos, analizando cómo un parámetro de granularización afecta la estructura de equilibrio y la recuperación de objetos en benchmarks como el de Weizmann.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Este artículo presenta un nuevo enfoque que aprovecha la capacidad de LaCAM* para construir un mapa de tráfico dinámico y ligero durante su búsqueda, superando así las limitaciones computacionales y la rigidez de los métodos de guía estáticos anteriores y logrando una mayor calidad de solución en problemas de búsqueda de rutas para múltiples agentes.

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Los autores presentan un marco de teoría de decisiones y un sistema de pronóstico híbrido que combina modelos de inteligencia artificial con expectativas agrícolas evolutivas para generar pronósticos probabilísticos del monzón más precisos, los cuales fueron implementados exitosamente en 2025 para guiar las decisiones de 38 millones de agricultores indios.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

El artículo presenta SMGI, una teoría estructural de la inteligencia artificial general que formaliza el aprendizaje como la evolución controlada de la interfaz de aprendizaje mediante un meta-modelo tipado, demostrando que paradigmas existentes son instancias restringidas de este marco y estableciendo condiciones matemáticas para la estabilidad y la capacidad de generalización.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

El artículo presenta EveryQuery, un modelo fundacional de registros de salud electrónicos que logra predicciones clínicas en cero disparos mediante preentrenamiento condicionado a tareas, superando a los baselines autoregresivos en la mayoría de las tareas al estimar directamente la probabilidad de un resultado en una sola pasada sin necesidad de generación de trayectorias ni ajuste fino.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Este artículo presenta un marco de autonomía puramente visual para la navegación broncoscópica asistida por robots que, mediante agentes jerárquicos de corto y largo plazo y un crítico de modelo del mundo, logra una navegación precisa sin sensores externos, demostrando su viabilidad preclínica en modelos in vitro e in vivo.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

El artículo presenta Ares, un marco que utiliza un enrutador ligero para seleccionar dinámicamente el nivel de razonamiento óptimo en cada paso de las tareas de agentes LLM, reduciendo significativamente los costos de inferencia sin comprometer sustancialmente la precisión.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

El artículo presenta Rel-MOSS, un nuevo enfoque de aprendizaje profundo relacional que aborda el problema del desequilibrio de clases en bases de datos relacionales mediante un controlador de puertas relacional y un sintetizador de minorías guiado por relaciones, logrando así un rendimiento superior en tareas de clasificación de entidades.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

El artículo presenta IMSE, un método de adaptación en tiempo de prueba que aprovecha expertos espectrales intrínsecos en Vision Transformers mediante la adaptación de valores singulares y una pérdida de maximización de diversidad, logrando un rendimiento superior con una fracción mínima de parámetros entrenables.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

El artículo presenta SWE-Fuse, un marco de entrenamiento que fusiona muestras guiadas por descripciones de problemas con otras libres de ellas y utiliza un entrenamiento RLVR sensible a la entropía para superar la falta de descripciones de alta calidad, logrando mejoras significativas en la resolución de problemas de software en el benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Este artículo propone que los agentes de IA supervisados por humanos, basados en modelos de lenguaje y aprendizaje profundo, representan la próxima evolución del método científico para gestionar la complejidad de los datos, ilustrado mediante el sistema Dr. Sai en la física de partículas del Instituto de Física de Altas Energías de la Academia China de Ciencias.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Este trabajo presenta ELLMob, un marco de lenguaje grande autoalineado que genera trayectorias humanas plausibles durante grandes eventos sociales al resolver la competencia entre patrones habituales y restricciones de eventos mediante la Teoría de la Trazas Difusas, superando a los métodos actuales y utilizando el primer conjunto de datos anotado con eventos.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

El artículo presenta PSTNet, una red neuronal ligera de solo 552 parámetros que integra principios físicos directamente en su arquitectura para estimar en tiempo real la intensidad de la turbulencia atmosférica en sistemas de guía de aeronaves con recursos limitados, logrando una mayor precisión y eficiencia que los modelos clásicos o genéricos.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

El artículo presenta EvoStage, un nuevo paradigma evolutivo que utiliza agentes múltiples y un mecanismo de perspectiva global-local para guiar a los modelos de lenguaje grandes en el diseño de algoritmos por etapas, logrando resultados superiores a los de expertos humanos y métodos existentes en tareas complejas como la colocación de chips y la optimización bayesiana.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

El artículo presenta HILA, un marco de colaboración humano-agente que utiliza una optimización de política de doble bucle para entrenar agentes multiagente con metacognición, permitiéndoles decidir cuándo resolver problemas autónomamente y cuándo consultar a expertos humanos para mejorar continuamente su razonamiento y superar las limitaciones de conocimiento estático.

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

El artículo presenta VORL-EXPLORE, un marco híbrido de aprendizaje y planificación que mejora la exploración multi-robot en entornos dinámicos mediante un modelo de fidelidad de ejecución compartido que acopla la asignación de tareas con la navegación local, optimizando la coordinación, reduciendo la redundancia y adaptándose autónomamente a obstáculos no estacionarios.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

El artículo presenta OSExpert, un agente de uso informático que supera las limitaciones actuales mediante un algoritmo de búsqueda en profundidad (GUI-DFS) para explorar y verificar funciones, construyendo un conjunto de habilidades que mejora significativamente el rendimiento y la eficiencia en tareas complejas.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

← Anterior Siguiente →