cs.AI artículos | Gist.Science

Intentional Deception as Controllable Capability in LLM Agents

Este estudio demuestra que la decepción intencional en agentes LLM es una capacidad controlable que se aprovecha principalmente de la inferencia de la motivación del objetivo y del uso de desviación estratégica en lugar de falsedades, revelando que las defensas actuales basadas en la verificación de hechos son insuficientes.

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Basado en procesos biológicos de sueño, el artículo presenta la Consolidación de Repetición de Sueño (SRC), un método post-entrenamiento que mejora la calibración y la confianza de las redes neuronales artificiales al replantear representaciones internas sin necesidad de reentrenamiento supervisado.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabajo introduce un nuevo marco de "informatividad" y un conjunto de datos específico para evaluar la capacidad de los Modelos Visuales-Lingüísticos (VLM) en el sector hotelero, revelando que, aunque estos modelos carecen de conciencia decisional inherente, pueden adquirir un razonamiento fiable tras un ajuste fino modesto.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabajo presenta VLM-SubtleBench, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para realizar razonamiento comparativo sutil en diferencias finas y diversos dominios, revelando brechas significativas entre su rendimiento y el humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

Este artículo propone la segmentación de imágenes como banco de pruebas visual para estudiar la formación de coaliciones en juegos hedónicos, analizando cómo un parámetro de granularización afecta la estructura de equilibrio y la recuperación de objetos en benchmarks como el de Weizmann.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

Este artículo presenta un nuevo enfoque que aprovecha la capacidad de LaCAM* para construir un mapa de tráfico dinámico y ligero durante su búsqueda, superando así las limitaciones computacionales y la rigidez de los métodos de guía estáticos anteriores y logrando una mayor calidad de solución en problemas de búsqueda de rutas para múltiples agentes.

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Los autores presentan un marco de teoría de decisiones y un sistema de pronóstico híbrido que combina modelos de inteligencia artificial con expectativas agrícolas evolutivas para generar pronósticos probabilísticos del monzón más precisos, los cuales fueron implementados exitosamente en 2025 para guiar las decisiones de 38 millones de agricultores indios.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

El artículo presenta SMGI, una teoría estructural de la inteligencia artificial general que formaliza el aprendizaje como la evolución controlada de la interfaz de aprendizaje mediante un meta-modelo tipado, demostrando que paradigmas existentes son instancias restringidas de este marco y estableciendo condiciones matemáticas para la estabilidad y la capacidad de generalización.

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

El artículo presenta EveryQuery, un modelo fundacional de registros de salud electrónicos que logra predicciones clínicas en cero disparos mediante preentrenamiento condicionado a tareas, superando a los baselines autoregresivos en la mayoría de las tareas al estimar directamente la probabilidad de un resultado en una sola pasada sin necesidad de generación de trayectorias ni ajuste fino.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Este artículo presenta un marco de autonomía puramente visual para la navegación broncoscópica asistida por robots que, mediante agentes jerárquicos de corto y largo plazo y un crítico de modelo del mundo, logra una navegación precisa sin sensores externos, demostrando su viabilidad preclínica en modelos in vitro e in vivo.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

El artículo presenta Ares, un marco que utiliza un enrutador ligero para seleccionar dinámicamente el nivel de razonamiento óptimo en cada paso de las tareas de agentes LLM, reduciendo significativamente los costos de inferencia sin comprometer sustancialmente la precisión.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

El artículo presenta Rel-MOSS, un nuevo enfoque de aprendizaje profundo relacional que aborda el problema del desequilibrio de clases en bases de datos relacionales mediante un controlador de puertas relacional y un sintetizador de minorías guiado por relaciones, logrando así un rendimiento superior en tareas de clasificación de entidades.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

El artículo presenta IMSE, un método de adaptación en tiempo de prueba que aprovecha expertos espectrales intrínsecos en Vision Transformers mediante la adaptación de valores singulares y una pérdida de maximización de diversidad, logrando un rendimiento superior con una fracción mínima de parámetros entrenables.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

El artículo presenta SWE-Fuse, un marco de entrenamiento que fusiona muestras guiadas por descripciones de problemas con otras libres de ellas y utiliza un entrenamiento RLVR sensible a la entropía para superar la falta de descripciones de alta calidad, logrando mejoras significativas en la resolución de problemas de software en el benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Este artículo propone que los agentes de IA supervisados por humanos, basados en modelos de lenguaje y aprendizaje profundo, representan la próxima evolución del método científico para gestionar la complejidad de los datos, ilustrado mediante el sistema Dr. Sai en la física de partículas del Instituto de Física de Altas Energías de la Academia China de Ciencias.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Este trabajo presenta ELLMob, un marco de lenguaje grande autoalineado que genera trayectorias humanas plausibles durante grandes eventos sociales al resolver la competencia entre patrones habituales y restricciones de eventos mediante la Teoría de la Trazas Difusas, superando a los métodos actuales y utilizando el primer conjunto de datos anotado con eventos.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

PSTNet: Physically-Structured Turbulence Network

El artículo presenta PSTNet, una red neuronal ligera de solo 552 parámetros que integra principios físicos directamente en su arquitectura para estimar en tiempo real la intensidad de la turbulencia atmosférica en sistemas de guía de aeronaves con recursos limitados, logrando una mayor precisión y eficiencia que los modelos clásicos o genéricos.

Boris Kriuk, Fedor Kriuk2026-03-10🤖 cs.LG

← Anterior Siguiente →