AI Steerability 360: A Toolkit for Steering Large Language Models

El toolkit de código abierto "AI Steerability 360" es una biblioteca Python nativa de Hugging Face que facilita el desarrollo y la evaluación exhaustiva de métodos para controlar modelos de lenguaje mediante cuatro superficies de control (entrada, estructura, estado y salida) unificadas en una interfaz común de tubería de dirección.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabajo introduce un nuevo marco de "informatividad" y un conjunto de datos específico para evaluar la capacidad de los Modelos Visuales-Lingüísticos (VLM) en el sector hotelero, revelando que, aunque estos modelos carecen de conciencia decisional inherente, pueden adquirir un razonamiento fiable tras un ajuste fino modesto.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

Los autores presentan un marco de teoría de decisiones y un sistema de pronóstico híbrido que combina modelos de inteligencia artificial con expectativas agrícolas evolutivas para generar pronósticos probabilísticos del monzón más precisos, los cuales fueron implementados exitosamente en 2025 para guiar las decisiones de 38 millones de agricultores indios.

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

El artículo presenta EveryQuery, un modelo fundacional de registros de salud electrónicos que logra predicciones clínicas en cero disparos mediante preentrenamiento condicionado a tareas, superando a los baselines autoregresivos en la mayoría de las tareas al estimar directamente la probabilidad de un resultado en una sola pasada sin necesidad de generación de trayectorias ni ajuste fino.

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Este artículo presenta un marco de autonomía puramente visual para la navegación broncoscópica asistida por robots que, mediante agentes jerárquicos de corto y largo plazo y un crítico de modelo del mundo, logra una navegación precisa sin sensores externos, demostrando su viabilidad preclínica en modelos in vitro e in vivo.

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

El artículo presenta Rel-MOSS, un nuevo enfoque de aprendizaje profundo relacional que aborda el problema del desequilibrio de clases en bases de datos relacionales mediante un controlador de puertas relacional y un sintetizador de minorías guiado por relaciones, logrando así un rendimiento superior en tareas de clasificación de entidades.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

El artículo presenta IMSE, un método de adaptación en tiempo de prueba que aprovecha expertos espectrales intrínsecos en Vision Transformers mediante la adaptación de valores singulares y una pérdida de maximización de diversidad, logrando un rendimiento superior con una fracción mínima de parámetros entrenables.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

El artículo presenta SWE-Fuse, un marco de entrenamiento que fusiona muestras guiadas por descripciones de problemas con otras libres de ellas y utiliza un entrenamiento RLVR sensible a la entropía para superar la falta de descripciones de alta calidad, logrando mejoras significativas en la resolución de problemas de software en el benchmark SWE-bench Verified.

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

Este artículo propone que los agentes de IA supervisados por humanos, basados en modelos de lenguaje y aprendizaje profundo, representan la próxima evolución del método científico para gestionar la complejidad de los datos, ilustrado mediante el sistema Dr. Sai en la física de partículas del Instituto de Física de Altas Energías de la Academia China de Ciencias.

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

Este trabajo presenta ELLMob, un marco de lenguaje grande autoalineado que genera trayectorias humanas plausibles durante grandes eventos sociales al resolver la competencia entre patrones habituales y restricciones de eventos mediante la Teoría de la Trazas Difusas, superando a los métodos actuales y utilizando el primer conjunto de datos anotado con eventos.

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG