cs.AI artículos | Gist.Science

MERIT Feedback Elicits Better Bargaining in LLM Negotiators

El artículo presenta un marco centrado en la retroalimentación de utilidad que incluye el nuevo benchmark AgoraBench, métricas alineadas con la teoría económica y una metodología de aprendizaje basada en preferencias humanas, logrando mejorar significativamente la capacidad de negociación estratégica y la adaptación a factores humanos de los modelos de lenguaje grande.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Este estudio demuestra que, en el "código de vibración" colaborativo, la dirección humana es esencial para evitar el colapso del rendimiento y lograr los mejores resultados cuando se combina con la evaluación automatizada por IA.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

El artículo presenta DataChef-32B, un sistema que utiliza aprendizaje por refuerzo para generar automáticamente recetas de datos óptimas para la adaptación de modelos de lenguaje grandes, logrando un rendimiento comparable o superior al de expertos humanos en diversas tareas, incluida la matemática.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

El artículo presenta SWE-MiniSandbox, un método ligero y sin contenedores que utiliza mecanismos a nivel de kernel y técnicas de precaché para reducir drásticamente el uso de disco y el tiempo de preparación de entornos en el entrenamiento de agentes de ingeniería de software mediante aprendizaje por refuerzo, manteniendo al mismo tiempo un rendimiento comparable al de las pipelines basadas en contenedores.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection

Este artículo presenta una fórmula de puntuación "pico + acumulación" que, sin utilizar un LLM, detecta eficazmente inyecciones de prompts de múltiples turnos al combinar el riesgo máximo por turno, la persistencia y la diversidad de categorías, logrando un 90,8% de recuperación con una tasa de falsos positivos del 1,20% en un conjunto de datos de más de 10.000 conversaciones.

J Alex Corll2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Este artículo examina cómo la búsqueda de un "ground truth" en la anotación de datos ignora la subjetividad humana y la diversidad cultural, proponiendo en su lugar infraestructuras pluralistas que valoren el desacuerdo como una señal esencial para construir modelos más competentes.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Este estudio presenta AHSIV, un marco de selección de modelos adaptativo que aborda la inestabilidad en la clasificación de pronósticos causada por el horizonte temporal y la variabilidad de la demanda, integrando métricas de error ajustadas y clasificación estructural para optimizar la toma de decisiones operativas y estratégicas en entornos comerciales complejos.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

El artículo presenta IntelliAsk, un modelo entrenado mediante optimización por refuerzo con verificación de recompensas (RLVR) y una nueva función de recompensa llamada IntelliReward, que genera preguntas de revisión de investigación de alta calidad, fundamentadas y sustanciales, superando a los modelos de línea base y demostrando mejoras en benchmarks de razonamiento y escritura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Este artículo presenta resultados empíricos de una implementación en C++ de un sustrato de estado semántico determinista, denominado Compute ICE-AGE, que demuestra una latencia de recorrido invariante y un consumo de recursos estable en entornos de escala masiva (hasta 25 millones de nodos), logrando una eficiencia termodinámica superior a las arquitecturas de inferencia probabilística al depender de la capacidad de memoria en lugar del volumen de tokens.

Raymond Jay Martin II2026-03-09🤖 cs.AI

FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment

El artículo presenta FLoRG, un marco de aprendizaje federado que optimiza el ajuste fino de modelos de lenguaje mediante la agregación de matrices Gram de baja rango y alineación Procrustes, logrando así una mayor precisión en tareas, una reducción significativa de la sobrecarga de comunicación y una convergencia teórica mejorada al eliminar errores de agregación y deriva de descomposición.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-09🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artículo demuestra mediante una metodología de evaluación y análisis mecanicista que, en la mayoría de los casos de uso, los modelos de lenguaje grandes de voz (Speech LLMs) actuales funcionan como cascadas costosas e ineficientes bajo ruido, perdiendo su ventaja sobre los sistemas tradicionales de reconocimiento de voz seguidos de LLM.

Jayadev Billa2026-03-09🤖 cs.AI

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

El artículo presenta EMPO $^2$ , un marco híbrido de aprendizaje por refuerzo que combina optimización on- y off-policy con memoria aumentada para superar las limitaciones de exploración de los agentes LLM, logrando mejoras significativas en rendimiento y adaptabilidad a tareas nuevas.

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang2026-03-09🤖 cs.AI

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Este artículo demuestra que el colapso de modalidades en los LLM multimodales es un problema de decodificación desajustada donde la información accesible está limitada por la divergencia entre los datos y el objetivo de entrenamiento, lo que confirma que la función de puntuación del decodificador, y no la arquitectura, determina qué información se puede extraer.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

El documento presenta CoME, una arquitectura de agentes móviles que utiliza expertos especializados y un entrenamiento progresivo junto con una estrategia Info-DPO para mejorar el razonamiento híbrido y superar a los métodos existentes en conjuntos de datos como AITZ y AMEX.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Theory of Code Space: Do Code Agents Understand Software Architecture?

Este artículo presenta Theory of Code Space (ToCS), un benchmark de código abierto que evalúa la capacidad de los agentes de IA para construir y mantener creencias arquitectónicas coherentes en bases de código complejas, revelando hallazgos clave sobre la dependencia del modelo en la exploración activa, el uso de mapas de creencias estructuradas y la estabilidad de la memoria.

Grigory Sapunov2026-03-09🤖 cs.AI

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabajo propone una descomposición funcional de anillo tensorial reparametrizada que utiliza representaciones neuronales implícitas y un análisis en el dominio de la frecuencia para superar las limitaciones de los métodos tradicionales, logrando así una recuperación superior de datos multidimensionales tanto en mallas como fuera de ellas.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

How Well Does Agent Development Reflect Real-World Work?

Este estudio revela una desalineación significativa entre el desarrollo de agentes de IA, centrado en tareas de programación, y la distribución real del trabajo humano y el valor económico en EE. UU., proponiendo nuevos principios para crear benchmarks más representativos y útiles.

Zora Zhiruo Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig2026-03-09🤖 cs.AI

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification

El artículo presenta MERA, un marco novedoso que combina la recuperación aumentada con una mezcla de expertos multimodal y una fusión basada en la teoría de la evidencia de Dempster-Shafer para lograr un estado del arte en la identificación precisa de sitios activos de proteínas a nivel de residuo.

Jiayang Wu, Jiale Zhou, Rubo Wang, Xingyi Zhang, Xun Lin, Tianxu Lv, Leong Hou U, Yefeng Zheng2026-03-09🤖 cs.AI

"When to Hand Off, When to Work Together": Expanding Human-Agent Co-Creative Collaboration through Concurrent Interaction

Este artículo presenta CLEO, un sistema de colaboración creativa humano-agente que mejora la conciencia contextual al interpretar las acciones concurrentes de los usuarios en tiempo real, y propone un modelo de decisión basado en estudios empíricos que define cuándo delegar, dirigir o trabajar simultáneamente.

Kihoon Son, Hyewon Lee, DaEun Choi, Yoonsu Kim, Tae Soo Kim, Yoonjoo Lee, John Joon Young Chung, HyunJoon Jung, Juho Kim2026-03-09🤖 cs.AI

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

Este trabajo presenta Whisper-RIR-Mega, un nuevo conjunto de datos de referencia que empareja grabaciones de habla limpias con sus versiones reverberantes utilizando respuestas de impulso reales, diseñado para evaluar y mejorar la robustez de los modelos de reconocimiento automático de voz frente a las condiciones acústicas de las habitaciones.

Mandip Goswami2026-03-09🤖 cs.AI

← Anterior Siguiente →

cs.AI