Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Este artículo presenta OPENDEV, un agente de codificación de línea de comandos de código abierto que, mediante una arquitectura compuesta con enrutamiento de modelos especializado, gestión adaptativa del contexto y un sistema de memoria automatizado, habilita una asistencia autónoma segura y eficiente para tareas de desarrollo de software directamente en el terminal.

Nghi D. Q. Bui2026-03-06🤖 cs.AI

Ailed: A Psyche-Driven Chess Engine with Dynamic Emotional Modulation

Este artículo presenta "Ailed", un motor de ajedrez que introduce variabilidad conductual mediante una arquitectura de "personalidad" estática y "psique" dinámica, la cual modula las probabilidades de movimiento utilizando una cadena de procesamiento de señales inspirada en el audio para simular efectos humanos como el exceso de confianza y el estrés, sin requerir validación con sujetos humanos.

Diego Armando Resendez Prado2026-03-06🤖 cs.AI

PACE: A Personalized Adaptive Curriculum Engine for 9-1-1 Call-taker Training

El sistema PACE, desarrollado en colaboración con el Departamento de Comunicaciones de Emergencia de Nashville, utiliza un motor de aprendizaje adaptativo basado en grafos de habilidades y algoritmos de contextos para personalizar la formación de operadores de emergencias 9-1-1, logrando una reducción significativa en el tiempo de entrenamiento, un mayor dominio de competencias y una alineación del 95,45% con el criterio de expertos humanos.

Zirong Chen, Hongchao Zhang, Meiyi Ma2026-03-06🤖 cs.AI

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Los autores presentan el "Judge Reliability Harness", una biblioteca de código abierto diseñada para evaluar la fiabilidad de los modelos de lenguaje utilizados como jueces en benchmarks de IA, demostrando mediante pruebas de estrés que ninguno de los cuatro jueces de vanguardia evaluados es uniformemente confiable ante variaciones en el formato, la redacción o la veracidad de las respuestas.

Sunishchal Dev, Andrew Sloan, Joshua Kavner + 2 more2026-03-06🤖 cs.AI

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

El artículo presenta MobileFetalCLIP, un modelo de aprendizaje profundo ligero que utiliza una nueva técnica de destilación de conocimiento repulsivo selectivo para superar las limitaciones de capacidad de los modelos fundacionales, logrando un rendimiento superior en el análisis de ultrasonidos fetales en dispositivos móviles de bajo costo.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Este artículo presenta el rompecabezas de información parcial distribuida (DPIP) y un conjunto de datos multimodales correspondiente para evaluar la capacidad de los modelos de lenguaje grandes y de los sistemas basados en lógica dinámica epistémica para construir un terreno común bajo asimetría epistémica, demostrando que las tareas de seguimiento de creencias y progreso del equipo representan un desafío significativo para los LLMs actuales.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Este trabajo propone el enfoque de verificación de hechos sin recuperación, introduce el método INTRA que aprovecha las representaciones internas de los modelos para lograr un rendimiento superior y generalización robusta, y establece esta línea de investigación como una alternativa escalable y complementaria a los métodos basados en recuperación.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Este artículo presenta SurvHTE-Bench, el primer benchmark integral para la estimación de efectos heterogéneos del tratamiento en análisis de supervivencia, que evalúa rigurosamente diversos métodos mediante conjuntos de datos sintéticos, semisintéticos y del mundo real para establecer un estándar de evaluación justo y reproducible.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI