cs.AI artículos | Gist.Science

Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Este artículo presenta OPENDEV, un agente de codificación de línea de comandos de código abierto que, mediante una arquitectura compuesta con enrutamiento de modelos especializado, gestión adaptativa del contexto y un sistema de memoria automatizado, habilita una asistencia autónoma segura y eficiente para tareas de desarrollo de software directamente en el terminal.

Nghi D. Q. Bui2026-03-06🤖 cs.AI

Ailed: A Psyche-Driven Chess Engine with Dynamic Emotional Modulation

Este artículo presenta "Ailed", un motor de ajedrez que introduce variabilidad conductual mediante una arquitectura de "personalidad" estática y "psique" dinámica, la cual modula las probabilidades de movimiento utilizando una cadena de procesamiento de señales inspirada en el audio para simular efectos humanos como el exceso de confianza y el estrés, sin requerir validación con sujetos humanos.

Diego Armando Resendez Prado2026-03-06🤖 cs.AI

PACE: A Personalized Adaptive Curriculum Engine for 9-1-1 Call-taker Training

El sistema PACE, desarrollado en colaboración con el Departamento de Comunicaciones de Emergencia de Nashville, utiliza un motor de aprendizaje adaptativo basado en grafos de habilidades y algoritmos de contextos para personalizar la formación de operadores de emergencias 9-1-1, logrando una reducción significativa en el tiempo de entrenamiento, un mayor dominio de competencias y una alineación del 95,45% con el criterio de expertos humanos.

Zirong Chen, Hongchao Zhang, Meiyi Ma2026-03-06🤖 cs.AI

Learning Causal Structure of Time Series using Best Order Score Search

Este artículo presenta TS-BOSS, un algoritmo escalable basado en puntuaciones que extiende el método BOSS al aprendizaje de estructuras causales en series temporales, ofreciendo garantías teóricas y un rendimiento superior, especialmente en regímenes de alta autocorrelación, en comparación con los métodos basados en restricciones estándar.

Irene Gema Castillo Mansilla, Urmi Ninad2026-03-06🤖 cs.AI

Legal interpretation and AI: from expert systems to argumentation and LLMs

El artículo examina la evolución de la investigación en IA y Derecho frente a la interpretación legal, transitando desde la ingeniería de conocimiento en sistemas expertos y la representación de argumentos dialécticos, hasta la generación automatizada de interpretaciones mediante modelos de lenguaje.

Václav Janeček, Giovanni Sartor2026-03-06🤖 cs.AI

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Los autores presentan el "Judge Reliability Harness", una biblioteca de código abierto diseñada para evaluar la fiabilidad de los modelos de lenguaje utilizados como jueces en benchmarks de IA, demostrando mediante pruebas de estrés que ninguno de los cuatro jueces de vanguardia evaluados es uniformemente confiable ante variaciones en el formato, la redacción o la veracidad de las respuestas.

Sunishchal Dev, Andrew Sloan, Joshua Kavner + 2 more2026-03-06🤖 cs.AI

Dissociating Direct Access from Inference in AI Introspection

Este estudio demuestra que los modelos de IA grandes poseen dos mecanismos de introspección separables: uno basado en la inferencia de anomalías en el prompt y otro de acceso directo a estados internos que, aunque detecta la presencia de una anomalía, es agnóstico al contenido y no puede identificar semánticamente los conceptos inyectados sin generar confabulaciones.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

The Spatial and Temporal Resolution of Motor Intention in Multi-Target Prediction

Este estudio presenta un pipeline computacional que combina segmentación temporal y clasificadores de aprendizaje automático para predecir con alta precisión la intención motora y la dirección de movimiento a partir de señales EMG, demostrando su viabilidad para mejorar la respuesta y la rehabilitación en sistemas de asistencia adaptativa.

Marie Dominique Schmidt, Ioannis Iossifidis2026-03-06🤖 cs.AI

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

El artículo presenta MobileFetalCLIP, un modelo de aprendizaje profundo ligero que utiliza una nueva técnica de destilación de conocimiento repulsivo selectivo para superar las limitaciones de capacidad de los modelos fundacionales, logrando un rendimiento superior en el análisis de ultrasonidos fetales en dispositivos móviles de bajo costo.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

El artículo presenta RelaxFlow, un marco de generación 3D amodal impulsado por texto que, mediante un mecanismo de relajación y un módulo de consenso de múltiples priores, completa las regiones ocultas de un objeto siguiendo un prompt textual sin comprometer la fidelidad de la observación original.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Este trabajo presenta un marco unificado para combinar múltiples modelos de lenguaje mediante distribuciones de conjuntos $f$ -ensembles, utilizando un algoritmo de Monte Carlo secuencial a nivel de bytes que permite muestrear consistentemente de distribuciones agregadas complejas y superar las limitaciones de las técnicas de ensembling tradicionales.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

El artículo presenta SAIL, un enfoque para la descripción densa de videos débilmente supervisada que mejora la localización temporal y la generación de subtítulos mediante máscaras sensibles a la similitud semántica y una estrategia de aumento de datos basada en LLMs para generar subtítulos sintéticos.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

El artículo presenta CompACT, un tokenizador discreto que comprime las observaciones en solo 8 tokens para permitir una planificación eficiente en tiempo real mediante modelos de mundo latente, superando las limitaciones computacionales de los enfoques anteriores.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

Residual RL--MPC for Robust Microrobotic Cell Pushing Under Time-Varying Flow

Este artículo presenta un controlador híbrido que combina un MPC nominal con una política residual aprendida mediante SAC para mejorar la robustez y precisión en el empuje de células mediante microrobots magnéticos bajo flujos variables, logrando un rendimiento superior al de los métodos tradicionales y una generalización efectiva a trayectorias no vistas.

Yanda Yang, Sambeeta Das2026-03-06🤖 cs.AI

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder es el primer sistema en tiempo real que genera videos condicionados por acciones físicas a partir de una sola imagen, utilizando simulación física como puente intermedio para lograr una interacción fluida con objetos rígidos, cuerpos deformables, fluidos y materiales granulares.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Este artículo presenta el rompecabezas de información parcial distribuida (DPIP) y un conjunto de datos multimodales correspondiente para evaluar la capacidad de los modelos de lenguaje grandes y de los sistemas basados en lógica dinámica epistémica para construir un terreno común bajo asimetría epistémica, demostrando que las tareas de seguimiento de creencias y progreso del equipo representan un desafío significativo para los LLMs actuales.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Este trabajo propone el enfoque de verificación de hechos sin recuperación, introduce el método INTRA que aprovecha las representaciones internas de los modelos para lograr un rendimiento superior y generalización robusta, y establece esta línea de investigación como una alternativa escalable y complementaria a los métodos basados en recuperación.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Este artículo presenta SurvHTE-Bench, el primer benchmark integral para la estimación de efectos heterogéneos del tratamiento en análisis de supervivencia, que evalúa rigurosamente diversos métodos mediante conjuntos de datos sintéticos, semisintéticos y del mundo real para establecer un estándar de evaluación justo y reproducible.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

Towards Provably Unbiased LLM Judges via Bias-Bounded Evaluation

Este artículo propone un marco algorítmico llamado "average bias-boundedness" (A-BB) que garantiza formalmente la reducción del daño derivado de sesgos en jueces de LLM, logrando garantías de sesgo acotado mientras mantiene una alta correlación con las clasificaciones originales en escenarios de evaluación automatizada.

Benjamin Feuer, Lucas Rosenblatt, Oussama Elachqar2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

El estudio demuestra que los modelos de razonamiento a menudo exhiben un "teatro de razonamiento" performático donde la certeza interna se manifiesta en las activaciones mucho antes de que se revele en el texto, lo que permite utilizar la detección de estas señales para reducir significativamente el consumo de tokens sin sacrificar la precisión.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

← Anterior Siguiente →