cs.AI artículos | Gist.Science

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

El artículo presenta ARLArena, un marco unificado para analizar la estabilidad en el aprendizaje por refuerzo agéntico (ARL), y propone SAMPO, un método de optimización que garantiza un entrenamiento estable y de alto rendimiento en diversas tareas.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

CryoNet.Refine es un modelo de difusión de un solo paso que automatiza y acelera el refinamiento de estructuras moleculares a partir de mapas de densidad de criomicroscopía electrónica, superando en velocidad y precisión a los métodos tradicionales como Phenix y Rosetta.

Fuyao Huang, Xiaozhu Yu, Kui Xu, Qiangfeng Cliff Zhang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Este artículo introduce el concepto de "investigación de ambiente" (vibe researching) mediante agentes de IA equipados con habilidades especializadas, argumentando que, aunque estos sistemas pueden automatizar gran parte del proceso investigativo, su delegación óptima depende de una frontera cognitiva basada en la codificabilidad y el conocimiento tácito, lo que plantea riesgos de estratificación y una crisis pedagógica que requieren principios de uso responsable.

Yongjun Zhang2026-03-10💻 cs

A Mathematical Theory of Agency and Intelligence

El artículo propone la "bipredictabilidad" como una medida fundamental que distingue la capacidad de actuar (agencia) de la verdadera inteligencia, demostrando que los sistemas actuales carecen de esta última y proponiendo una arquitectura de retroalimentación inspirada en la biología para restaurarla.

Wael Hafez, Chenan Wei, Rodrigo Pena, Amir Nazeri, Cameron Reid2026-03-10🔢 math

Autoregressive Visual Decoding from EEG Signals

El artículo presenta AVDE, un marco ligero y eficiente que utiliza un modelo autoregresivo y aprendizaje contrastivo para decodificar señales EEG en imágenes con alta fidelidad, superando a los métodos anteriores en rendimiento y reduciendo significativamente la complejidad computacional.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

Decomposing Physician Disagreement in HealthBench

El estudio descompone la discrepancia entre médicos en la evaluación de IA médica, revelando que la mayor parte de la varianza es estructural y no explicada por factores observables, aunque la incertidumbre reducible (como la falta de contexto) duplica las probabilidades de desacuerdo, lo que sugiere que mejorar el diseño de las evaluaciones para cerrar brechas de información podría reducir el conflicto en casos no inherentemente ambiguos.

Satya Borgohain, Roy Mariathas2026-03-10💻 cs

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

El artículo presenta CeRA, un adaptador paralelo que supera las limitaciones lineales de LoRA en tareas de razonamiento complejo mediante la expansión de variedades y el uso de puertas SiLU, logrando una eficiencia espectral superior y evitando el colapso de rango.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

On Sample-Efficient Generalized Planning via Learned Transition Models

Este trabajo propone un enfoque de planificación generalizada que aprende modelos de transición explícitos mediante redes neuronales para predecir estados intermedios, logrando una mayor generalización fuera de distribución y una mayor eficiencia en el uso de muestras en comparación con los métodos actuales basados en Transformers que predicen secuencias de acciones directamente.

Nitin Gupta, Vishal Pallagani, John A. Aydin, Biplav Srivastava2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Este artículo presenta un enfoque para mejorar la relevancia de la búsqueda en la App Store mediante el uso de un modelo de lenguaje grande (LLM) especializado y ajustado para generar millones de etiquetas de relevancia textual, lo que permitió optimizar simultáneamente la relevancia conductual y textual, resultando en un aumento estadísticamente significativo del 0,24% en la tasa de conversión global y mejoras notables en consultas de cola.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Este artículo presenta Attn-QAT, el primer estudio sistemático de entrenamiento consciente de la cuantización (QAT) para atención a 4 bits, que logra una inferencia estable y rápida en GPUs FP4 mediante la corrección de la recomputación de precisión y los cálculos de gradiente, eliminando la necesidad de heurísticas para mitigar valores atípicos.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

PEPA: a Persistently Autonomous Embodied Agent with Personalities

El artículo presenta PEPA, un agente encarnado con arquitectura cognitiva de tres capas que utiliza rasgos de personalidad para generar objetivos internos y lograr una autonomía persistente en entornos dinámicos, validado mediante el despliegue de un robot cuadrúpedo en un edificio de oficinas sin intervención humana continua.

Kaige Liu, Yang Li, Lijun Zhu, Weinan Zhang2026-03-10💻 cs

How Well Do Multimodal Models Reason on ECG Signals?

Este trabajo presenta un marco reproducible y escalable para evaluar el razonamiento de modelos multimodales en señales de ECG, descomponiéndolo en percepción (verificación empírica de patrones mediante código) y deducción (alineación lógica con criterios clínicos estructurados) para superar las limitaciones de las métricas actuales.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Este artículo presenta un marco de predicción conforme que garantiza una cobertura segura para la extracción de entidades médicas mediante modelos de lenguaje grande, demostrando que la calibración de la confianza varía según el dominio clínico y requiriendo umbrales específicos para lograr una fiabilidad del 90% en etiquetas de la FDA y reportes de radiología.

Manil Shrestha, Edward Kim2026-03-10💬 cs.CL

Extended Empirical Validation of the Explainability Solution Space

Este informe técnico valida la generalidad del Espacio de Soluciones Explicables (ESS) mediante una evaluación transversal que incluye un sistema de asignación de recursos urbanos, demostrando que sus clasificaciones se adaptan sistemáticamente a diferentes roles de gobernanza y perfiles de riesgo más allá del dominio específico de la predicción de rotación de empleados.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Este artículo presenta un marco de dos capas que combina un modelo oculto de Markov para inferir el estado oculto de los rivales y una red neuronal profunda para optimizar la estrategia energética en la Fórmula 1 de 2026, permitiendo a los equipos detectar y contrarrestar tácticas engañosas bajo condiciones de observabilidad parcial.

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell es un marco de agente automático que resuelve la heterogeneidad semántica y estadística en estudios de perturbación de células individuales mediante un unificador de metadatos impulsado por LLM y un motor de búsqueda adaptativa, logrando un rendimiento superior al de los diseños expertos sin necesidad de ingeniería específica por conjunto de datos.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs

LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning

Este trabajo propone un marco innovador impulsado por modelos de lenguaje grandes (LLM) que descubre opciones semánticas para mejorar la eficiencia de datos, la interpretabilidad y la transferibilidad del aprendizaje por refuerzo profundo, validando su superioridad en entornos complejos como Office World y Montezuma's Revenge.

Chang Yao, Jinghui Qin, Kebing Jin, Hankz Hankui Zhuo2026-03-10💻 cs

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Este artículo presenta una arquitectura de pipeline basada en detección que logra una segmentación glótica robusta y generalizable en videoendoscopias de alta velocidad, permitiendo la extracción precisa de biomarcadores cinemáticos para la evaluación clínica de patologías vocales.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este trabajo propone un marco robusto que combina la arquitectura CoAtNet con la técnica de "model soups" para clasificar imágenes del Patrimonio Cultural Inmaterial del Delta del Mekong, logrando un rendimiento superior al reducir la varianza mediante el promediado de checkpoints diversos en un escenario de datos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Diagnosing Retrieval vs. Utilization Bottlenecks in LLM Agent Memory

Este estudio demuestra que, en agentes LLM con memoria, la calidad del método de recuperación es el factor determinante del rendimiento, superando significativamente a las estrategias de escritura y revelando que el almacenamiento de fragmentos brutos puede ser tan efectivo como técnicas más complejas.

Boqin Yuan, Yue Su, Kun Yao2026-03-10🤖 cs.AI

← Anterior Siguiente →