cs.AI artículos | Gist.Science

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Este trabajo aborda la inestabilidad de la descomposición no lineal de valores en el aprendizaje por refuerzo multiagente fuera de línea proponiendo la normalización de valores invariante a la escala (SVN) y derivando una receta práctica que estabiliza el entrenamiento y desbloquea el potencial completo de este paradigma.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Este artículo demuestra que tanto los humanos como los modelos de lenguaje son vulnerables a la "ceguera de elección" en los sistemas de retroalimentación, lo que revela que las señales de preferencia utilizadas en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) están distorsionadas por el contexto de elicitaación y no reflejan estados internos estables, comprometiendo así la eficacia del entrenamiento de modelos.

Wenbin Wu2026-03-10💬 cs.CL

Geometrically Constrained Outlier Synthesis

El artículo presenta GCOS, un marco de regularización que sintetiza outliers virtuales en el espacio de características respetando la estructura del manifold de los datos, mejorando así la detección robusta de datos fuera de distribución y permitiendo inferencia conformal con garantías de error formal.

Daniil Karzanov, Marcin Detyniecki2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Este estudio presenta un método de percepción impulsado por IA con un modelo jerárquico de predicción de intenciones humanas que permite a los robots móviles en laboratorios autónomos anticipar las acciones de los investigadores para facilitar interacciones proactivas y mejorar la eficiencia en entornos compartidos.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

El artículo presenta SYNAPSE, un marco de análisis sin reentrenamiento que evalúa la robustez interna y la interpretabilidad de los modelos Transformer mediante la identificación de neuronas clave y la aplicación de intervenciones controladas, revelando patrones de redundancia funcional y vulnerabilidades estructurales.

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán2026-03-10🤖 cs.LG

IronEngine: Towards General AI Assistant

El artículo presenta IronEngine, una plataforma de asistente de IA general que integra una arquitectura unificada de orquestación, gestión adaptativa de modelos y ejecución de herramientas para lograr una alta tasa de completitud en tareas heterogéneas mediante un pipeline de tres fases que separa la planificación de la ejecución.

Xi Mo2026-03-10🤖 cs.LG

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Este trabajo propone equipar a los agentes de LLM con capacidades de recuperación nativas mediante un cabezal de proyección ligero que mapea sus estados ocultos directamente al espacio de incrustaciones, eliminando la necesidad de un modelo de incrustación separado y manteniendo el 97% de la calidad de recuperación original.

Bo Jiang2026-03-10💬 cs.CL

Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling

Este artículo propone un método de Programación Genética basado en Evaluación Híbrida (HE-GP) que optimiza la programación de satélites ágiles de observación terrestre bajo incertidumbre, logrando reducir significativamente los costos computacionales y evitar óptimos locales mediante un mecanismo dinámico que alterna entre modos de evaluación exactos y aproximados.

Junhua Xue, Yuning Chen2026-03-10💻 cs

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

El estudio revela que la capacidad de un agente de aprendizaje por refuerzo para detectar la degradación gradual de sus observaciones depende de un umbral crítico universal que surge de la interacción entre el nivel de ruido, el detector y la dinámica específica del entorno, lo que explica tanto la existencia de un punto de ruptura agudo como la imposibilidad de detectar ciertos patrones de deriva o fallos catastróficos antes de que ocurran.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

El artículo presenta R2F, un marco de navegación de objetos sin LLM que reinterpreta los frentes de rayo como hipótesis semánticas direccionales para lograr un rendimiento competitivo en tiempo real, eliminando la sobrecarga computacional de los modelos de lenguaje grandes.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

El artículo propone la Alineación de Auto-Cumplimiento Visual (VSFA), un método sin etiquetas que entrena modelos de lenguaje-visión mediante la exposición repetida a imágenes relacionadas con amenazas para internalizar implícitamente una postura de vigilancia y mejorar su seguridad sin comprometer sus capacidades generales.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Este trabajo propone un marco operatorio que unifica la proyección de gradientes, la compresión espectral y la viabilidad multiobjetivo mediante la codificación de restricciones estructurales en operadores autoadjuntos, revelando cómo estas limitaciones distorsionan la geometría de ascenso óptimo y concentran la dinámica en modos espectrales dominantes bajo computación acotada.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

El artículo presenta Echo2ECG, un marco de aprendizaje multimodal auto-supervisado que enriquece las representaciones de los electrocardiogramas (ECG) integrando la morfología cardíaca de ecocardiogramas multivista, logrando un rendimiento superior en tareas clínicas que requieren información estructural y superando a modelos de referencia mucho más grandes.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Este trabajo presenta el Enmascaramiento Suave Guiado por Oráculo (OGSS), un marco que combina un modelo de política de aprendizaje por imitación con un predictor de errores tácticos derivado de Stockfish para permitir una exploración segura y competitiva en ajedrez, reduciendo significativamente la tasa de errores sin comprometer el rendimiento.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

El artículo presenta \texttt{GlobAlign} y su variante eficiente \texttt{GlobAlign-E}, nuevos métodos de alineación de grafos sin supervisión que superan las limitaciones de precisión y eficiencia de las técnicas existentes mediante un paradigma de representación global y transporte óptimo jerárquico, logrando mejoras significativas en exactitud y velocidad.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

El documento presenta RetroAgent, un marco de aprendizaje por refuerzo en línea que supera las limitaciones de los métodos tradicionales mediante un mecanismo de autorreflexión que genera retroalimentación intrínseca dual (numérica y lingüística) para permitir que los agentes no solo resuelvan tareas complejas, sino que evolucionen y generalicen eficazmente mediante el aprendizaje experiencial explícito.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

El artículo presenta OSS-CRS, un marco de código abierto y localmente desplegable que libera los sistemas de razonamiento cibernético (CRS) de la infraestructura de la competencia DARPA AIxCC para aplicarlos en proyectos de código real, logrando mediante la portabilidad del sistema Atlantis descubrir 10 vulnerabilidades previamente desconocidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

← Anterior Siguiente →