cs.AI artículos | Gist.Science

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

El estudio revela que la capacidad de un agente de aprendizaje por refuerzo para detectar la degradación gradual de sus observaciones depende de un umbral crítico universal que surge de la interacción entre el nivel de ruido, el detector y la dinámica específica del entorno, lo que explica tanto la existencia de un punto de ruptura agudo como la imposibilidad de detectar ciertos patrones de deriva o fallos catastróficos antes de que ocurran.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

El artículo presenta R2F, un marco de navegación de objetos sin LLM que reinterpreta los frentes de rayo como hipótesis semánticas direccionales para lograr un rendimiento competitivo en tiempo real, eliminando la sobrecarga computacional de los modelos de lenguaje grandes.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

El artículo propone la Alineación de Auto-Cumplimiento Visual (VSFA), un método sin etiquetas que entrena modelos de lenguaje-visión mediante la exposición repetida a imágenes relacionadas con amenazas para internalizar implícitamente una postura de vigilancia y mejorar su seguridad sin comprometer sus capacidades generales.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Este trabajo propone un marco operatorio que unifica la proyección de gradientes, la compresión espectral y la viabilidad multiobjetivo mediante la codificación de restricciones estructurales en operadores autoadjuntos, revelando cómo estas limitaciones distorsionan la geometría de ascenso óptimo y concentran la dinámica en modos espectrales dominantes bajo computación acotada.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

El artículo presenta Echo2ECG, un marco de aprendizaje multimodal auto-supervisado que enriquece las representaciones de los electrocardiogramas (ECG) integrando la morfología cardíaca de ecocardiogramas multivista, logrando un rendimiento superior en tareas clínicas que requieren información estructural y superando a modelos de referencia mucho más grandes.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Este trabajo presenta el Enmascaramiento Suave Guiado por Oráculo (OGSS), un marco que combina un modelo de política de aprendizaje por imitación con un predictor de errores tácticos derivado de Stockfish para permitir una exploración segura y competitiva en ajedrez, reduciendo significativamente la tasa de errores sin comprometer el rendimiento.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

El artículo presenta \texttt{GlobAlign} y su variante eficiente \texttt{GlobAlign-E}, nuevos métodos de alineación de grafos sin supervisión que superan las limitaciones de precisión y eficiencia de las técnicas existentes mediante un paradigma de representación global y transporte óptimo jerárquico, logrando mejoras significativas en exactitud y velocidad.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

El documento presenta RetroAgent, un marco de aprendizaje por refuerzo en línea que supera las limitaciones de los métodos tradicionales mediante un mecanismo de autorreflexión que genera retroalimentación intrínseca dual (numérica y lingüística) para permitir que los agentes no solo resuelvan tareas complejas, sino que evolucionen y generalicen eficazmente mediante el aprendizaje experiencial explícito.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

El artículo presenta OSS-CRS, un marco de código abierto y localmente desplegable que libera los sistemas de razonamiento cibernético (CRS) de la infraestructura de la competencia DARPA AIxCC para aplicarlos en proyectos de código real, logrando mediante la portabilidad del sistema Atlantis descubrir 10 vulnerabilidades previamente desconocidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Este artículo presenta un marco matemático que fundamenta la confianza en la "convicción" (la probabilidad de que la postura de una fuente sea validada por un consenso independiente) en lugar de la mera corrección, definiendo la reputación como la convicción esperada ponderada y aplicando este modelo a los agentes de IA para establecer una base robusta y verificable para su confianza.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabajo propone dos nuevos algoritmos de aprendizaje por refuerzo profundo en modo streaming, S2AC y SDAC, diseñados para superar las limitaciones computacionales de los métodos por lotes y facilitar el ajuste fino en dispositivos, logrando un rendimiento comparable al estado del arte sin necesidad de un ajuste exhaustivo de hiperparámetros.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

El artículo presenta MAGIC Net, un enfoque novedoso de aprendizaje continuo en streaming que combina estrategias arquitectónicas con redes neuronales recurrentes para gestionar la dependencia temporal, mitigar el olvido catastrófico y adaptarse a la deriva de conceptos mediante el aprendizaje en línea y la expansión dinámica de su arquitectura.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artículo presenta un marco de aprendizaje débilmente supervisado con refinamiento progresivo de máscaras pseudo, que utiliza anotaciones escasas de patólogos y un教师-estudiante estabilizado para lograr una segmentación precisa y generalizable de glándulas en histopatología colorrectal sin necesidad de anotaciones pixel a pixel extensivas.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

El artículo presenta OfficeQA Pro, un nuevo benchmark que evalúa la capacidad de razonamiento fundamentado de agentes de IA sobre un corpus masivo y heterogéneo de documentos del Tesoro de EE. UU., revelando que incluso los modelos de vanguardia actuales tienen un rendimiento muy limitado en esta tarea y que la representación estructurada de documentos puede mejorar significativamente sus resultados.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Este trabajo emplea el marco de búsqueda evolutiva guiada por IA AlphaEvolve para identificar un nuevo caso límite que establece un límite inferior de 2.0749 en la relación entre el beneficio social óptimo y el obtenido por el mecanismo del oferente aleatorio, superando así las cotas anteriores de 2.02.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

El artículo presenta Trilobyte, un esquema de tokenización a nivel de byte que hace viable la compresión sin pérdidas de audio de 24 bits mediante modelos de lenguaje autoregresivos, demostrando que, aunque superan a FLAC en audio de 8 y 16 bits, sus ventajas de compresión se vuelven más modestas a medida que aumenta la profundidad de bits.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabajo propone un algoritmo heurístico de optimización conjunta para arquitecturas de Aprendizaje Federado Dividido Jerárquico que, al considerar explícitamente las capas de particionamiento y la asignación de clientes, logra mejorar la precisión del modelo en un 3% y reducir la latencia y la sobrecarga de comunicación en un 20% y 50% respectivamente en comparación con los métodos actuales.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

← Anterior Siguiente →