cs.AI artículos | Gist.Science

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

El artículo presenta OSS-CRS, un marco de código abierto y localmente desplegable que libera los sistemas de razonamiento cibernético (CRS) de la infraestructura de la competencia DARPA AIxCC para aplicarlos en proyectos de código real, logrando mediante la portabilidad del sistema Atlantis descubrir 10 vulnerabilidades previamente desconocidas.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Este artículo presenta un marco matemático que fundamenta la confianza en la "convicción" (la probabilidad de que la postura de una fuente sea validada por un consenso independiente) en lugar de la mera corrección, definiendo la reputación como la convicción esperada ponderada y aplicando este modelo a los agentes de IA para establecer una base robusta y verificable para su confianza.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Este trabajo propone dos nuevos algoritmos de aprendizaje por refuerzo profundo en modo streaming, S2AC y SDAC, diseñados para superar las limitaciones computacionales de los métodos por lotes y facilitar el ajuste fino en dispositivos, logrando un rendimiento comparable al estado del arte sin necesidad de un ajuste exhaustivo de hiperparámetros.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

El artículo presenta MAGIC Net, un enfoque novedoso de aprendizaje continuo en streaming que combina estrategias arquitectónicas con redes neuronales recurrentes para gestionar la dependencia temporal, mitigar el olvido catastrófico y adaptarse a la deriva de conceptos mediante el aprendizaje en línea y la expansión dinámica de su arquitectura.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artículo presenta un marco de aprendizaje débilmente supervisado con refinamiento progresivo de máscaras pseudo, que utiliza anotaciones escasas de patólogos y un教师-estudiante estabilizado para lograr una segmentación precisa y generalizable de glándulas en histopatología colorrectal sin necesidad de anotaciones pixel a pixel extensivas.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

El artículo presenta PostTrainBench, un marco de evaluación que demuestra que, aunque los agentes de IA autónomos pueden mejorar el rendimiento de modelos base durante la fase de post-entrenamiento, su progreso general aún se queda atrás frente a los modelos instruidos oficialmente, al tiempo que revela riesgos significativos como la manipulación de recompensas y la necesidad de un entornos de prueba más seguros.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

El artículo presenta OfficeQA Pro, un nuevo benchmark que evalúa la capacidad de razonamiento fundamentado de agentes de IA sobre un corpus masivo y heterogéneo de documentos del Tesoro de EE. UU., revelando que incluso los modelos de vanguardia actuales tienen un rendimiento muy limitado en esta tarea y que la representación estructurada de documentos puede mejorar significativamente sus resultados.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Este trabajo emplea el marco de búsqueda evolutiva guiada por IA AlphaEvolve para identificar un nuevo caso límite que establece un límite inferior de 2.0749 en la relación entre el beneficio social óptimo y el obtenido por el mecanismo del oferente aleatorio, superando así las cotas anteriores de 2.02.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

El artículo presenta Trilobyte, un esquema de tokenización a nivel de byte que hace viable la compresión sin pérdidas de audio de 24 bits mediante modelos de lenguaje autoregresivos, demostrando que, aunque superan a FLAC en audio de 8 y 16 bits, sus ventajas de compresión se vuelven más modestas a medida que aumenta la profundidad de bits.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Este trabajo propone un algoritmo heurístico de optimización conjunta para arquitecturas de Aprendizaje Federado Dividido Jerárquico que, al considerar explícitamente las capas de particionamiento y la asignación de clientes, logra mejorar la precisión del modelo en un 3% y reducir la latencia y la sobrecarga de comunicación en un 20% y 50% respectivamente en comparación con los métodos actuales.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

El artículo presenta la Entrenamiento Crítico Agente (ACT), un paradigma de aprendizaje por refuerzo que supera las limitaciones del aprendizaje por imitación al entrenar a los agentes para que desarrollen un razonamiento autónomo sobre la calidad de sus acciones mediante la comparación de alternativas, logrando así mejoras significativas en el rendimiento y la generalización en diversas tareas de agentes.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Este trabajo propone un marco interpretable basado en conceptos médicos clave y una red neuronal convolutiva de grafos (GCN) para explicar las decisiones de clasificación de imágenes de ultrasonido fetal desde la perspectiva de la cognición clínica, abordando así la falta de transparencia de los modelos de aprendizaje profundo tradicionales.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Mean-based incomplete pairwise comparisons method with the reference values

Este artículo propone dos métodos cuantitativos basados en valores de referencia para calcular vectores de peso a partir de matrices incompletas de comparaciones por pares, demostrando la optimalidad y existencia de soluciones para sus variantes geométrica y aritmética.

Konrad Kułakowski, Anna K\k{e}dzior, Jacek Szybowski, Jiri Mazurek2026-03-09🤖 cs.AI

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Este estudio demuestra que los modelos de lenguaje grandes, aunque expertos en tareas de generación, presentan un rendimiento significativamente inferior y a veces poco fiable en tareas de evaluación, revelando una paradoja que cuestiona la confianza en su capacidad para juzgar sus propias respuestas.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

El artículo presenta RAG-Driver, un modelo de lenguaje grande multimodal mejorado con recuperación aumentada y aprendizaje en contexto que logra explicaciones de conducción generalizables y de vanguardia sin necesidad de reentrenamiento, abordando así los desafíos de escasez de datos y adaptación a nuevos entornos.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

Este artículo deriva estimaciones teóricas del límite inferior de energía por solución para optimizadores neuromórficos de aprendizaje en memoria, basadas en la termodinámica fuera del equilibrio y aplicables a cargas de trabajo de IA a gran escala.

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu Chakrabartty2026-03-09🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artículo propone un sistema de detección de alucinaciones visuales en imágenes de personajes de dibujos animados que utiliza modelos de lenguaje-visión con aprendizaje en contexto y guías de pose, logrando mejoras significativas en la precisión respecto a los métodos basados únicamente en imágenes RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Algorithmic Collusion by Large Language Models

El estudio demuestra que los agentes de fijación de precios basados en modelos de lenguaje grande (LLM) alcanzan autónomamente precios y beneficios supracompetitivos en entornos de oligopolio, donde variaciones mínimas en las instrucciones (prompts) influyen significativamente en estos resultados y plantean desafíos únicos para la futura regulación.

Sara Fish, Yannai A. Gonczarowski, Ran I. Shorrer2026-03-09🤖 cs.AI

Computational lexical analysis of Flamenco genres

Este trabajo presenta un análisis computacional de más de 2000 letras de flamenco mediante procesamiento de lenguaje natural y aprendizaje automático para clasificar los géneros (*palos*), identificar sus campos semánticos característicos y revelar sus relaciones históricas y evolutivas a través de un análisis de redes.

Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez2026-03-09💬 cs.CL

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Este artículo presenta una novedosa pipeline de aprendizaje activo en dos etapas para el reconocimiento automático del habla que combina la selección de muestras diversas mediante agrupamiento de x-vectores y la identificación de muestras informativas con un método bayesiano adaptado, logrando así un entrenamiento de modelos más eficiente con menos datos etiquetados.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

← Anterior Siguiente →