cs.AI artículos | Gist.Science

Leveraging Imperfection with MEDLEY A Multi-Model Approach Harnessing Bias in Medical AI

El artículo presenta MEDLEY, un marco conceptual que transforma los sesgos y las imperfecciones de la inteligencia artificial médica en recursos valiosos orquestando múltiples modelos para preservar la diversidad de opiniones y facilitar la supervisión clínica, en lugar de buscar eliminar el desacuerdo.

Farhad Abtahi, Mehdi Astaraki, Fernando Seoane2026-03-05🤖 cs.AI

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Los autores proponen un marco de poda de tokens ligero que preserva el índice, el cual elimina las regiones de fondo no informativas de las imágenes de documentos antes de procesarlas en modelos de visión y lenguaje, logrando así reducir significativamente los costos computacionales sin comprometer la precisión en la comprensión de documentos.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

Performance Assessment Strategies for Generative AI Applications in Healthcare

El artículo examina las estrategias actuales para evaluar el rendimiento de las aplicaciones de inteligencia artificial generativa en el sector sanitario, destacando las limitaciones de los benchmarks cuantitativos tradicionales y la creciente importancia de métodos que integran la experiencia humana y modelos computacionales eficientes para garantizar la generalización en entornos clínicos reales.

Victor Garcia, Mariia Sidulova, Aldo Badano2026-03-05🤖 cs.AI

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este trabajo presenta un enfoque basado en agentes de IA que utiliza relaciones metamórficas de alto orden para generar pruebas automatizadas y sintetizar código ejecutable a partir de leyes fiscales, demostrando que modelos más pequeños pueden superar a los modelos de vanguardia en la creación de software legalmente crítico y fiable.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha + 1 more2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Este artículo presenta StaR, un método de razonamiento multimodal que mejora significativamente la precisión de los agentes al interactuar con interfaces gráficas mediante la identificación y gestión efectiva de los estados de los interruptores (toggles), superando las limitaciones actuales en la ejecución de instrucciones de control binario.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

El artículo presenta MeanFlowSE, un modelo generativo condicional que supera el cuello de botella de la inferencia multietapa en la mejora de voz mediante el aprendizaje de la velocidad media en intervalos finitos, permitiendo una generación de alta fidelidad en un solo paso sin necesidad de conocimiento destilado.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

Bridging Computational Social Science and Deep Learning: Cultural Dissemination-Inspired Graph Neural Networks

El artículo presenta AxelGNN, una arquitectura de redes neuronales gráficas inspirada en el modelo de diseminación cultural de Axelrod que supera los desafíos de la sobre-suavización y la agregación monolítica mediante interacciones gateadas por similitud, copia de características por segmentos y polarización global, logrando un rendimiento superior y eficiente en grafos tanto homófilos como heterófilos.

Asela Hevapathige2026-03-05🤖 cs.AI

Best-of- $\infty$ -- Asymptotic Performance of Test-Time LLM Ensembling

Este artículo analiza el rendimiento asintótico del ensembling de modelos de lenguaje mediante votación mayoritaria cuando el número de muestras tiende a infinito, proponiendo un esquema de generación adaptativo y una optimización de pesos para ensembles múltiples que maximizan la eficiencia y el rendimiento sin requerir un presupuesto infinito.

Junpei Komiyama, Daisuke Oba, Masafumi Oyamada2026-03-05🤖 cs.AI

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

Este artículo presenta WebRRSBench, un nuevo benchmark integral que evalúa la capacidad de razonamiento, robustez y seguridad de los modelos de lenguaje multimodal (MLLM) en la comprensión web, revelando mediante la prueba de 11 modelos que estos aún enfrentan desafíos significativos en el razonamiento composicional, la adaptación a perturbaciones visuales y la identificación de acciones críticas para la seguridad.

Junliang Liu, Jingyu Xiao, Wenxin Tang + 5 more2026-03-05🤖 cs.AI

Uni-NTFM: A Unified Foundation Model for EEG Signal Representation Learning

El artículo presenta Uni-NTFM, un modelo fundacional unificado para señales EEG que, inspirado en mecanismos neurobiológicos como la codificación esparsa y la topología cortical, integra proyección de características heterogéneas, incrustación topológica y una red Transformer de expertos mixtos para superar a los modelos existentes en diversas tareas de decodificación cerebral.

Zhisheng Chen, Yingwei Zhang, Qizhen Lan + 7 more2026-03-05🤖 cs.AI

Towards Personalized Deep Research: Benchmarks and Evaluations

Este trabajo presenta PDR-Bench, el primer benchmark para evaluar la personalización en Agentes de Investigación Profunda, junto con el marco de evaluación PQR, para abordar la falta de escenarios personalizados en las evaluaciones existentes y sentar las bases para asistentes de investigación de IA más adaptados a cada usuario.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

El artículo presenta Vision-Zero, un marco de auto-juego multiagente libre de etiquetas que entrena modelos de visión y lenguaje mediante juegos estratégicos generados a partir de imágenes arbitrarias y una optimización iterativa de políticas, logrando mejoras sostenibles y un rendimiento superior en diversas tareas de razonamiento visual sin depender de verificación humana.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

Este trabajo presenta un marco innovador para la edición de imágenes sin entrenamiento que formula el proceso como un problema de control óptimo de trayectorias, logrando un equilibrio superior entre la maximización de recompensas y la fidelidad a la imagen original sin recurrir a trucos de recompensa.

Jinho Chang, Jaemin Kim, Jong Chul Ye2026-03-05🤖 cs.AI

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

El artículo presenta ELMUR, una arquitectura de transformador con memoria externa estructurada que supera las limitaciones de los modelos actuales al permitir a los agentes robóticos retener y aprovechar dependencias a largo plazo en entornos parcialmente observables, logrando un rendimiento superior en tareas de manipulación y navegación de horizonte extenso.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

El artículo presenta TIGeR, un marco innovador que transforma los Modelos Visuales-Lingüísticos en "computadoras geométricas" mediante la integración de herramientas de cálculo externo y un nuevo dataset, logrando así una precisión a nivel de centímetro esencial para la manipulación robótica en el mundo real.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Value Flows

El artículo presenta "Value Flows", un nuevo enfoque de aprendizaje por refuerzo distribuido que utiliza modelos basados en flujos modernos para estimar distribuciones completas de retornos futuros y cuantificar la incertidumbre mediante ecuaciones diferenciales, logrando mejoras significativas en el rendimiento en comparación con métodos anteriores en diversas tareas.

Perry Dong, Chongyi Zheng, Chelsea Finn + 2 more2026-03-05🤖 cs.AI

SHE: Stepwise Hybrid Examination Reinforcement Learning Framework for E-commerce Search Relevance

El marco SHE introduce un enfoque de aprendizaje por refuerzo híbrido con optimización de recompensas paso a paso (SRPO) y estrategias de filtrado de datos y aprendizaje curricular para superar las limitaciones de generalización y consistencia lógica en la predicción de relevancia de búsqueda en el comercio electrónico, logrando un rendimiento superior y mayor interpretabilidad en comparación con métodos existentes.

Pengkun Jiao, Yiming Jin, Jianhui Yang + 6 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

El artículo presenta LadderSym, un modelo Transformer multimodal que mejora significativamente la detección de errores en la práctica musical al utilizar un codificador de doble flujo con alineación entre corrientes y representaciones simbólicas como prompts, superando así las limitaciones de los métodos anteriores en conjuntos de datos como MAESTRO-E y CocoChorales-E.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

El artículo presenta GraphMERT, un modelo neuronal simbólico eficiente y escalable que supera a los grandes modelos de lenguaje en la generación de gráficos de conocimiento fiables, factuales y ontológicamente válidos a partir de texto no estructurado.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Este artículo propone un marco geométrico que modela el razonamiento de los modelos de lenguaje como flujos suaves en el espacio de representaciones, demostrando que estos modelos internalizan invariancias lógicas como geometría de alto orden y sugiriendo la existencia de una ley representacional universal independiente de la arquitectura o el entrenamiento.

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

← Anterior Siguiente →

cs.AI