cs.AI artículos | Gist.Science

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

El artículo presenta ImageEdit-R1, un marco multiagente que utiliza aprendizaje por refuerzo para coordinar agentes especializados y abordar las limitaciones de los sistemas de edición de imágenes existentes al interpretar instrucciones complejas y realizar ediciones coherentes y orientadas a objetivos.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

In-Context Reinforcement Learning for Tool Use in Large Language Models

Este trabajo propone el Aprendizaje por Refuerzo en Contexto (ICRL), un marco que elimina la necesidad de ajuste fino supervisado mediante el uso de ejemplos en contexto durante el entrenamiento por refuerzo, logrando un rendimiento superior en tareas de uso de herramientas con mayor eficiencia de datos.

Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

El artículo presenta DSH-Bench, un nuevo benchmark integral para la generación de imágenes basada en texto impulsada por sujetos que supera las limitaciones de evaluaciones anteriores mediante una taxonomía jerárquica de 58 categorías, una clasificación detallada de dificultad y escenarios, y una nueva métrica de consistencia de identidad (SICS) para ofrecer diagnósticos precisos y guiar el desarrollo futuro de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Este artículo presenta UIS-Digger, un marco de agentes multi-sistema diseñado para superar las limitaciones de la búsqueda de información no indexada mediante la navegación dual y el análisis de archivos, junto con el primer benchmark dedicado (UIS-QA) que demuestra cómo esta solución supera a modelos de lenguaje más grandes en tareas de recuperación de datos ocultos.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

El artículo presenta SaiVLA-0, una arquitectura de visión-lenguaje-acción inspirada en la neurociencia que utiliza un diseño tripartito (Cerebro, Puente y Cerebelo) para lograr un control adaptable, eficiente en cómputo y modular, demostrando mejoras significativas en tiempo de entrenamiento y tasas de éxito en tareas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

El artículo presenta FoleyFlow, un método que mejora la generación coordinada de audio a partir de video mediante un entrenamiento de alineación multimodal enmascarada y un flujo condicional dinámico, logrando una sincronización semántica y rítmica superior a las técnicas anteriores.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

El artículo presenta DARC, un método de inferencia sin reentrenamiento que aborda la heterogeneidad en las preferencias humanas mediante la selección de respuestas basada en la optimización de riesgos y la robustez distribucional para reducir el desacuerdo y el riesgo de cola sin comprometer la calidad promedio.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabajo propone un marco de excavación gradual de conocimiento externo que permite a modelos de lenguaje grandes de ~10B parámetros alcanzar un nuevo estado del arte (78,17% de precisión) en la respuesta a preguntas complejas implícitas mediante la adquisición iterativa de información y el razonamiento dinámico, superando las limitaciones de conocimiento y la generación en un solo paso.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Este artículo propone un enfoque híbrido e interpretable basado en redes 1dCNN-GRU y técnicas de IA explicable para la detección, identificación y localización de fallos en sistemas de software automotriz, con el fin de mejorar la eficiencia, reducir costos computacionales y aumentar la confianza en aplicaciones de seguridad crítica.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

El artículo presenta el "Condition Insight Agent", un marco de apoyo a la decisión desplegado que integra datos heterogéneos de mantenimiento industrial mediante razonamiento basado en evidencia y verificación estructurada para generar explicaciones fundamentadas y acciones recomendadas bajo condiciones de datos incompletos.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

El artículo presenta ESC, un método de calibración basado en estrategias evolutivas que optimiza la escala de las activaciones para lograr una cuantización casi sin pérdida en modelos de voz de 4 y 8 bits, superando las limitaciones de las técnicas estándar diseñadas para visión y procesamiento de lenguaje natural.

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

El estudio demuestra que el razonamiento en cadena en un espacio latente continuo (CODI) supera al razonamiento explícito en idiomas de bajos recursos y escenarios zero-shot, ofreciendo una solución escalable con una compresión de trazas de 29 a 50 veces.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Este trabajo demuestra que los modelos de diálogo de voz full-duplex de extremo a extremo filtran la identidad del hablante en sus representaciones ocultas y propone dos métodos de anonimización en tiempo real que protegen significativamente la privacidad sin comprometer la latencia ni la calidad del diálogo.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

El artículo presenta TildeOpen LLM, un modelo de lenguaje abierto de 30 mil millones de parámetros entrenado con estrategias de aprendizaje curricular y muestreo de datos para lograr una representación equitativa y un rendimiento superior en 34 idiomas europeos, especialmente en lenguas de recursos limitados como las bálticas, fino-úgricas y eslavas.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

El artículo presenta MM-TS, un método que mejora el aprendizaje contrastivo multimodal con datos de cola larga mediante la programación dinámica de temperaturas y márgenes, logrando resultados de vanguardia en cuatro conjuntos de datos de imagen y video.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

El artículo critica la dependencia actual de métricas de estimación puntual en los benchmarks de regresión para modelos fundacionales tabulares y propone evaluar y optimizar las predicciones probabilísticas mediante reglas de puntuación adecuadas, como el CRPS, junto con estrategias de ajuste fino o prompts para adaptar el sesgo inductivo de estos modelos.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Este estudio presenta dos estrategias de fusión multimodal, RGIF y RGMAF, que combinan el registro de imágenes con mecanismos de atención adaptativa para mejorar significativamente la detección de vehículos aéreos no tripulados (UAV) al integrar datos heterogéneos de sensores térmicos y visuales.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Este artículo extiende el método de agregación adaptativa AsyncFedED para el aprendizaje federado asíncrono, demostrando que la integración de métricas de distancia alternativas al de Euclídeo mejora la robustez, la velocidad de convergencia y el rendimiento del modelo en entornos heterogéneos con datos no IID.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

SplitAgent es una arquitectura distribuida innovadora que permite la colaboración entre agentes empresariales y en la nube preservando la privacidad mediante una sanitización dinámica sensible al contexto, logrando un equilibrio superior entre la precisión de las tareas y la protección de datos confidenciales.

Jianshu She2026-03-10💻 cs

← Anterior Siguiente →