cs.AI artículos | Gist.Science

Grounding Synthetic Data Generation With Vision and Language Models

Este trabajo presenta un marco interpretable basado en modelos de visión y lenguaje para la generación y evaluación de datos sintéticos en teledetección, introduciendo el dataset ARAS400k que demuestra que la combinación de datos reales y sintéticos mejora consistentemente el rendimiento en tareas de segmentación semántica y descripción de imágenes.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

El documento presenta PRECEPT, un marco unificado para la adaptación en tiempo de prueba en agentes LLM que combina recuperación exacta de reglas, memoria consciente de conflictos y evolución de prompts guiada por Pareto para superar la degradación en la recuperación de conocimientos, mejorar la composición de reglas y garantizar la robustez ante conocimientos obsoletos o adversarios.

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

El artículo propone MM-tau-p $^2$ , un nuevo marco de evaluación con 12 métricas innovadoras diseñado para medir la robustez y el rendimiento de agentes multimodales adaptativos en entornos de doble control, abordando la falta de personalización en las evaluaciones actuales mediante un enfoque automatizado basado en LLM-as-judge en los sectores de telecomunicaciones y retail.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

El artículo presenta MiniAppBench, el primer benchmark integral que evalúa la capacidad de los modelos de lenguaje para generar aplicaciones interactivas basadas en HTML (MiniApps), junto con MiniAppEval, un marco de evaluación automatizado que utiliza agentes para verificar la calidad de estas aplicaciones en dimensiones de intención, estática y dinámica, demostrando una alta alineación con el juicio humano.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

El artículo presenta KV-Lock, un marco de entrenamiento gratuito para modelos de difusión de video basados en DiT que sincroniza dinámicamente el bloqueo de claves y valores del fondo con la escala de guía condicional para mejorar la calidad del primer plano manteniendo la consistencia del fondo.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Este trabajo presenta un marco de código abierto para la detección de anomalías en series temporales mediante redes neuronales gráficas (GNN), que no solo demuestra mejoras en el rendimiento y la interpretabilidad, sino que también ofrece una evaluación crítica de las prácticas actuales de métricas y umbrales en el campo.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Este artículo presenta el marco Omni Parsing y el modelo Logics-Parsing-Omni, que integran detección holística, reconocimiento detallado e interpretación multinivel para convertir señales audiovisuales no estructuradas en conocimiento estructurado y trazable mediante un mecanismo de anclaje de evidencia, todo ello respaldado por el nuevo conjunto de datos y el benchmark OmniParsingBench.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

El artículo presenta EsoLang-Bench, un nuevo benchmark que utiliza lenguajes de programación esotéricos para demostrar que, a pesar de su alto rendimiento en tareas de codificación estándar, los modelos de lenguaje actuales carecen de razonamiento genuino y dependen en gran medida de la memorización de datos de entrenamiento.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudio presenta un marco de clasificación automatizado para la gestión de riesgos cardíacos en pacientes geriátricos que, al utilizar registros de salud electrónicos no estructurados, demuestra que una arquitectura Transformer personalizada supera a los métodos tradicionales y a los modelos de lenguaje generativos, ofreciendo una alternativa robusta a la codificación manual.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabajo presenta AutoViVQA, un conjunto de datos a gran escala construido automáticamente para la Respuesta Visual a Preguntas en vietnamita, donde se exploran arquitecturas basadas en transformers y se comparan sistemáticamente métricas de evaluación automáticas en entornos multilingües.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

El artículo presenta ESAinsTOD, un marco unificado de ajuste fino de instrucciones que integra mecanismos de alineación de instrucciones y esquemas para mejorar el rendimiento, la generalización en escenarios de pocos recursos y la robustez de los modelos de diálogo orientado a tareas.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

El artículo presenta OOD-MMSafe, un benchmark que expone la ceguera causal de los modelos MLLM ante riesgos latentes, y propone CASPO, un marco de optimización que mejora significativamente la identificación de consecuencias ocultas mediante el aprendizaje por distilación auto-referencial.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Este artículo presenta CVS, un método de selección de datos sin entrenamiento que identifica muestras de alta calidad para el ajuste fino de modelos visuales-lingüísticos midiendo la discrepancia en la validez de la respuesta con y sin la pregunta, logrando así un mejor rendimiento con menos datos y menor costo computacional.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

El artículo presenta AutoAgent, un marco de agentes multiagente autoevolutivo que integra cognición evolutiva, toma de decisiones contextual en tiempo real y orquestación elástica de memoria para superar las limitaciones de los sistemas estáticos y mejorar la adaptabilidad, eficiencia y robustez en entornos dinámicos.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

El artículo presenta RbtAct, un enfoque que utiliza las réplicas de los autores como supervisión implícita para entrenar modelos de lenguaje que generan retroalimentación de revisión más concreta y accionable, validado mediante un nuevo conjunto de datos y tareas de generación segmentada.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

El artículo propone "Ego", un método eficiente que personaliza modelos de visión y lenguaje sin etapas de entrenamiento adicionales, extrayendo tokens visuales de atención interna como memoria para reconocer conceptos específicos en imágenes y videos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

← Anterior Siguiente →

cs.AI