cs.AI artículos | Gist.Science

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabajo presenta AutoViVQA, un conjunto de datos a gran escala construido automáticamente para la Respuesta Visual a Preguntas en vietnamita, donde se exploran arquitecturas basadas en transformers y se comparan sistemáticamente métricas de evaluación automáticas en entornos multilingües.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

El artículo presenta ESAinsTOD, un marco unificado de ajuste fino de instrucciones que integra mecanismos de alineación de instrucciones y esquemas para mejorar el rendimiento, la generalización en escenarios de pocos recursos y la robustez de los modelos de diálogo orientado a tareas.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

El artículo presenta OOD-MMSafe, un benchmark que expone la ceguera causal de los modelos MLLM ante riesgos latentes, y propone CASPO, un marco de optimización que mejora significativamente la identificación de consecuencias ocultas mediante el aprendizaje por distilación auto-referencial.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Este artículo presenta CVS, un método de selección de datos sin entrenamiento que identifica muestras de alta calidad para el ajuste fino de modelos visuales-lingüísticos midiendo la discrepancia en la validez de la respuesta con y sin la pregunta, logrando así un mejor rendimiento con menos datos y menor costo computacional.

Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

El artículo presenta AutoAgent, un marco de agentes multiagente autoevolutivo que integra cognición evolutiva, toma de decisiones contextual en tiempo real y orquestación elástica de memoria para superar las limitaciones de los sistemas estáticos y mejorar la adaptabilidad, eficiencia y robustez en entornos dinámicos.

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

El artículo presenta RbtAct, un enfoque que utiliza las réplicas de los autores como supervisión implícita para entrenar modelos de lenguaje que generan retroalimentación de revisión más concreta y accionable, validado mediante un nuevo conjunto de datos y tareas de generación segmentada.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

El artículo propone "Ego", un método eficiente que personaliza modelos de visión y lenguaje sin etapas de entrenamiento adicionales, extrayendo tokens visuales de atención interna como memoria para reconocer conceptos específicos en imágenes y videos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

El artículo presenta World2Mind, un kit de herramientas de inteligencia espacial sin entrenamiento que mejora el razonamiento espacial en modelos fundacionales mediante la construcción de mapas cognitivos estructurados y un árbol espacial alocéntrico, permitiendo incluso a modelos puramente textuales realizar razonamiento 3D complejo con un rendimiento cercano al de los modelos multimodales avanzados.

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Este artículo demuestra que la inferencia basada en simulaciones (SBI) es una herramienta eficaz para estimar parámetros de modelos de interacción neutrino-núcleo, logrando un ajuste mejorado en datos experimentales y una aproximación razonable a simulaciones alternativas como NuWro.

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Este artículo formaliza el concepto de "profundidad serial opaca" para cuantificar la capacidad de los modelos de lenguaje de realizar razonamiento interno sin pasos intermedios interpretables, estableciendo límites superiores para arquitecturas como Gemma 3 y demostrando que los modelos de mezcla de expertos probablemente poseen una profundidad menor que los modelos densos.

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Este artículo propone un marco híbrido cuántico-clásico que combina redes LSTM con Máquinas de Nacimiento de Circuitos Cuánticos (QCBM) para predecir la volatilidad financiera, demostrando mediante datos del mercado chino un rendimiento superior frente a los modelos clásicos en métricas clave como el error cuadrático medio.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

El artículo propone ACP-SL, un esquema de aprendizaje dividido que utiliza una puntuación de importancia de canales basada en etiquetas para eliminar canales menos relevantes y comprimir los datos transmitidos, reduciendo así la sobrecarga de comunicación sin comprometer la precisión.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Este artículo presenta el "pseudo-proyector", una modificación ligera inspirada en el paradigma multigrid que corrige las representaciones ocultas de los modelos basados en transformadores para reducir la sensibilidad al ruido y mejorar la dinámica de entrenamiento y la robustez sin alterar su arquitectura central.

Vitaly Bulgakov2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Este trabajo presenta MA-EgoQA, un nuevo benchmark y modelo base (EgoMAS) diseñados para evaluar y mejorar la capacidad de los sistemas de IA para comprender y coordinar múltiples videos egocéntricos de agentes corporificados mediante el uso de memoria compartida y recuperación dinámica.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Este artículo presenta SCENEBench, un nuevo conjunto de pruebas diseñado para evaluar la comprensión auditiva de modelos de lenguaje de audio avanzados más allá del reconocimiento de voz, centrándose en casos de uso reales como la accesibilidad y la monitorización industrial mediante la medición del rendimiento y la latencia en tareas de sonido ambiental, localización de ruido, comprensión multilingüe y reconocimiento de características vocales.

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI

← Anterior Siguiente →