cs.CL artículos | Gist.Science

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Este artículo propone la métrica AQE para cuantificar cómo las actuales metodologías de detección de alucinaciones en modelos de lenguaje dependen excesivamente de "trucos" específicos del benchmark en lugar de una verdadera conciencia interna, lo que limita su generalización a entornos prácticos.

Yeongbin Seo, Dongha Lee, Jinyoung Yeo2026-03-11💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

El artículo presenta VSSFlow, un marco unificado basado en flujo-matching que integra la generación de sonido y habla condicionada por video mediante un mecanismo de agregación de condiciones disociado, demostrando que el aprendizaje conjunto supera a los modelos especializados sin degradar el rendimiento.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

El artículo presenta v-HUB, un nuevo benchmark de comprensión del humor en videos que utiliza clips no verbales y anotaciones ricas para evaluar modelos de lenguaje multimodal, demostrando que la integración de pistas auditivas mejora significativamente la capacidad de los modelos para entender el humor visual.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

DRBench: A Realistic Benchmark for Enterprise Deep Research

Este artículo presenta DRBench, un nuevo benchmark diseñado para evaluar agentes de IA en tareas de investigación profunda y compleja dentro de entornos empresariales, integrando fuentes de datos públicas y privadas para generar informes precisos y contextualizados.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji2026-03-11💬 cs.CL

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

El artículo presenta SynthWorlds, un marco que genera mundos paralelos sintéticos y reales con estructuras idénticas para desentrañar la capacidad de razonamiento de los modelos de lenguaje de su conocimiento paramétrico, revelando que la ventaja derivada de la memorización persiste incluso cuando se integran mecanismos de adquisición de conocimiento.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim Althoff2026-03-11💬 cs.CL

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Este artículo introduce la "capacidad de información", una nueva métrica que evalúa la eficiencia de los modelos de lenguaje grandes mediante el rendimiento de compresión de texto en relación con la complejidad computacional y la eficiencia del tokenizador, demostrando su utilidad para predecir el rendimiento, revelar sesgos lingüísticos y guiar el desarrollo futuro de modelos más eficientes.

Cheng Yuan, Jiawei Shao, Xuelong Li2026-03-11💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

El artículo presenta ReViewGraph, un marco innovador que utiliza el razonamiento sobre grafos heterogéneos construidos a partir de debates simulados entre autores y revisores mediante agentes LLM para superar las limitaciones de los métodos de revisión automática actuales y lograr decisiones de evaluación más precisas y fundamentadas.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min Yang2026-03-11💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Un estudio de 5,65 millones de artículos científicos revela que el uso de inteligencia artificial generativa está provocando una convergencia significativa del estilo lingüístico de autores de países no anglófonos hacia el inglés científico estadounidense, lo que sugiere una reducción de las barreras idiomáticas en la publicación académica, aunque plantea interrogantes sobre la dependencia de un único estándar lingüístico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf Weder2026-03-11💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

El artículo presenta PRISM, un marco multimodal centrado en el usuario que aborda las limitaciones de la detección de postura conversacional mediante la creación del conjunto de datos U-MStance y el uso de personas longitudinales junto con razonamiento multimodal para capturar rasgos individuales y mejorar la comprensión de actitudes en redes sociales.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng Xu2026-03-11💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Este artículo compara la detección de noticias falsas con la predicción de viralidad en conjuntos de datos EVONS y FakeNewsNet, demostrando que mientras la primera es estable con buenos embeddings textuales, la segunda es altamente sensible a decisiones operativas y proponiendo pipelines ligeros y transparentes para abordar estos desafíos.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)2026-03-11💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

El artículo presenta ELERAG, una arquitectura de generación aumentada por recuperación (RAG) que integra la vinculación de entidades y una estrategia de reordenamiento híbrida para mejorar significativamente la precisión factual en sistemas de preguntas y respuestas educativas en italiano, demostrando su superioridad sobre métodos convencionales en dominios específicos.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

El artículo presenta DEER, un benchmark diseñado para evaluar la generación de informes expertos por agentes de investigación profunda mediante una taxonomía de criterios detallada, orientación para evaluadores y una arquitectura de verificación de afirmaciones que revela las limitaciones actuales de los sistemas en la satisfacción de solicitudes especializadas y la coherencia lógica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee2026-03-11💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

El paper presenta CRANE, un marco de análisis basado en la relevancia funcional que identifica neuronas específicas de cada idioma en modelos multilingües mediante intervenciones dirigidas, demostrando que estas neuronas son esenciales para el rendimiento en un idioma concreto sin ser exclusivas de él, superando así a los métodos tradicionales basados en la magnitud de activación.

Yifan Le, Yunliang Li2026-03-11🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

El artículo presenta EVM-QuestBench, un nuevo benchmark basado en la ejecución dinámica para evaluar la generación de código de transacciones en lenguaje natural en cadenas compatibles con EVM, destacando la importancia de la precisión de ejecución y la seguridad para evitar pérdidas irreversibles.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu Shi2026-03-11💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell2026-03-11⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Este trabajo presenta EigenData, un marco unificado que combina un agente de datos autoevolutivo con aprendizaje por refuerzo basado en verificadores para generar datos sintéticos de alta calidad y entrenar agentes interactivos de uso de herramientas que superan a los modelos de vanguardia en benchmarks complejos sin necesidad de anotación humana costosa.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi Wu2026-03-11🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Este trabajo propone un método de preentrenamiento que internaliza una Cadena de Pensamiento Latente adaptativa a nivel de token, permitiendo asignar dinámicamente más cómputo a los tokens difíciles y menos a los fáciles, lo que mejora el rendimiento de los modelos de lenguaje sin aumentar sus parámetros ni requerir corpora adicionales.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin2026-03-11💬 cs.CL

← Anterior Siguiente →