cs.CL artículos | Gist.Science

DRBench: A Realistic Benchmark for Enterprise Deep Research

Este artículo presenta DRBench, un nuevo benchmark diseñado para evaluar agentes de IA en tareas de investigación profunda y compleja dentro de entornos empresariales, integrando fuentes de datos públicas y privadas para generar informes precisos y contextualizados.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. LaradjiWed, 11 Ma💬 cs.CL

Latent Speech-Text Transformer

El artículo presenta el Transformer de Voz-Texto Latente (LST), un modelo que agrupa los tokens de voz en parches latentes para equilibrar la granularidad con el texto y mejorar la eficiencia computacional, logrando así un rendimiento superior tanto en tareas de voz como de texto en comparación con los modelos autoregresivos tradicionales.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

El artículo presenta AlphaApollo, un sistema de razonamiento agéntico que aborda las limitaciones en la resolución de problemas complejos y la evolución durante la inferencia mediante la orquestación de interacciones multi-turno, aprendizaje por refuerzo y un ciclo de evolución con verificación asistida por herramientas, logrando mejoras significativas en diversos benchmarks matemáticos.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo HanWed, 11 Ma🤖 cs.AI

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

SynthWorlds: Controlled Parallel Worlds for Disentangling Reasoning and Knowledge in Language Models

El artículo presenta SynthWorlds, un marco que genera mundos paralelos sintéticos y reales con estructuras idénticas para desentrañar la capacidad de razonamiento de los modelos de lenguaje de su conocimiento paramétrico, revelando que la ventaja derivada de la memorización persiste incluso cuando se integran mecanismos de adquisición de conocimiento.

Ken Gu, Advait Bhat, Mike A Merrill, Robert West, Xin Liu, Daniel McDuff, Tim AlthoffWed, 11 Ma💬 cs.CL

Automatic Paper Reviewing with Heterogeneous Graph Reasoning over LLM-Simulated Reviewer-Author Debates

El artículo presenta ReViewGraph, un marco innovador que utiliza el razonamiento sobre grafos heterogéneos construidos a partir de debates simulados entre autores y revisores mediante agentes LLM para superar las limitaciones de los métodos de revisión automática actuales y lograr decisiones de evaluación más precisas y fundamentadas.

Shuaimin Li, Liyang Fan, Yufang Lin, Zeyang Li, Xian Wei, Shiwen Ni, Hamid Alinejad-Rokny, Min YangWed, 11 Ma💬 cs.CL

Does Scientific Writing Converge to U.S. English? Evidence from Generative AI-Assisted Publications

Un estudio de 5,65 millones de artículos científicos revela que el uso de inteligencia artificial generativa está provocando una convergencia significativa del estilo lingüístico de autores de países no anglófonos hacia el inglés científico estadounidense, lo que sugiere una reducción de las barreras idiomáticas en la publicación académica, aunque plantea interrogantes sobre la dependencia de un único estándar lingüístico.

Dragan Filimonovic, Christian Rutzer, Jeffrey Macher, Rolf WederWed, 11 Ma💬 cs.CL

PRISM of Opinions: A Persona-Reasoned Multimodal Framework for User-centric Conversational Stance Detection

El artículo presenta PRISM, un marco multimodal centrado en el usuario que aborda las limitaciones de la detección de postura conversacional mediante la creación del conjunto de datos U-MStance y el uso de personas longitudinales junto con razonamiento multimodal para capturar rasgos individuales y mejorar la comprensión de actitudes en redes sociales.

Bingbing Wang, Zhixin Bai, Zhengda Jin, Zihan Wang, Xintong Song, Jingjie Lin, Sixuan Li, Jing Li, Ruifeng XuWed, 11 Ma💬 cs.CL

From Veracity to Diffusion: Adressing Operational Challenges in Moving From Fake-News Detection to Information Disorders

Este artículo compara la detección de noticias falsas con la predicción de viralidad en conjuntos de datos EVONS y FakeNewsNet, demostrando que mientras la primera es estable con buenos embeddings textuales, la segunda es altamente sensible a decisiones operativas y proponiendo pipelines ligeros y transparentes para abordar estos desafíos.

Francesco Paolo Savatteri (ENC), Chahan Vidal-Gorène (CJM, LIPN), Florian Cafiero (ENC)Wed, 11 Ma💬 cs.CL

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

El artículo presenta ELERAG, una arquitectura de generación aumentada por recuperación (RAG) que integra la vinculación de entidades y una estrategia de reordenamiento híbrida para mejorar significativamente la precisión factual en sistemas de preguntas y respuestas educativas en italiano, demostrando su superioridad sobre métodos convencionales en dominios específicos.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

El artículo presenta DEER, un benchmark diseñado para evaluar la generación de informes expertos por agentes de investigación profunda mediante una taxonomía de criterios detallada, orientación para evaluadores y una arquitectura de verificación de afirmaciones que revela las limitaciones actuales de los sistemas en la satisfacción de solicitudes especializadas y la coherencia lógica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak LeeWed, 11 Ma💬 cs.CL

CRANE: Causal Relevance Analysis of Language-Specific Neurons in Multilingual Large Language Models

El paper presenta CRANE, un marco de análisis basado en la relevancia funcional que identifica neuronas específicas de cada idioma en modelos multilingües mediante intervenciones dirigidas, demostrando que estas neuronas son esenciales para el rendimiento en un idioma concreto sin ser exclusivas de él, superando así a los métodos tradicionales basados en la magnitud de activación.

Yifan Le, Yunliang LiWed, 11 Ma🤖 cs.AI

EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation

El artículo presenta EVM-QuestBench, un nuevo benchmark basado en la ejecución dinámica para evaluar la generación de código de transacciones en lenguaje natural en cadenas compatibles con EVM, destacando la importancia de la precisión de ejecución y la seguridad para evitar pérdidas irreversibles.

Pei Yang, Wanyi Chen, Ke Wang, Lynn Ai, Eric Yang, Tianyu ShiWed, 11 Ma💬 cs.CL

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artículo presenta la primera investigación sistemática sobre cómo se codifica la información de acento en los tokens de representación de voz discreta (DSRT), proponiendo un marco de evaluación unificado que revela que la selección de capas es el factor más determinante para retener dicha información, mientras que la supervisión ASR la reduce significativamente y la reducción ingenua del tamaño del código no logra desvincular el acento de la fonética y el hablante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents

Este trabajo presenta EigenData, un marco unificado que combina un agente de datos autoevolutivo con aprendizaje por refuerzo basado en verificadores para generar datos sintéticos de alta calidad y entrenar agentes interactivos de uso de herramientas que superan a los modelos de vanguardia en benchmarks complejos sin necesidad de anotación humana costosa.

Jiaxuan Gao, Jiaao Chen, Chuyi He, Shusheng Xu, Di Jin, Yi WuWed, 11 Ma🤖 cs.AI

Pretraining with Token-Level Adaptive Latent Chain-of-Thought

Este trabajo propone un método de preentrenamiento que internaliza una Cadena de Pensamiento Latente adaptativa a nivel de token, permitiendo asignar dinámicamente más cómputo a los tokens difíciles y menos a los fáciles, lo que mejora el rendimiento de los modelos de lenguaje sin aumentar sus parámetros ni requerir corpora adicionales.

Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan LinWed, 11 Ma💬 cs.CL

Query-focused and Memory-aware Reranker for Long Context Processing

Este trabajo presenta un marco de reordenamiento ligero y eficiente que aprovecha las puntuaciones de atención de modelos de lenguaje grandes para estimar la relevancia entre consultas y pasajes, logrando un rendimiento superior al estado del arte en tareas de comprensión de contexto largo y memoria mediante el uso de información holística y puntuaciones de relevancia continuas.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie ZhouWed, 11 Ma💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

El artículo presenta "Missing-by-Design" (MBD), un marco unificado para el análisis de sentimientos multimodal revocable que combina aprendizaje de representaciones y un proceso de modificación de parámetros certificable para eliminar selectivamente modalidades de datos sensibles sin necesidad de reentrenar el modelo completo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon FongWed, 11 Ma🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Este artículo presenta AuditBench, un benchmark de auditoría de alineación que evalúa la eficacia de diversas técnicas para detectar comportamientos ocultos en modelos de lenguaje mediante un agente investigador autónomo, revelando brechas significativas entre el rendimiento de herramientas individuales y su integración en agentes, así como la influencia crítica de los métodos de entrenamiento en la dificultad de auditoría.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan WangWed, 11 Ma💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

El artículo presenta SkillCraft, un nuevo benchmark diseñado para evaluar la capacidad de los agentes LLM para abstraer y reutilizar composiciones de herramientas como habilidades reutilizables, demostrando que esta competencia no solo mejora drásticamente la eficiencia al reducir el uso de tokens hasta en un 80%, sino que también se correlaciona fuertemente con el éxito en tareas complejas.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye TehWed, 11 Ma💬 cs.CL

← Anterior Siguiente →