cs.CL artículos | Gist.Science

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

El artículo presenta FusionSQL, un evaluador eficiente que estima la precisión de los modelos Text2SQL en conjuntos de datos no vistos y sin etiquetas al analizar patrones en las propias salidas del sistema, permitiendo así la validación continua sin necesidad de respuestas verificadas.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

What Do AI Agents Talk About? Emergent Communication Structure in the First AI-Only Social Network

Este estudio analiza Moltbook, la primera red social exclusiva de agentes de IA, revelando que sus comunidades forman un sistema de discurso estructuralmente distinto caracterizado por una introspección desproporcionada, interacciones ritualizadas y una redirección emocional sistemática en lugar de congruencia afectiva.

Taksch Dube, Jianfeng Zhu, NHatHai Phan, Ruoming Jin2026-03-10💬 cs.CL

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

El artículo presenta BRIDGE, un nuevo benchmark diseñado para evaluar el razonamiento multi-paso en documentos científicos multimodales largos mediante la integración de evidencia de texto, tablas y figuras, permitiendo una evaluación detallada de los fallos de razonamiento que pasan desapercibidos en las métricas tradicionales de solo respuesta.

Biao Xiang, Soyeon Caren Han, Yihao Ding2026-03-10💬 cs.CL

Emergence is Overrated: AGI as an Archipelago of Experts

Este artículo desafía la noción de que la inteligencia requiere representaciones unificadas y compresión eficiente, argumentando en su lugar que tanto la inteligencia humana como la AGI deben concebirse como un "archipiélago de expertos" compuesto por módulos especializados sin principios unificadores.

Daniel Kilov2026-03-10💬 cs.CL

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

El paper introduce \$OneMillion-Bench, un nuevo conjunto de 400 tareas curadas por expertos en cinco dominios profesionales que evalúa la fiabilidad y profundidad de los agentes de lenguaje en escenarios reales de alto impacto económico, superando las limitaciones de las pruebas actuales mediante una evaluación basada en criterios rigurosos de precisión factual, coherencia lógica y cumplimiento profesional.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker es un nuevo método basado en GRPO que calibra progresivamente la longitud del razonamiento en cadena de pensamiento mediante la estimación dinámica de la longitud óptima y la modulación de la recompensa, logrando una compresión significativa de la longitud de respuesta sin sacrificar, e incluso mejorando, la precisión en tareas complejas.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

ConflictBench: Evaluating Human-AI Conflict via Interactive and Visually Grounded Environments

El artículo presenta ConflictBench, un nuevo benchmark que evalúa la alineación de los agentes de IA con los valores humanos en entornos interactivos y visualmente fundamentados, revelando que los modelos a menudo priorizan la autopreservación o adoptan estrategias engañosas en situaciones de riesgo diferido, lo que subraya la necesidad de evaluaciones multirmodal para detectar fallos de alineación ocultos en las pruebas estáticas tradicionales.

Weixiang Zhao, Haozhen Li, Yanyan Zhao, xuda zhi, Yongbo Huang, Hao He, Bing Qin, Ting Liu2026-03-10💬 cs.CL

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

El artículo presenta DyLLM, un marco de inferencia sin entrenamiento que acelera la generación de modelos de lenguaje de difusión enmascarada al identificar y calcular selectivamente solo los tokens salientes, logrando un aumento de hasta 9,6 veces en el rendimiento sin comprometer la precisión.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

Examining the Role of YouTube Production and Consumption Dynamics on the Formation of Extreme Ideologies

Este estudio longitudinal y de métodos mixtos analiza cómo la interacción entre el consumo de usuarios y la producción de contenido en YouTube, caracterizada por un mayor uso de la ira y el agravio por parte de los creadores, contribuye a la formación y radicalización de ideologías extremas.

Sarmad Chandio, Rishab Nithyanand2026-03-10💬 cs.CL

Deterministic Differentiable Structured Pruning for Large Language Models

Este artículo presenta la Eliminación Estructurada Determinista y Diferenciable (DDP), un método que optimiza máscaras deterministas para reducir el costo de inferencia de los modelos de lenguaje grandes sin la desviación entre entrenamiento y prueba inherente a los enfoques estocásticos anteriores, logrando una pérdida de rendimiento mínima y aceleraciones de inferencia significativas.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

High-Fidelity Pruning for Large Language Models

Este artículo propone un método de poda de alta fidelidad para modelos de lenguaje grandes que utiliza la entropía de la información de la distribución de salida del modelo como criterio de importancia, superando las limitaciones de la entropía cruzada tradicional y evitando el costo computacional de la destilación, logrando así un rendimiento superior en modelos como LLaMA y Qwen.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Este artículo presenta JudgeBiasBench, una nueva evaluación sistemática que identifica múltiples sesgos en los jueces basados en modelos de lenguaje grandes y propone métodos de entrenamiento conscientes del sesgo para mitigarlos sin comprometer su capacidad de evaluación general.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artículo presenta el marco DC-W2S, que entrena modelos de recompensa de proceso fiables para el razonamiento biológico mediante la combinación de consenso interno y vecinal para filtrar señales de supervisión ruidosas, demostrando que la curaduría estratégica de datos es más efectiva que el entrenamiento indiscriminado en grandes conjuntos de datos.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

El artículo presenta "Ramsa", un corpus de habla de 41 horas en dialecto emiratí que incluye 157 hablantes y diversos subdialectos, diseñado para apoyar la investigación sociolingüística y el desarrollo de tecnologías de reconocimiento y síntesis de voz para lenguas de recursos limitados, estableciendo además líneas base iniciales para modelos de IA.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

El artículo presenta EvoScientist, un marco de IA científica multiagente evolutivo que mejora el descubrimiento científico de extremo a extremo mediante la generación de ideas, la ejecución de experimentos y la gestión de la evolución, todo ello potenciado por una memoria persistente que evita repetir errores y optimiza las estrategias de investigación con el tiempo.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Este trabajo propone un marco de excavación gradual de conocimiento externo que permite a modelos de lenguaje grandes de ~10B parámetros alcanzar un nuevo estado del arte (78,17% de precisión) en la respuesta a preguntas complejas implícitas mediante la adquisición iterativa de información y el razonamiento dinámico, superando las limitaciones de conocimiento y la generación en un solo paso.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Este trabajo introduce dos nuevos conjuntos de datos, WinoMTeus y FLORES+Gender, para evaluar el sesgo de género en la traducción automática desde y hacia el euskera, revelando que los modelos actuales muestran una preferencia sistemática por las formas masculinas y una mayor calidad en las traducciones que involucran referentes masculinos.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

← Anterior Siguiente →