cs.CL artículos | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

El artículo presenta HeartAgent, un sistema autónomo especializado en cardiología que mejora significativamente la precisión y la calidad explicativa del diagnóstico diferencial al integrar herramientas personalizadas, múltiples subagentes y razonamiento transparente, superando tanto a métodos existentes como al rendimiento de expertos no asistidos.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

El artículo presenta mAceReason-Math, un conjunto de datos multilingüe de alta calidad con más de 10.000 problemas matemáticos desafiantes en 14 idiomas, diseñado específicamente para impulsar la investigación y el aprendizaje por refuerzo con recompensas verificables (RLVR) en modelos de lenguaje más allá del ámbito anglosajón.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Este artículo demuestra mediante interpretabilidad mecánica que la robustez de los modelos de lenguaje ante la tokenización a nivel de caracteres se debe a un proceso de "recuperación de palabras", donde las representaciones internas reconstruyen las identidades de los tokens canónicos mediante mecanismos de atención específicos entre caracteres.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

Este trabajo propone utilizar modelos de lenguaje grandes (LLMs) para generar anotaciones MQM simplificadas que, al entrenar un modelo COMET, permiten lograr un rendimiento competitivo en la estimación de calidad de traducción automática a un costo inferior al de la inferencia directa de LLMs.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Este estudio presenta un pipeline asistido por LLM que transforma cuatro protocolos de identificación de metáforas en scripts de reglas ejecutables y auditables para el chino, demostrando que la elección del protocolo es la fuente principal de variación en la identificación y que este enfoque logra un rendimiento competitivo con total transparencia e interpretabilidad.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

El artículo presenta LuxBorrow, un análisis centrado en los préstamos lingüísticos que examina 27 años de noticias en luxemburgués para demostrar que, aunque el uso de múltiples idiomas es ubicuo, la mezcla se caracteriza por inserciones localizadas con una adaptación morfológica predominante, especialmente de fuentes francesas, lo que impulsa la propuesta de métricas de evaluación basadas en préstamos en lugar de índices generales de mezcla.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

El artículo presenta el Multilingual Reasoning Gym, una extensión del Reasoning Gym que genera proceduralmente problemas de razonamiento verificables en 14 idiomas mediante plantillas traducidas y validadas por hablantes nativos, permitiendo la creación de datos paralelos a gran escala para el entrenamiento y evaluación de modelos de razonamiento multilingüe.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

El artículo presenta PivotAttack, un marco de ataque de texto eficiente en consultas que utiliza un algoritmo de Bandido Multibrazo para identificar y perturbar estratégicamente "conjuntos pivote" desde el interior hacia el exterior, superando a los métodos existentes en tasa de éxito y eficiencia de consultas.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

El paper presenta EvoKernel, un marco de agentes autoevolutivos que utiliza un enfoque de memoria basado en valores para superar la escasez de datos en la síntesis de kernels para NPUs, logrando mejorar la precisión de los modelos de 11.0% a 83.0% y acelerar el rendimiento mediante un refinamiento continuo.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

El artículo presenta $V_{0.5}$ , un modelo de valor generalista que fusiona adaptativamente una estimación previa con promedios empíricos de rollouts dispersos mediante pruebas estadísticas en tiempo real, logrando una reducción significativa de la varianza y un rendimiento superior en tareas de razonamiento matemático en comparación con métodos como GRPO y DAPO.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

El artículo presenta SiDiaC-v.2.0, el corpus diacrónico en idioma cingalés más grande y exhaustivo hasta la fecha, que abarca desde el siglo V hasta el XX con 244.000 palabras de 185 obras literarias, ofreciendo un recurso fundamental para el procesamiento del lenguaje natural en esta lengua de bajos recursos.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Este trabajo presenta un corpus bilingüe (inglés/alemán) de registros de catálogo anotados con la Integrated Authority File (GND) y una taxonomía procesable por máquinas, diseñado para habilitar la clasificación multietiqueta consciente de la ontología y evaluar sistemas de IA que asistan a los catalogadores en la indexación a escala.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

El artículo presenta ARMADA, un marco eficiente de destilación de conocimiento cruzado que transfiere información de grandes modelos de visión-idioma (incluyendo modelos de caja negra) a modelos de solo lenguaje mediante técnicas de alineación novedosas, logrando mejoras significativas en diversas tareas sin requerir pre-entrenamiento multimodal costoso ni modificar al modelo docente.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR es un modelo multimodal compacto de 0.9B parámetros que combina un codificador visual y un decodificador de lenguaje con un mecanismo de predicción de múltiples tokens y un pipeline de dos etapas para lograr un alto rendimiento y eficiencia en tareas de comprensión de documentos, desde el análisis de diseño hasta la extracción de información clave.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

LLM2Vec-Gen: Generative Embeddings from Large Language Models

El artículo presenta LLM2Vec-Gen, un enfoque auto-supervisado novedoso que genera representaciones de texto aprendiendo a codificar la respuesta potencial de un modelo de lenguaje grande en lugar de la entrada, logrando un rendimiento superior en tareas de incrustación sin etiquetas y mejorando la seguridad y el razonamiento.

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy2026-03-12💬 cs.CL

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

El artículo presenta TOSSS, un nuevo benchmark basado en la base de datos CVE que evalúa la capacidad de los modelos de lenguaje grandes para seleccionar fragmentos de código seguros frente a vulnerables, ofreciendo una métrica de seguridad complementaria a las puntuaciones existentes.

Marc Damie, Murat Bilgehan Ertan, Domenico Essoussi, Angela Makhanu, Gaëtan Peter, Roos Wensveen2026-03-12🤖 cs.LG

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Este estudio sistémico demuestra que la elección del modelo de retroalimentación es crucial para la efectividad del PRF con LLMs, revelando que el texto generado por el LLM es la solución más rentable, mientras que el texto del corpus es más beneficioso cuando se utiliza un recuperador inicial robusto.

Nour Jedidi, Jimmy Lin2026-03-12💬 cs.CL

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Este trabajo desafía la suposición de que el consenso entre evaluadores LLM garantiza fiabilidad, demostrando que dicho acuerdo suele ser ilusorio al basarse en heurísticas superficiales, y propone el marco MERG para generar rúbricas dinámicas ancladas en conocimiento experto que mejoran la evaluación en dominios codificados.

Mingyang Song, Mao Zheng, Chenning Xu2026-03-12💬 cs.CL

Instruction set for the representation of graphs

El artículo presenta IsalGraph, un método que codifica cualquier grafo finito en una cadena compacta mediante un conjunto de instrucciones de nueve caracteres, permitiendo una representación isomórfica, válida y compatible con modelos de lenguaje que facilita la búsqueda de similitud, la generación de grafos y la modelación condicionada.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

COMIC: Agentic Sketch Comedy Generation

El artículo presenta COMIC, un sistema automatizado de IA que genera videos de comedia tipo sketch mediante una población de agentes inspirados en roles de producción y críticos de LLM alineados con preferencias reales de audiencia, logrando resultados de calidad profesional y rendimiento de vanguardia en la generación de video.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

← Anterior Siguiente →

cs.CL