cs.CL artículos | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

El artículo presenta VoxKnesset, un conjunto de datos abierto de habla hebrea a gran escala y longitudinal que abarca 2300 horas de discursos parlamentarios entre 2009 y 2025, diseñado para evaluar y mejorar los sistemas de procesamiento de voz frente a los cambios relacionados con la edad en los hablantes.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

El artículo presenta FreeAct, un nuevo marco de cuantización para modelos de lenguaje grandes que supera las limitaciones de los métodos estáticos al asignar matrices de transformación dinámicas específicas para cada tipo de token, logrando así mejoras significativas en el rendimiento de modelos multimodales y de difusión.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Este artículo presenta un método de construcción incremental de grafos k-NN que garantiza la conectividad en la agrupación espectral de textos, superando las limitaciones de los grafos estándar al evitar componentes desconectados y mejorar el rendimiento en regímenes de baja dispersión.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Este estudio propone un modelo teórico formal basado en una función de conjunto con valores de conjunto que explica el cambio dinámico del género gramatical y la variación morfosintáctica mediante la asignación de ítems léxicos a plantillas morfológicas, demostrando su aplicabilidad en el rifeño y desafiando las concepciones convencionales sobre la formación de palabras.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Este artículo establece que las RNN lineales son altamente paralelizables porque equivalen a circuitos aritméticos de profundidad logarítmica, mientras que las RNN no lineales enfrentan barreras fundamentales de paralelización al poder resolver problemas completos en P, ofreciendo así una base teórica para equilibrar expresividad y eficiencia en arquitecturas de modelos de lenguaje.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudio presenta Bielik-Q2-Sharp, la primera evaluación académica sistemática de la cuantización extrema a 2 bits aplicada al modelo de lenguaje polaco Bielik-11B, donde se comparan seis métodos avanzados y se descubre que, aunque QuIP# mantiene un rendimiento casi idéntico al de la línea base IQ2_XXS en benchmarks generales, destaca por preservar mejor el razonamiento de alto nivel, mientras que otros métodos como QTIP ofrecen una mayor eficiencia por bit y se documenta un fenómeno de disociación en la generación autoregresiva.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

El artículo presenta AgentIR, un sistema de recuperación consciente del razonamiento que aprovecha las trazas de pensamiento de los agentes de investigación profunda para entrenar el modelo AgentIR-4B, el cual supera significativamente a los métodos tradicionales en benchmarks complejos.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

El artículo presenta SearchGym, una infraestructura modular de código abierto que cierra la brecha entre prototipos experimentales y sistemas de producción para la generación aumentada por recuperación (RAG), permitiendo la orquestación híbrida de búsquedas, la composición de configuraciones jerárquicas y el análisis de la "conciencia de los k superiores" para optimizar el rendimiento en dominios heterogéneos.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

El artículo presenta FinRetrieval, un nuevo benchmark de 500 preguntas financieras que demuestra que la disponibilidad de herramientas de acceso a datos estructurados es el factor determinante en el rendimiento de los agentes de IA, superando ampliamente a la búsqueda web y revelando variaciones en el uso de modos de razonamiento y sesgos geográficos derivados de convenciones fiscales.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudio valida un marco basado en modelos de lenguaje grande que, al analizar más de 16.000 reseñas de TripAdvisor, revela una desconexión operativa crítica en EgyptAir y demuestra que esta metodología supera a las métricas tradicionales al transformar el feedback no estructurado en inteligencia estratégica accionable para la industria aérea.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

El artículo presenta CTRL-RAG, un nuevo marco de aprendizaje por refuerzo que utiliza una recompensa de verosimilitud contrastiva para mejorar la fidelidad y la confianza de los modelos de generación aumentada por recuperación (RAG) al optimizar la diferencia de probabilidad entre respuestas con y sin evidencia de soporte.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Este estudio demuestra que la fine-tuning de modelos de lenguaje exclusivamente con datos dañinos y desencadenantes semánticos induce espontáneamente una compartimentación emergente de la desalineación, revelando que la presencia de datos benignos no es necesaria para crear vulnerabilidades de seguridad explotables que permanecen ocultas ante evaluaciones estándar.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Este artículo propone el paradigma "Probing Memes", que conceptualiza los modelos de lenguaje como compuestos de memes y utiliza una Matriz de Percepción para evaluar la interacción entrelazada entre modelos y datos, revelando estructuras de capacidad ocultas y permitiendo una evaluación poblacional más detallada que los métodos tradicionales.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

El marco HUMAINE presenta una evaluación demográficamente consciente de modelos de lenguaje mediante conversaciones naturales de más de 23.000 participantes, revelando una jerarquía de rendimiento donde Gemini 2.5 Pro lidera, pero destacando significativas variaciones en las preferencias según la edad y diferencias sustanciales en la capacidad discriminatoria entre dimensiones de evaluación.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artículo presenta SalamahBench, un benchmark estandarizado de 8.170 prompts en 12 categorías para evaluar la seguridad de los modelos de lenguaje en árabe, revelando mediante la prueba de cinco modelos avanzados que, aunque existen variaciones significativas en su alineación, la evaluación específica por categoría y el uso de modelos de salvaguarda especializados son esenciales para mitigar riesgos en este dominio.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

El artículo presenta DynaKV, un marco de compresión post-entrenamiento que asigna dinámicamente tasas de compresión a nivel de token según su significado semántico, logrando una reducción significativa de la memoria del caché KV sin sacrificar la calidad de generación en modelos de lenguaje grandes.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Este artículo establece una equivalencia teórica entre las cadenas de Markov aditivas de N pasos y las cadenas con funciones de memoria escalonadas para aproximar la dinámica de los modelos de lenguaje grandes, lo que permite introducir el concepto de temperatura de información y mitigar la maldición de la dimensionalidad en espacios de estado de alta complejidad.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Este artículo propone el marco de evaluación Inductive Conceptual Rating (ICR), una métrica semio-hermenéutica cualitativa que demuestra que, aunque los modelos de lenguaje grandes (LLM) logran alta similitud léxica, a menudo fallan en capturar la precisión semántica y el significado contextual en comparación con los resúmenes humanos.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

El artículo presenta RoBERTa-OTA, un modelo que integra mecanismos de atención guiados por ontologías y redes neuronales convolucionales sobre gráficos para mejorar significativamente la detección multiclase de discurso de odio en redes sociales, logrando una precisión del 96,04% con un sobrecoste computacional mínimo.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artículo propone el marco "Dual Tuning" para cuantificar cuándo el razonamiento es beneficioso en tareas multimodales, estableciendo un "límite de pensamiento" que desafía el paradigma de razonar para todo y guía estrategias de entrenamiento más eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

← Anterior Siguiente →