A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Este estudio propone un modelo teórico formal basado en una función de conjunto con valores de conjunto que explica el cambio dinámico del género gramatical y la variación morfosintáctica mediante la asignación de ítems léxicos a plantillas morfológicas, demostrando su aplicabilidad en el rifeño y desafiando las concepciones convencionales sobre la formación de palabras.

Mohamed El Idrissi2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Este estudio presenta Bielik-Q2-Sharp, la primera evaluación académica sistemática de la cuantización extrema a 2 bits aplicada al modelo de lenguaje polaco Bielik-11B, donde se comparan seis métodos avanzados y se descubre que, aunque QuIP# mantiene un rendimiento casi idéntico al de la línea base IQ2_XXS en benchmarks generales, destaca por preservar mejor el razonamiento de alto nivel, mientras que otros métodos como QTIP ofrecen una mayor eficiencia por bit y se documenta un fenómeno de disociación en la generación autoregresiva.

Jakub Prejzner2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

El artículo presenta SearchGym, una infraestructura modular de código abierto que cierra la brecha entre prototipos experimentales y sistemas de producción para la generación aumentada por recuperación (RAG), permitiendo la orquestación híbrida de búsquedas, la composición de configuraciones jerárquicas y el análisis de la "conciencia de los k superiores" para optimizar el rendimiento en dominios heterogéneos.

Jerome Tze-Hou Hsu2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Este estudio valida un marco basado en modelos de lenguaje grande que, al analizar más de 16.000 reseñas de TripAdvisor, revela una desconexión operativa crítica en EgyptAir y demuestra que esta metodología supera a las métricas tradicionales al transformar el feedback no estructurado en inteligencia estratégica accionable para la industria aérea.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

El marco HUMAINE presenta una evaluación demográficamente consciente de modelos de lenguaje mediante conversaciones naturales de más de 23.000 participantes, revelando una jerarquía de rendimiento donde Gemini 2.5 Pro lidera, pero destacando significativas variaciones en las preferencias según la edad y diferencias sustanciales en la capacidad discriminatoria entre dimensiones de evaluación.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Este artículo presenta SalamahBench, un benchmark estandarizado de 8.170 prompts en 12 categorías para evaluar la seguridad de los modelos de lenguaje en árabe, revelando mediante la prueba de cinco modelos avanzados que, aunque existen variaciones significativas en su alineación, la evaluación específica por categoría y el uso de modelos de salvaguarda especializados son esenciales para mitigar riesgos en este dominio.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Este artículo establece una equivalencia teórica entre las cadenas de Markov aditivas de N pasos y las cadenas con funciones de memoria escalonadas para aproximar la dinámica de los modelos de lenguaje grandes, lo que permite introducir el concepto de temperatura de información y mitigar la maldición de la dimensionalidad en espacios de estado de alta complejidad.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Este artículo propone el marco de evaluación Inductive Conceptual Rating (ICR), una métrica semio-hermenéutica cualitativa que demuestra que, aunque los modelos de lenguaje grandes (LLM) logran alta similitud léxica, a menudo fallan en capturar la precisión semántica y el significado contextual en comparación con los resúmenes humanos.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs