Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Este artículo ofrece una guía práctica para los científicos políticos sobre cuándo es necesario utilizar modelos de lenguaje específicos del dominio frente a alternativas de ajuste fino más accesibles, demostrando mediante un estudio de caso en la clasificación de eventos de conflicto que las diferencias de rendimiento entre ambos enfoques son mínimas para categorías frecuentes y solo significativas en eventos raros.

Shreyas MeherWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudio presenta un marco de clasificación automatizado para la gestión de riesgos cardíacos en pacientes geriátricos que, al utilizar registros de salud electrónicos no estructurados, demuestra que una arquitectura Transformer personalizada supera a los métodos tradicionales y a los modelos de lenguaje generativos, ofreciendo una alternativa robusta a la codificación manual.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Esta investigación propone un método avanzado para estimar la similitud entre recetas combinando perspectivas semánticas, léxicas y nutricionales, validado por expertos mediante una interfaz web que demuestra un alto grado de acuerdo y ofrece aplicaciones en la industria alimentaria, dietas personalizadas y generación automatizada de recetas.

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Este artículo evalúa la eficacia de cuatro modelos de lenguaje grandes (LLM) en sistemas RAG para recuperar datos nutricionales mediante la traducción de consultas naturales a filtros de metadatos, concluyendo que aunque logran un alto rendimiento en consultas expresables, enfrentan dificultades significativas cuando las restricciones de la consulta exceden el alcance representacional de los metadatos.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Este artículo presenta la versión actualizada y combinada de los corpus EPIC-UdS y EuroParl-UdS, que integran discursos originales del Parlamento Europeo junto con sus traducciones e interpretaciones, corrigiendo errores y añadiendo nuevas capas de anotación para facilitar investigaciones sobre variación lingüística, traducción e interpretación desde una perspectiva teórica de la información.

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

El artículo presenta One-Eval, un sistema agéntico que automatiza y hace trazable la evaluación de modelos de lenguaje grande mediante la conversión de solicitudes en lenguaje natural en flujos de trabajo ejecutables, integrando planificación de benchmarks, resolución automática de datos y reportes orientados a decisiones con supervisión humana.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabajo propone utilizar árboles de Chow-Liu para optimizar el orden de procesamiento de fragmentos en marcos de razonamiento multiagente de contexto largo, demostrando que un recorrido en amplitud de estos árboles reduce la pérdida de información y supera a los métodos de ordenamiento convencionales en precisión y relevancia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Este artículo propone que los modelos de lenguaje tipo n-gram predicen mejor los tiempos de lectura que los modelos transformadores modernos, ya que el tiempo de lectura es más sensible a estadísticas simples que a las complejas, y demuestra que los modelos cuyas predicciones se correlacionan más con las probabilidades n-gram son también los que mejor se alinean con las métricas de seguimiento ocular.

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL