cs.CL artículos | Gist.Science

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Este artículo ofrece una guía práctica para los científicos políticos sobre cuándo es necesario utilizar modelos de lenguaje específicos del dominio frente a alternativas de ajuste fino más accesibles, demostrando mediante un estudio de caso en la clasificación de eventos de conflicto que las diferencias de rendimiento entre ambos enfoques son mínimas para categorías frecuentes y solo significativas en eventos raros.

Shreyas MeherWed, 11 Ma💬 cs.CL

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

El artículo presenta una técnica de "reparación quirúrgica" mediante reinitialización dirigida que recupera la capacidad operativa de las cabezas de atención colapsadas en modelos ALiBi como BLOOM, demostrando que estas configuraciones preentrenadas representan mínimos locales subóptimos y que la intervención mejora significativamente el rendimiento del modelo.

Palmer SchallonWed, 11 Ma💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

El artículo presenta X-GS, un marco abierto y extensible que unifica técnicas de 3DGS con modelos multimodales mediante un pipeline eficiente llamado X-GS-Perceiver para generar mapas 3D semánticos en tiempo real que habilitan tareas avanzadas como la detección de objetos y la generación de descripciones.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Este estudio presenta un pipeline de código abierto y localmente desplegable basado en el modelo LLM Qwen2.5-72B que logra una alta precisión en la extracción longitudinal de datos oncológicos de informes de radiología, demostrando la viabilidad de modelos abiertos para el análisis clínico privado y reproducible.

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Esta ponencia de ECIR 2025 explora la interacción entre el conocimiento paramétrico y contextual en los modelos de lenguaje, presentando investigaciones sobre la evaluación de dichos conocimientos, la detección de conflictos internos y externos, y las características que permiten una integración efectiva del contexto.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudio presenta un marco de clasificación automatizado para la gestión de riesgos cardíacos en pacientes geriátricos que, al utilizar registros de salud electrónicos no estructurados, demuestra que una arquitectura Transformer personalizada supera a los métodos tradicionales y a los modelos de lenguaje generativos, ofreciendo una alternativa robusta a la codificación manual.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Esta investigación propone un método avanzado para estimar la similitud entre recetas combinando perspectivas semánticas, léxicas y nutricionales, validado por expertos mediante una interfaz web que demuestra un alto grado de acuerdo y ofrece aplicaciones en la industria alimentaria, dietas personalizadas y generación automatizada de recetas.

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

El artículo presenta ESAinsTOD, un marco unificado de ajuste fino de instrucciones que integra mecanismos de alineación de instrucciones y esquemas para mejorar el rendimiento, la generalización en escenarios de pocos recursos y la robustez de los modelos de diálogo orientado a tareas.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

El artículo presenta ActiveUltraFeedback, un pipeline de aprendizaje activo que utiliza estimaciones de incertidumbre y métodos novedosos como DRTS y DeltaUCB para generar datos de preferencia de alta calidad de manera eficiente, logrando un rendimiento superior en el ajuste de modelos de lenguaje con hasta seis veces menos datos anotados que los enfoques estáticos tradicionales.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

El artículo presenta Mousse, un nuevo optimizador que mejora el rendimiento de Muon al integrar la estimación estructural de Shampoo para adaptar las actualizaciones espectrales a la curvatura anisotrópica de las redes neuronales, logrando una reducción del 12% en los pasos de entrenamiento con un costo computacional insignificante.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Este artículo evalúa la eficacia de cuatro modelos de lenguaje grandes (LLM) en sistemas RAG para recuperar datos nutricionales mediante la traducción de consultas naturales a filtros de metadatos, concluyendo que aunque logran un alto rendimiento en consultas expresables, enfrentan dificultades significativas cuando las restricciones de la consulta exceden el alcance representacional de los metadatos.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

El paper introduce MUGEN, un benchmark integral que revela las limitaciones actuales de los modelos de audio-idioma en la comprensión de múltiples audios simultáneos y demuestra que estrategias de inferencia sin entrenamiento, como la autoconsistencia permutacional y el razonamiento en cadena, mejoran significativamente su rendimiento.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

El artículo presenta RbtAct, un enfoque que utiliza las réplicas de los autores como supervisión implícita para entrenar modelos de lenguaje que generan retroalimentación de revisión más concreta y accionable, validado mediante un nuevo conjunto de datos y tareas de generación segmentada.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman CohanWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

El artículo presenta EXPLORE-Bench, un nuevo benchmark basado en videos en primera persona diseñado para evaluar la capacidad de los modelos de lenguaje multimodal para predecir escenas egocéntricas tras secuencias de acciones de largo alcance, revelando una brecha significativa frente al rendimiento humano y explorando estrategias de razonamiento paso a paso para mejorar esta tarea.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

El artículo presenta FoodOntoRAG, un pipeline agnóstico que supera los métodos de ajuste fino tradicionales para el enlace de entidades alimentarias mediante un sistema de recuperación y agentes generativos, logrando una mayor precisión, interpretabilidad y robustez ante la evolución de las ontologías.

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome EftimovWed, 11 Ma💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Este artículo presenta la versión actualizada y combinada de los corpus EPIC-UdS y EuroParl-UdS, que integran discursos originales del Parlamento Europeo junto con sus traducciones e interpretaciones, corrigiendo errores y añadiendo nuevas capas de anotación para facilitar investigaciones sobre variación lingüística, traducción e interpretación desde una perspectiva teórica de la información.

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

El artículo presenta MITRA, un prototipo de asistente de IA basado en generación aumentada por recuperación (RAG) y alojado localmente para garantizar la privacidad, diseñado para facilitar la búsqueda de información en las vastas bases de datos de documentación interna de colaboraciones científicas como CMS mediante un pipeline automatizado de extracción de texto y una arquitectura de base de datos vectorial de dos niveles.

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

El artículo presenta One-Eval, un sistema agéntico que automatiza y hace trazable la evaluación de modelos de lenguaje grande mediante la conversión de solicitudes en lenguaje natural en flujos de trabajo ejecutables, integrando planificación de benchmarks, resolución automática de datos y reportes orientados a decisiones con supervisión humana.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Este trabajo propone utilizar árboles de Chow-Liu para optimizar el orden de procesamiento de fragmentos en marcos de razonamiento multiagente de contexto largo, demostrando que un recorrido en amplitud de estos árboles reduce la pérdida de información y supera a los métodos de ordenamiento convencionales en precisión y relevancia.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Este artículo propone que los modelos de lenguaje tipo n-gram predicen mejor los tiempos de lectura que los modelos transformadores modernos, ya que el tiempo de lectura es más sensible a estadísticas simples que a las complejas, y demuestra que los modelos cuyas predicciones se correlacionan más con las probabilidades n-gram son también los que mejor se alinean con las métricas de seguimiento ocular.

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL

← Anterior Siguiente →