cs.CL articoli | Gist.Science

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

Questo studio offre ai politologi un quadro decisionale pratico per scegliere tra modelli NLP specializzati e soluzioni di fine-tuning, dimostrando che per la maggior parte delle categorie di eventi comuni i modelli generici finetunati offrono prestazioni comparabili a quelle dei modelli di dominio, rendendo la scelta dipendente dalla prevalenza delle classi, dalla tolleranza all'errore e dalle risorse disponibili.

Shreyas MeherWed, 11 Ma💬 cs.CL

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

Questo studio identifica un collasso sistematico delle teste di attenzione nei modelli BLOOM causato dalla codifica posizionale ALiBi e propone una "chirurgia" tramite riinizializzazione mirata che recupera il 98,7% della capacità operativa, dimostrando che le configurazioni pre-addestrate sono minimi locali subottimali.

Palmer SchallonWed, 11 Ma💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Il paper presenta X-GS, un framework open ed estensibile che unifica le tecniche di 3D Gaussian Splatting con modelli multimodali downstream, permettendo la creazione in tempo reale di mappe 3D semantiche da flussi video non calibrati per abilitare compiti avanzati come il rilevamento di oggetti e la generazione di didascalie.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Questo studio presenta una pipeline open-source e localmente distribuibile, basata sul modello LLM qwen2.5-72b, che estrae con alta accuratezza dati longitudinali sui tumori dai referti radiologici, garantendo privacy e riproducibilità nell'analisi clinica.

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Questo intervento all'ECIR 2025 esamina l'interazione tra la conoscenza parametrica e quella contestuale nei modelli linguistici, presentando ricerche su metodi di valutazione, test diagnostici per rilevare conflitti di conoscenza e le caratteristiche che favoriscono l'uso efficace del contesto.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Questo studio presenta un framework di classificazione automatizzata per la gestione del rischio cardiaco negli anziani, dimostrando che un'architettura Transformer personalizzata supera sia i metodi tradizionali che i modelli linguistici generici nell'analisi di lunghe storie cliniche non strutturate.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

Questa ricerca propone un metodo avanzato per stimare la similarità tra ricette integrando prospettive semantiche, lessicali e di dominio, validato attraverso un'interfaccia web con esperti che ha confermato l'efficacia dell'approccio nel supportare applicazioni come diete personalizzate e generazione automatica di ricette.

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Il paper presenta ESAinsTOD, un framework unificato end-to-end per il dialogo orientato al compito che, attraverso l'addestramento su istruzioni e meccanismi di allineamento allo schema, supera i modelli esistenti offrendo prestazioni superiori, maggiore robustezza al rumore e capacità di generalizzazione in scenari a risorse limitate.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Il paper introduce ActiveUltraFeedback, una pipeline di apprendimento attivo modulare che riduce significativamente i costi di annotazione dei dati di preferenza per l'allineamento dei modelli linguistici, ottenendo prestazioni superiori o paragonabili a quelle dei metodi statici con solo un sesto dei dati necessari.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Il paper propone Mousse, un nuovo ottimizzatore che combina la stabilità spettrale di Muon con l'adattabilità geometrica di Shampoo tramite una precondizionamento consapevole della curvatura, ottenendo una riduzione del 12% dei passi di addestramento per modelli linguistici senza sovraccarichi computazionali significativi.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Lo studio valuta l'efficacia di quattro modelli linguistici (LLM) nell'estrarre dati da un database nutrizionale tramite sistemi RAG, dimostrando che, sebbene eccellano nel tradurre query naturali in filtri strutturati per richieste semplici e moderate, incontrano difficoltà significative quando le domande implicano vincoli non esprimibili tramite i metadati disponibili.

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Il paper presenta RbtAct, un approccio che utilizza le risposte degli autori (rebuttal) come supervisione implicita per addestrare modelli linguistici a generare feedback di revisione scientifica più concreti e azionabili, supportato da un nuovo dataset e da un compito di generazione mirata.

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman CohanWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Il paper introduce EXPLORE-Bench, un nuovo benchmark basato su video in prima persona per valutare la capacità dei modelli linguistici multimodali di prevedere le conseguenze fisiche a lungo termine di azioni sequenziali in scenari egocentrici, evidenziando un significativo divario rispetto alle prestazioni umane e l'efficacia parziale del ragionamento passo-passo nel colmarlo.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

Il paper presenta FoodOntoRAG, una pipeline agnostica che risolve il problema del collegamento delle entità alimentari in condizioni di deriva ontologica mediante un approccio RAG basato su agenti, eliminando la necessità di costosi fine-tuning e garantendo decisioni interpretabili.

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome EftimovWed, 11 Ma💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

Questo articolo presenta la versione aggiornata e combinata del corpus EPIC-EuroParl-UdS, che integra discorsi originali, traduzioni e interpretazioni del Parlamento Europeo con nuove annotazioni linguistiche e indici di sorpresa, fornendo una risorsa fondamentale per la ricerca sulle differenze tra modalità parlate e scritte e per lo studio della previsione delle particelle riempitive nell'interpretazione tramite modelli linguistici.

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Il paper presenta MITRA, un assistente AI basato su Retrieval-Augmented Generation (RAG) ospitato on-premise per le collaborazioni scientifiche come CMS, che utilizza un'architettura a due livelli e tecniche di estrazione avanzate per recuperare in modo sicuro ed efficiente informazioni da vasti corpus di documentazione interna.

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Il paper presenta One-Eval, un sistema agentic che automatizza la valutazione dei grandi modelli linguistici trasformando richieste in linguaggio naturale in flussi di lavoro eseguibili, tracciabili e personalizzabili, riducendo lo sforzo manuale e migliorando la riproducibilità nei contesti industriali.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Questo lavoro propone l'utilizzo degli alberi di Chow-Liu per determinare un ordinamento ottimale dei chunk nei framework di ragionamento multi-agente a catena, riducendo la perdita di informazioni e migliorando significativamente l'accuratezza nella risoluzione di query con contesti estesi rispetto alle strategie di ordinamento tradizionali.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Questo studio dimostra che i modelli linguistici le cui previsioni si allineano maggiormente alle statistiche n-gram sono anche quelli che meglio predicono i tempi di lettura, suggerendo che tale metrica è sensibile a pattern statistici semplici piuttosto che alla complessità dei moderni modelli transformer.

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL

← Precedente Successivo →