Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Il paper introduce BRTR, un framework agentic multimodale che supera i limiti delle attuali tecniche di recupero per l'analisi e la modifica di fogli di calcolo aziendali complessi, sostituendo il recupero in un'unica passata con un ciclo iterativo di chiamate agli strumenti e ottenendo prestazioni all'avanguardia su diversi benchmark.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul2026-03-09💬 cs.CL

Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Questo articolo presenta un framework di riconoscimento automatico del parlato multilingue che integra modelli pre-addestrati congelati con un meccanismo di allineamento contrastivo per fondere efficacemente le rappresentazioni audio e contestuali, migliorando significativamente la precisione della trascrizione su oltre 1.500 ore di conversazioni reali in 11 lingue e 5 dialetti inglesi.

Yuchen Zhang, Haralambos Mouratidis, Ravi Shekhar2026-03-09💬 cs.CL

KCLarity at SemEval-2026 Task 6: Encoder and Zero-Shot Approaches to Political Evasion Detection

Questo documento descrive la partecipazione del team KCLarity a SemEval-2026 Task 6, confrontando approcci encoder e zero-shot per il rilevamento dell'evasione politica e dimostrando che, sebbene le due formulazioni di modellazione offrano prestazioni simili, RoBERTa-large eccelle sul set di test pubblico mentre GPT-5.2 in modalità zero-shot generalizza meglio sul set di valutazione nascosto.

Archie Sage, Salvatore Greco2026-03-09💬 cs.CL

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Questo paper propone un framework di generazione potenziata dalla logica (LAG) che combina grafi di conoscenza semantica ed euristiche di prompt per migliorare il ragionamento analogico multimodale, dimostrando prestazioni superiori rispetto ai baselines e agli umani in compiti di rilevamento e comprensione di metafore, sebbene con limitazioni residue nelle metafore specifiche di dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

Questo lavoro presenta un approccio semi-automatico basato su LLM e grafi della conoscenza per valutare l'accuratezza scientifica degli articoli sul cambiamento climatico, evidenziando come, sebbene lo strumento offra indicazioni utili sulla veridicità, l'attuale insufficienza delle basi di conoscenza e la mancanza di scalabilità richiedano futuri sviluppi verso standard FAIR per supportare efficacemente il discorso civico.

Tim Wittenborg, Constantin Sebastian Tremel, Markus Stocker + 1 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Il paper presenta ShIOEnv, un ambiente Bash basato su Gymnasium che, sfruttando la sintesi vincolata alla grammatica e un segnale di irreducibilità auto-supervisionato, genera un dataset di 2,1 milioni di coppie input-output per migliorare l'accuratezza dei modelli nel prevedere il comportamento di esecuzione dei comandi rispetto alle basi di riferimento senza esecuzione.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Il paper introduce EDINET-Bench, un benchmark open-source giapponese basato su dieci anni di relazioni annuali per valutare le capacità di ragionamento esperto dei modelli linguistici su compiti finanziari complessi come il rilevamento delle frodi, dimostrando che gli attuali LLM faticano a superare le prestazioni di modelli statistici semplici e sottolineando la necessità di framework di valutazione più strutturati che simulino l'ambiente professionale reale.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

Il paper presenta "La Leaderboard", il primo leaderboard open-source e guidato dalla comunità per valutare i modelli linguistici generativi nelle diverse varietà linguistiche della Spagna e dell'America Latina, fornendo al contempo una metodologia per ridurre l'impatto ambientale e favorire la riproducibilità.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs