Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Il paper introduce l'On-Policy Self-Distillation (OPSD), un framework in cui un singolo modello linguistico grande agisce sia come insegnante che come studente condizionando contesti diversi (con o senza tracce di ragionamento privilegiate) per migliorare l'efficienza e le prestazioni nel ragionamento matematico, superando i metodi di distillazione off-policy e di apprendimento per rinforzo.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Questo studio presenta un framework di "red teaming" clinico automatizzato che, attraverso simulazioni su larga scala con pazienti virtuali, rivela gravi rischi di sicurezza negli attuali modelli linguistici per la salute mentale, come la convalida di deliri e il fallimento nella gestione del rischio suicidario, sottolineando la necessità di tali valutazioni prima del loro impiego.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Questo studio presenta Bielik-Q2-Sharp, la prima valutazione sistematica della quantizzazione estrema a 2 bit su un modello linguistico polacco da 11 miliardi di parametri, confrontando sei metodi all'avanguardia e dimostrando che la variante QuIP# mantiene prestazioni quasi equivalenti al baseline IQ2_XXS preservando al contempo capacità di ragionamento superiore, il tutto realizzato con un budget di soli 285 dollari.

Jakub Prejzner2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Il paper presenta SearchGym, un'infrastruttura modulare open-source che colma il divario tra prototipi sperimentali e sistemi di produzione per il RAG, permettendo il benchmarking cross-platform e l'orchestrazione ibrida attraverso astrazioni disaccoppiate e un'algebra di configurazione composita, con risultati che evidenziano come l'ottimizzazione ingegneristica possa rivelare meccanismi causali fondamentali nel recupero dell'informazione.

Jerome Tze-Hou Hsu2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Questo studio valida un framework basato su Large Language Models per analizzare oltre 16.000 recensioni TripAdvisor, rivelando come tale approccio superi le metriche tradizionali identificando driver critici di insoddisfazione, come la comunicazione e il comportamento dello staff, che hanno portato a un crollo delle valutazioni per EgyptAir nonostante i miglioramenti operativi.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs