Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Il paper introduce WBC, un nuovo metodo di attacco per l'inferenza di appartenenza che supera i limiti delle tecniche globali analizzando segnali localizzati tramite finestre scorrevoli, dimostrando così una maggiore efficacia nel rilevare i dati di addestramento memorizzati nei modelli linguistici su larga scala.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Il paper propone un nuovo framework end-to-end per il riconoscimento visivo-uditivo del parlato che, eliminando la necessità di maschere esplicita per la rimozione del rumore, utilizza un modulo di fusione basato su Conformer per migliorare implicitamente le caratteristiche audio tramite quelle video, ottenendo prestazioni superiori rispetto ai metodi esistenti in condizioni rumorose.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei Yin2026-03-09🤖 cs.AI

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Il paper presenta SpatialMem, un sistema basato sulla memoria che utilizza un'impalcatura spaziale metrica allineata per abilitare il recupero e la risposta a domande linguistiche su video egocentrici a lungo termine, permettendo un ragionamento spaziale interpretabile e una navigazione offline senza l'uso di sensori specializzati.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Il documento presenta una serie di studi caso che dimostrano come la collaborazione con modelli AI avanzati come Gemini abbia accelerato la ricerca scientifica in ambiti teorici, fornendo tecniche comuni per l'interazione uomo-macchina e evidenziando il potenziale dell'AI come vero partner nella scoperta scientifica.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Uncertainty Quantification in LLM Agents: Foundations, Emerging Challenges, and Opportunities

Questo articolo propone un nuovo quadro concettuale per la quantificazione dell'incertezza negli agenti LLM, identificando le basi teoriche, le sfide tecniche specifiche degli ambienti interattivi e le direzioni future necessarie per garantire la sicurezza nelle applicazioni complesse.

Changdae Oh, Seongheon Park, To Eun Kim, Jiatong Li, Wendi Li, Samuel Yeh, Xuefeng Du, Hamed Hassani, Paul Bogdan, Dawn Song, Sharon Li2026-03-09🤖 cs.AI

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Questo studio evidenzia la necessità di passare dalle spiegazioni basate sull'attribuzione delle caratteristiche, efficaci per i modelli statici, a diagnosi basate sulle tracce di esecuzione per i sistemi AI agentic, dimostrando che l'incoerenza nel tracciamento dello stato è una causa primaria di fallimento nei percorsi decisionali multi-step.

Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Il paper presenta Aletheia, un agente di ricerca matematica autonomo basato su modelli avanzati e scaling dell'inferenza, capace di generare, verificare e revisionare soluzioni end-to-end per problemi che spaziano dalle Olimpiadi Matematiche alla ricerca di livello PhD, dimostrando risultati significativi come la produzione autonoma di articoli scientifici e la risoluzione di problemi aperti.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

Why Human Guidance Matters in Collaborative Vibe Coding

Questo studio dimostra che, sebbene la "vibe coding" permetta di generare codice tramite istruzioni in linguaggio naturale, la guida umana rimane essenziale per fornire istruzioni efficaci e prevenire il fallimento delle prestazioni, risultando in un sistema ibrido ottimale quando gli umani dirigono il processo e l'AI si occupa della valutazione.

Haoyu Hu, Raja Marjieh, Katherine M Collins, Chenyi Li, Thomas L. Griffiths, Ilia Sucholutsky, Nori Jacoby2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Il paper presenta DataChef-32B, un sistema basato su apprendimento per rinforzo che automatizza la generazione end-to-end di "ricette" ottimali per l'adattamento dei modelli linguistici su larga scala, ottenendo prestazioni competitive rispetto agli esperti umani e superando i checkpoint ufficiali in compiti specifici come la matematica.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Il paper presenta SWE-MiniSandbox, un metodo leggero e privo di container che utilizza meccanismi a livello di kernel e tecniche di pre-caching per abilitare l'addestramento scalabile di agenti di ingegneria software tramite reinforcement learning, riducendo drasticamente l'uso del disco e i tempi di preparazione dell'ambiente rispetto alle pipeline basate su container.

Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Questo studio critico smaschera l'illusione della "verità fondamentale" nell'annotazione dei dati, rivelando come la ricerca forzata del consenso nasconda il disaccordo umano come segnale sociotecnico vitale e proponga infrastrutture di annotazione pluraliste che valorizzino la diversità delle esperienze invece di imporre norme occidentali come verità assolute.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

An Adaptive Model Selection Framework for Demand Forecasting under Horizon-Induced Degradation to Support Business Strategy and Operations

Questo studio presenta AHSIV, un framework di selezione dei modelli adattivo e consapevole dell'orizzonte temporale che risolve l'instabilità nella classificazione delle previsioni di domanda in ambienti caratterizzati da intermittenza e variabilità, offrendo una soluzione coerente per supportare strategie aziendali e operazioni multi-SKU.

Adolfo González, Víctor Parada2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Il paper presenta IntelliAsk, un modello addestrato tramite ottimizzazione basata sul rinforzo (RLVR) e un nuovo sistema di ricompensa (IntelliReward) per generare domande di revisione accademica più sostanziali, basate su evidenze e approfondite, superando le capacità dei modelli LLM attuali e dimostrando miglioramenti anche in compiti di ragionamento e scrittura.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI