Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Il paper presenta Missing-by-Design (MBD), un quadro unificato per l'analisi del sentiment multimodale revocabile che combina apprendimento di rappresentazioni strutturate e un processo di modifica dei parametri certificabile per garantire la cancellazione selettiva dei dati e la conformità alla privacy senza richiedere un addestramento completo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Il paper introduce AuditBench, un benchmark di 56 modelli linguistici con comportamenti nascosti, per valutare l'efficacia delle tecniche di audit di allineamento, rivelando un divario tra le prestazioni degli strumenti isolati e quelle degli agenti autonomi e identificando le metodologie di addestramento che rendono i modelli più difficili da analizzare.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Il paper introduce SkillCraft, un benchmark progettato per valutare la capacità degli agenti LLM di astrarre e riutilizzare composizioni di strumenti come "abilità" riutilizzabili, dimostrando che tale approccio riduce drasticamente l'uso dei token e migliora il successo nei compiti complessi.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Il paper presenta MultiGraSCCo, un benchmark multilingue di anonimizzazione in dieci lingue creato tramite traduzione neurale per superare la scarsità di dati reali, fornendo oltre 2.500 annotazioni di informazioni personali validate da professionisti medici per lo sviluppo e la verifica di sistemi di protezione della privacy.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Questo studio valuta una strategia di screening senza etichette per elettrocatalizzatori a soluzione solida complessa, dimostrando che un baseline Word2Vec leggero, che utilizza combinazioni lineari di embedding elementari derivati da testi scientifici, spesso riduce efficacemente lo spazio dei candidati mantenendo prestazioni vicine a quelle ottimali misurate.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Il paper introduce SciTaRC, un benchmark creato da esperti per valutare la capacità dei modelli di intelligenza artificiale di rispondere a domande su dati tabellari scientifici che richiedono ragionamento linguistico e calcoli complessi, evidenziando come gli attuali modelli, inclusi quelli open-weight più avanzati, falliscano significativamente a causa di un "collo di bottiglia nell'esecuzione" che compromette sia la comprensione iniziale che l'accuratezza dei calcoli.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Questo studio presenta un framework automatizzato per l'analisi tematica dei dati qualitativi clinici che, combinando la raffinazione iterativa del codice con il tracciamento completo della provenienza, supera i metodi esistenti in termini di scalabilità, riproducibilità e allineamento con le annotazioni degli esperti.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Questo articolo propone un framework di auto-consistenza consapevole della fiducia che, analizzando un singolo percorso di ragionamento, seleziona adattivamente tra un singolo o più percorsi per ridurre i costi computazionali fino all'80% mantenendo un'accuratezza comparabile.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL