TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Il paper propone TSPC, un'architettura a due stadi incentrata sui fonemi che utilizza un set fonemico vietnamita esteso come rappresentazione intermedia per migliorare il riconoscimento del parlato code-switching vietnamita-inglese, ottenendo risultati superiori rispetto alle basi esistenti con una riduzione delle risorse computazionali necessarie.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Quadrotor Navigation using Reinforcement Learning with Privileged Information

Questo articolo presenta un metodo di navigazione per quadricotteri basato sull'apprendimento per rinforzo che, sfruttando informazioni privilegiate come le mappe del tempo di arrivo e una funzione di perdita specifica, supera le limitazioni delle tecniche precedenti nel superare grandi ostacoli, ottenendo un tasso di successo dell'86% in simulazione e validando il sistema in 20 voli reali senza collisioni.

Jonathan Lee, Abhishek Rathod, Kshitij Goel + 2 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Lo studio rivela che i modelli linguistici alla base dei sistemi SpeechLLM mostrano fragilità strutturali nell'elaborazione del discorso conversazionale, tendendo a sovracancellare contenuti fluenti a favore dell'astrazione semantica e dimostrando che la robustezza è plasmata da specifici obiettivi di addestramento piuttosto che dalla semplice scalabilità o dal fine-tuning.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Questo studio dimostra che l'apprendimento subliminale, ovvero il trasferimento di bias nascosti dai modelli insegnanti a quelli studenti durante la distillazione, non dipende dalla fuoriuscita di informazioni logit ma da un piccolo insieme di token di divergenza critici nei primi livelli del modello, la cui rimozione o modifica rende il fenomeno fragile e facilmente sopprimibile.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Il paper introduce PrefDisco, un nuovo metodo di valutazione e metrica (PrefAlign) che trasforma i benchmark statici in compiti interattivi per dimostrare come i modelli linguistici debbano sviluppare un ragionamento personalizzato proattivo, basato su domande strategiche per allinearsi alle preferenze individuali degli utenti in scenari senza dati storici, superando i limiti degli approcci attuali che trattano separatamente la risoluzione dei compiti e l'allineamento alle preferenze.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Il paper presenta OmniVideoBench, un benchmark su larga scala composto da 1000 coppie domanda-risposta con tracce di ragionamento, progettato per valutare in modo rigoroso e coerente le capacità di comprensione sinergica audio-visiva dei modelli linguistici multimodali (MLLM), evidenziando il divario significativo tra le prestazioni attuali dei modelli e il ragionamento umano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Il paper propone CBF-RL, un framework che integra le Funzioni di Barriera di Controllo (CBF) direttamente nell'addestramento del Reinforcement Learning per internalizzare i vincoli di sicurezza nella politica appresa, permettendo così un dispiegamento sicuro e robusto su robot reali senza la necessità di filtri di sicurezza in tempo reale.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs