cs.AI articoli | Gist.Science

Towards Understanding Subliminal Learning: When and How Hidden Biases Transfer

Questo studio dimostra che l'apprendimento subliminale, ovvero il trasferimento di bias nascosti dai modelli insegnanti a quelli studenti durante la distillazione, non dipende dalla fuoriuscita di informazioni logit ma da un piccolo insieme di token di divergenza critici nei primi livelli del modello, la cui rimozione o modifica rende il fenomeno fragile e facilmente sopprimibile.

Simon Schrodi, Elias Kempf, Fazl Barez + 1 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Il paper introduce BeyondBench, un framework di valutazione resistente alla contaminazione che utilizza la generazione algoritmica dinamica di problemi matematici per testare in modo affidabile le capacità di ragionamento di oltre 100 modelli linguistici, rivelando significative carenze nelle prestazioni su compiti complessi.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Questo studio introduce un metodo innovativo per l'addestramento stabile ed efficiente di grandi modelli linguistici in formato NVFP4, combinando trasformate di Hadamard casuali, quantizzazione bidimensionale e arrotondamento stocastico, che permette di addestrare un modello da 12 miliardi di parametri su 10 trilioni di token con prestazioni comparabili alla base FP8.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Il paper introduce PrefDisco, un nuovo metodo di valutazione e metrica (PrefAlign) che trasforma i benchmark statici in compiti interattivi per dimostrare come i modelli linguistici debbano sviluppare un ragionamento personalizzato proattivo, basato su domande strategiche per allinearsi alle preferenze individuali degli utenti in scenari senza dati storici, superando i limiti degli approcci attuali che trattano separatamente la risoluzione dei compiti e l'allineamento alle preferenze.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

Il paper presenta EgoTraj-Bench, il primo benchmark real-world che allinea osservazioni storiche rumorose in prima persona con traiettorie future pulite, e propone BiFlow, un modello a doppio flusso che supera lo stato dell'arte nella previsione di traiettorie robuste in ambienti umani.

Jiayi Liu, Jiaming Zhou, Ke Ye + 3 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Il paper introduce Graph2Eval, un framework basato su grafi della conoscenza che genera automaticamente e in modo scalabile compiti multimodali affidabili per agenti AI, superando i limiti dei dataset statici e delle allucinazioni dei LLM attraverso un processo di campionamento e filtraggio strutturato.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Questo lavoro presenta SpineMed, un ecosistema co-progettato con chirurghi che include il dataset SpineMed-450k e il benchmark SpineBench, sviluppando un modello che supera le attuali limitazioni nel ragionamento livello-specifico per la diagnosi e la pianificazione chirurgica delle patologie spinali.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

MachaGrasp è un framework end-to-end basato su eigengrasp che genera articolazioni per mani destre di diverse morfologie, ottenendo un'elevata percentuale di successo nell'afferrare oggetti sia in simulazione che nel mondo reale grazie a un'architettura che integra embedding morfologici e una perdita di apprendimento cinematica.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Il paper propone GMT, un nuovo paradigma che supera i limiti delle tecniche basate sui prefissi integrando la struttura dei grafi di conoscenza direttamente nella memoria degli LLM tramite un meccanismo di cross-attention profondo e token-specifico, ottenendo così prestazioni superiori nel completamento dei grafi di conoscenza.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Il paper presenta OmniVideoBench, un benchmark su larga scala composto da 1000 coppie domanda-risposta con tracce di ragionamento, progettato per valutare in modo rigoroso e coerente le capacità di comprensione sinergica audio-visiva dei modelli linguistici multimodali (MLLM), evidenziando il divario significativo tra le prestazioni attuali dei modelli e il ragionamento umano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Il paper presenta XFactor, il primo modello auto-supervisionato senza geometria in grado di sintetizzare nuove visuali con vera trasferibilità, dimostrando che è possibile disaccoppiare la posa della telecamera dal contenuto della scena e ottenere risultati superiori rispetto ai metodi precedenti senza utilizzare induttivi 3D o concetti di geometria multi-vista.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Il paper dimostra che il fine-tuning su domini ristretti lascia tracce leggibili nelle differenze di attivazione dei modelli linguistici, permettendo di ricostruire il dominio di addestramento e rivelando che tale pratica, spesso usata come proxy per studi di sicurezza, può non riflettere realisticamente i modelli addestrati su dati più ampi.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Il paper propone CBF-RL, un framework che integra le Funzioni di Barriera di Controllo (CBF) direttamente nell'addestramento del Reinforcement Learning per internalizzare i vincoli di sicurezza nella politica appresa, permettendo così un dispiegamento sicuro e robusto su robot reali senza la necessità di filtri di sicurezza in tempo reale.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

Il paper presenta MSSR, un framework a due agenti che migliora il ragionamento spaziale nei modelli visione-linguaggio costruendo un insieme minimo e sufficiente di informazioni 3D per eliminare ridondanze e colmare lacune, ottenendo così prestazioni all'avanguardia su benchmark complessi.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Questo lavoro presenta SceneCOT, un nuovo framework che introduce il ragionamento a catena di pensiero (CoT) ancorato per i modelli linguistici su scene 3D, supportato dal primo dataset su larga scala specifico (SceneCOT-185K), ottenendo risultati superiori nel question answering con un ragionamento passo-passo simile a quello umano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

Il paper presenta Schrödinger Bridge Mamba (SBM), un modello innovativo che combina il paradigma di addestramento Schrödinger Bridge con l'architettura Mamba per ottenere un potenziamento della voce di alta qualità in un solo passo di inferenza, superando i metodi esistenti nel denoising e nella dereverberazione.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Il paper introduce GhostEI-Bench, il primo benchmark progettato per valutare la resilienza degli agenti mobili basati su modelli visione-linguaggio contro gli attacchi di iniezione ambientale in ambienti dinamici, rivelando la loro vulnerabilità critica a elementi UI manipolati e proponendo un protocollo di analisi per migliorare la sicurezza.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

Il paper presenta LLEMA, un framework unificato che combina la conoscenza scientifica dei modelli linguistici di grandi dimensioni con regole evolutive e affinamento basato sulla memoria per scoprire nuovi materiali multi-obiettivo chimicamente plausibili e termodinamicamente stabili con prestazioni superiori rispetto alle tecniche esistenti.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

Il paper presenta FMint-SDE, un modello fondazionale multimodale basato su transformer che accelera la simulazione di equazioni differenziali stocastiche correggendo gli errori dei solutori classici tramite apprendimento in contesto, ottenendo un compromesso superiore tra accuratezza ed efficienza su diversi domini scientifici.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

← Precedente Successivo →