cs.AI articoli | Gist.Science

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Il paper introduce UIS-Digger, un nuovo framework multi-agente e il benchmark UIS-QA per affrontare la sfida della ricerca di informazioni non indicizzate, dimostrando che un approccio proattivo di navigazione e analisi dei file può superare le prestazioni di modelli LLM più grandi su questo compito specifico.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Il paper presenta SaiVLA-0, un'architettura Vision-Language-Action ispirata al cervello umano che separa le funzioni in tre moduli (Cerebro, Ponte e Cervelletto) per ottimizzare l'efficienza computazionale, la modularità e le prestazioni nel controllo robotico, dimostrando miglioramenti significativi nei tempi di addestramento e nei tassi di successo.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Il paper presenta FoleyFlow, un nuovo metodo che allinea encoder audio-visivi tramite modellazione mascherata e utilizza un flusso condizionale dinamico per generare audio sincronizzato semanticamente e ritmicamente con i video di input, superando le prestazioni dei metodi precedenti.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Il paper propone DARC, un metodo di inferenza senza riaddestramento che affronta l'eterogeneità delle preferenze umane attraverso una codifica basata sulla robustezza distribuzionale e la gestione del rischio, riducendo così il rischio di coda e il disaccordo mantenendo al contempo una qualità media competitiva.

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Questo lavoro propone un framework di escavazione graduale della conoscenza esterna che permette ai modelli linguistici di rispondere a domande complesse implicite interrogando iterativamente fonti esterne e ragionando sui risultati, raggiungendo nuovi record di accuratezza sul dataset StrategyQA con un numero di parametri significativamente ridotto.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Questo articolo propone un nuovo approccio ibrido di deep learning spiegabile, basato su una rete 1D-CNN-GRU e tecniche di IA interpretabile, per rilevare, identificare e localizzare i guasti nei sistemi software automobilistici durante la fase di validazione, superando i limiti di trasparenza dei modelli "black-box" e facilitando l'analisi delle cause radice.

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Il paper presenta il "Condition Insight Agent", un framework di supporto alle decisioni che integra dati eterogenei e conoscenza ingegneristica per generare spiegazioni basate su evidenze e azioni consigliate nel contesto della manutenzione industriale, garantendo affidabilità attraverso un ciclo di verifica strutturato che preserva la supervisione umana.

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Il paper propone ESC, un metodo di calibrazione basato su strategie evolutive che risolve le sfide specifiche della quantizzazione a bassa precisione nei modelli di elaborazione del parlato, garantendo prestazioni quasi senza perdite fino alla quantizzazione INT4.

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

Lo studio dimostra che il ragionamento in uno spazio latente continuo supera il Chain-of-Thought esplicito, specialmente per le lingue a risorse limitate e in contesti zero-shot, offrendo al contempo una compressione dei passaggi di ragionamento fino a 50 volte più efficiente grazie alla maggiore invarianza linguistica delle rappresentazioni latenti.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

Questo studio dimostra che i modelli di dialogo vocale full-duplex end-to-end come SALM-Duplex e Moshi compromettono la privacy dell'identità del parlante attraverso le loro rappresentazioni nascoste, proponendo e validando due strategie di anonimizzazione in streaming che proteggono efficacemente i dati biometrici mantenendo una bassa latenza.

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Il documento presenta TildeOpen LLM, un modello fondazionale open-weight da 30 miliardi di parametri ottimizzato per 34 lingue europee attraverso tecniche di apprendimento curricolare e bilanciamento dei dati, che dimostra prestazioni superiori rispetto ai modelli esistenti, in particolare per le lingue baltiche, finoro-ugriche e slave, con una significativa riduzione degli errori linguistici.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Il paper propone MM-TS, un metodo che estende la programmazione della temperatura e dei margini all'apprendimento contrastivo multimodale adattandoli dinamicamente alla distribuzione dei dati a coda lunga, unificando così gli approcci InfoNCE e max-margin per ottenere risultati all'avanguardia su diversi dataset immagine-testo e video-testo.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Il paper evidenzia i limiti delle attuali metriche di benchmark per la regressione tabellare basate su foundation models, che valutano solo stime puntuali, e propone l'adozione di regole di punteggio adeguate, come il CRPS, per valutare e ottimizzare le previsioni probabilistiche, suggerendo al contempo l'uso di modelli finetunati o promptabili per gestire i diversi bias induttivi.

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Questo studio presenta due strategie di fusione multimodale, RGIF e RGMAF, che integrano allineamento spaziale e gate di affidabilità per migliorare significativamente la rilevazione di droni su dataset eterogenei termico-visivi, raggiungendo un mAP del 97,65% e una recall del 98,64%.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Questo studio estende il metodo di aggregazione adattiva AsyncFedED nell'apprendimento federale asincrono esplorando metriche di distanza alternative rispetto alla distanza euclidea per misurare la staleness dei gradienti, dimostrando che l'uso di metriche specifiche migliora la convergenza, le prestazioni e la stabilità del modello in ambienti con clienti eterogenei e dati non-IID.

Patrick Wilhelm, Odej Kao2026-03-10🤖 cs.LG

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Il paper presenta SplitAgent, un'architettura distribuita innovativa che risolve il dilemma della privacy nella collaborazione tra agenti aziendali e cloud tramite una sanificazione dinamica contestuale, garantendo un elevato livello di protezione dei dati senza compromettere l'accuratezza delle attività.

Jianshu She2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Questo lavoro presenta il primo studio sistematico sul ragionamento consapevole dell'ambiguità nei grandi modelli audio-linguistici, riformulando il riconoscimento delle emozioni come un problema distribuzionale e dimostrando miglioramenti significativi attraverso un obiettivo allineato alle distribuzioni percettive umane e una supervisione strutturata del pensiero a catena.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Questo studio analizza meccanicisticamente le vulnerabilità ai jailbreak nei modelli linguistici di grandi dimensioni, rivelando che il successo degli attacchi basati sul completamento del testo deriva dalla competizione interna tra la spinta naturale del modello a continuare il discorso e le difese di sicurezza apprese durante l'addestramento, un fenomeno identificato attraverso l'analisi delle testine di attenzione.

Yonghong Deng, Zhen Yang, Ping Jian, Xinyue Zhang, Zhongbin Guo, Chengzhi Li2026-03-10🤖 cs.LG

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Questo studio valuta l'efficacia di metodi di deep learning avanzati, inclusi transformer e modelli fondazionali, applicati all'imaging ultra-grandangolare per la diagnosi della retinopatia diabetica e dell'edema maculare diabetico, dimostrando prestazioni superiori attraverso l'analisi sia spaziale che in frequenza e tecniche di fusione delle caratteristiche.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Fibration Policy Optimization

Il documento presenta Fibration Policy Optimization (FiberPO), un quadro teorico unificato che combina un nuovo obiettivo di censura delle policy (APC-Obj) e una struttura algebrica a fascio (FBG) per ottimizzare i modelli linguistici su più scale gerarchiche, garantendo stabilità e maggiore efficienza nei token attraverso un controllo dei trust region composito.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

← Precedente Successivo →