cs.AI articoli | Gist.Science

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

Il lavoro presenta SketchGraphNet, un'architettura ibrida memory-efficient per il riconoscimento di schizzi su larga scala che modella direttamente i disegni a mano libera come grafi strutturati, ottenendo prestazioni elevate sul nuovo benchmark SketchGraph composto da 3,44 milioni di campioni.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

Il paper propone un nuovo framework pre-addestrato basato sulle dinamiche neurali che supera i limiti dei metodi tradizionali per costruire reti funzionali cerebrali personalizzate, ottenendo prestazioni superiori in scenari eterogenei attraverso una parcellazione e una stima delle correlazioni adattive.

Hongjie Jiang, Yifei Tang, Shuqiang Wang2026-03-10🤖 cs.LG

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Il paper introduce UniLongGen, una strategia di inferenza senza addestramento che risolve il collasso della qualità nella generazione di immagini intercalate a lungo termine curando dinamicamente la memoria del modello per eliminare i segnali visivi interferenti, garantendo così stabilità e coerenza nelle narrazioni estese.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Il paper presenta DreamSAC, un framework che combina un'espansione esplorativa basata sulla simmetria e un modello del mondo hamiltoniano per apprendere leggi fisiche invarianti, permettendo così un'eccezionale generalizzazione estrattiva in simulazioni fisiche 3D.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

Il paper presenta COOL-MC, uno strumento che verifica e spiega le politiche di apprendimento per rinforzo (RL) per la manutenzione di reti di ponti multipli, utilizzando il model checking probabilistico e l'analisi dell'interpretabilità per identificare violazioni di sicurezza e bias sistematici in un ambiente simulato.

Dennis Gross2026-03-10🤖 cs.LG

Learning-free L2-Accented Speech Generation using Phonological Rules

Il paper propone un framework di sintesi vocale senza apprendimento che applica regole fonologiche a un modello TTS multilingue per generare automaticamente accenti (come spagnolo e indiano) nell'inglese parlato senza richiedere dati di addestramento specifici.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Questo lavoro introduce un nuovo framework di avvelenamento mirato per la sintesi vocale zero-shot (SGSP) che modifica i modelli TTS per impedire la generazione di identità vocali specifiche, valutando il compromesso tra privacy e utilità e dimostrando efficacia fino a 15 speaker prima di incontrare limiti di scalabilità.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Questo lavoro introduce "Nwāchā Munā", un nuovo corpus di parlato in Devanagari di 5,39 ore per la lingua Nepal Bhasha, e dimostra che il trasferimento prossimale da una lingua adiacente come il Nepalese può raggiungere prestazioni di riconoscimento vocale paragonabili a modelli multilingue su larga scala, offrendo una soluzione efficiente per le risorse limitate.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Il paper propone GRD-Net, un nuovo approccio basato su GAN e attenzione alle regioni di interesse per la rilevazione e localizzazione di anomalie superficiali in contesti industriali, che supera i limiti dei metodi tradizionali riducendo la dipendenza da algoritmi di post-processing e migliorando la generalizzazione su dataset reali e sintetici.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Questo articolo presenta un confronto sistematico di quattro obiettivi di addestramento per il rilevamento di dati fuori distribuzione nella classificazione di immagini, rivelando che la Cross-Entropy Loss offre le prestazioni più coerenti sia per i dati vicini che lontani dalla distribuzione rispetto ad altre funzioni di perdita.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Questo lavoro presenta un framework semi-supervisionato di rilevamento delle anomalie basato su un'architettura generativa avversaria con autoencoder residuo, progettato per l'implementazione online su una linea industriale ad alta velocità Blow-Fill-Seal nel settore farmaceutico, garantendo alta accuratezza e rispetto dei vincoli temporali utilizzando esclusivamente campioni nominali per l'addestramento.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression

Il paper propone DSS-GRPO, un metodo di apprendimento per rinforzo che scala la difficoltà e separa i segnali di apprendimento tra ragionamento e risposta per comprimere le tracce di Chain-of-Thought senza compromettere la qualità della soluzione finale.

Ye Tian, Aijun Liu2026-03-10🤖 cs.LG

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

Il paper presenta SMAT, un metodo di training multi-agente a stadi che simula l'adattamento umano per sviluppare un controller per esoscheletri dell'anca capace di ridurre l'attivazione muscolare e fornire assistenza meccanica positiva in modo coerente su diversi soggetti senza necessità di riaddestramento specifico.

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Il paper presenta una pipeline di generazione di dati sintetici basata su un Digital Twin dell'Aeroporto Internazionale di Algeri che, combinata con una ridotta quantità di annotazioni reali, permette di addestrare modelli di rilevamento dei carrelli bagagli con prestazioni pari o superiori all'uso esclusivo di dati reali, riducendo al contempo lo sforzo di annotazione del 25-35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Il paper presenta AtomicVLA, un framework unificato di pianificazione ed esecuzione che supera i limiti dei modelli VLA esistenti per compiti robotici a lungo raggio e apprendimento continuo, grazie a una libreria di abilità atomiche scalabile gestita da un mix di esperti guidato dalle competenze (SG-MoE) e a un codificatore di routing flessibile.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Il paper presenta Ref-DGS, un nuovo framework di Dual Gaussian Splatting che risolve il compromesso tra accuratezza e efficienza nella ricostruzione di superfici riflettenti e nella sintesi di nuove viste, decoupling la geometria dalle riflessioni speculari tramite una rappresentazione duale di Gaussiane e un shader adattivo, ottenendo prestazioni all'avanguardia senza costosi calcoli di ray tracing.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Gli autori hanno sviluppato un metodo basato sull'intelligenza artificiale, che combina un autoencoder variazionale a miscela gaussiana con il coefficiente di correlazione di Pearson, per analizzare dati iperspettrali STXM sparsi e mappare con risoluzione nanometrica l'eterogeneità di fase e la distribuzione del sodio nelle particelle di catodo NaxV2(PO4)2F3 durante il ciclo di carica e scarica.

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

Questo lavoro offre una panoramica strutturata sui meccanismi, le valutazioni e le frontiere emergenti della memoria negli agenti LLM autonomi, proponendo una tassonomia tridimensionale e analizzando cinque famiglie di meccanismi, sfide ingegneristiche e applicazioni pratiche fino al 2026.

Pengfei Du2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Il paper propone CDA-VSR, una rete per la super-risoluzione video online che sfrutta informazioni del dominio compresso (vettori di movimento, mappe residue e tipi di frame) per bilanciare qualità ed efficienza, ottenendo su REDS4 una velocità di inferenza più che doppia rispetto allo stato dell'arte con un lieve miglioramento della qualità.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Il paper introduce TDM-R1, un nuovo paradigma di apprendimento per rinforzo che, disaccoppiando l'apprendimento della ricompensa da quello del generatore e gestendo segnali non differenziabili, migliora significativamente le prestazioni dei modelli generativi a pochi passi come TDM e Z-Image.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

← Precedente Successivo →