cs.AI articoli | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

Lo studio dimostra che il fine-tuning LoRA del backbone LLM Qwen-0.5B, se supportato da dati di addestramento sufficientemente diversificati, migliora significativamente la coerenza vocale, la fedeltà del parlante e il rapporto segnale-rumore nei sistemi TTS rispetto ai modelli congelati.

Anupam Purwar, Aditya Choudhary2026-03-12🤖 cs.AI

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Questo paper introduce il "Historical Consensus Training", un metodo iterativo che seleziona prior a miscela gaussiana per eliminare definitivamente il collasso posteriore nei VAE, garantendo rappresentazioni informative senza richiedere condizioni di stabilità esplicite o vincoli architetturali.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Safe RLHF Beyond Expectation: Stochastic Dominance for Universal Spectral Risk Control

Il paper propone RAD, un nuovo framework di allineamento per l'apprendimento per rinforzo sicuro che sostituisce i vincoli di costo atteso con vincoli di dominanza stocastica di primo ordine, permettendo un controllo universale dei rischi di coda e delle prestazioni su distribuzioni fuori dal dominio attraverso un'ottimizzazione differenziabile basata sul trasporto ottimo.

Yaswanth Chittepu, Ativ Joshi, Rajarshi Bhattacharjee, Scott Niekum2026-03-12🤖 cs.LG

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Il paper propone CCGE, un metodo di esplorazione guidato dalla copertura dei contatti che, incentivando la scoperta di nuovi pattern di interazione tra dita e oggetti, migliora significativamente l'efficienza dell'addestramento e il successo nei compiti di manipolazione destriosa, permettendo un trasferimento efficace verso sistemi robotici reali.

Zixuan Liu, Ruoyi Qiao, Chenrui Tie, Xuanwei Liu, Yunfan Lou, Chongkai Gao, Zhixuan Xu, Lin Shao2026-03-12🤖 cs.AI

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Il paper presenta GroundCount, un framework che integra modelli di rilevamento oggetti (ODM) con modelli visione-linguaggio (VLM) per fornire un ancoraggio spaziale esplicito, riducendo significativamente le allucinazioni nel conteggio e migliorando l'accuratezza attraverso strategie di prompting che superano la fusione implicita delle feature.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique2026-03-12🤖 cs.AI

Artificial Intelligence as a Catalyst for Innovation in Software Engineering

Questo articolo esamina come l'intelligenza artificiale, in particolare attraverso l'apprendimento automatico e l'elaborazione del linguaggio naturale, agisca da catalizzatore per l'innovazione nell'ingegneria del software, ottimizzando le pratiche Agile e automatizzando compiti ripetitivi per migliorare qualità, velocità e adattabilità.

Carlos Alberto Fernández-y-Fernández, Jorge R. Aguilar-Cisneros2026-03-12🤖 cs.AI

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Questo articolo analizza le sfide metodologiche e le soluzioni pratiche per gli studi di miglioramento umano condotti con l'IA di frontiera, evidenziando come la rapida evoluzione di questi sistemi comprometta le assunzioni di validità degli studi controllati randomizzati (RCT) e offra indicazioni per un utilizzo appropriato di tali evidenze nelle decisioni ad alto rischio.

Patricia Paskov, Kevin Wei, Shen Zhou Hong, Dan Bateyko, Xavier Roberts-Gaal, Carson Ezell, Gailius Praninskas, Valerie Chen, Umang Bhatt, Ella Guest2026-03-12🤖 cs.AI

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Attraverso una collaborazione interdisciplinare tra informatici e storici dell'arte, questo studio analizza i meccanismi con cui i modelli linguistici-visivi riconoscono lo stile artistico, rivelando che la maggior parte dei concetti da essi utilizzati per le previsioni è considerata coerente e rilevante dagli esperti umani.

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud, Amith Ananthram, Tim Trombley, Elias Stengel-Eskin, Mohit Bansal, Noam M. Elcott, Kathleen McKeown2026-03-12🤖 cs.AI

Instruction set for the representation of graphs

Il paper presenta IsalGraph, un metodo che codifica la struttura di qualsiasi grafo finito e semplice in una stringa compatta e isomorfismo-invariante tramite un alfabeto di nove istruzioni, dimostrando che la distanza di Levenshtein tra queste stringhe si correla fortemente con la distanza di modifica dei grafi (GED) e rendendole adatte a ricerche di similarità, generazione e modellazione linguistica.

Ezequiel Lopez-Rubio, Mario Pascual-Gonzalez2026-03-12💬 cs.CL

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Il paper presenta V2M-Zero, un approccio di generazione zero-shot che allinea temporalmente la musica al video sfruttando le curve di eventi temporali calcolate indipendentemente per ciascuna modalità, ottenendo risultati superiori rispetto ai metodi basati su dati accoppiati senza richiedere training incrociato.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan2026-03-12🤖 cs.AI

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Il paper presenta NeFTY, un framework di fisica differenziabile che utilizza campi neurali per ricostruire con precisione le proprietà materiali 3D e localizzare difetti sotterranei analizzando misurazioni termiche superficiali transitorie, superando i limiti dei metodi tradizionali e delle PINN a vincoli morbidi.

Tao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette2026-03-12🔬 cond-mat.mtrl-sci

LiTo: Surface Light Field Tokenization

Il paper "LiTo" propone una rappresentazione latente 3D unificata che, tokenizzando campi luminosi superficiali da immagini RGB-profondità, permette di modellare congiuntamente geometria e aspetto dipendente dalla vista, generando oggetti 3D realistici con effetti speculari e riflessi coerenti con l'immagine di input.

Jen-Hao Rick Chang, Xiaoming Zhao, Dorian Chan, Oncel Tuzel2026-03-12🤖 cs.AI

COMIC: Agentic Sketch Comedy Generation

Il paper presenta COMIC, un sistema AI completamente automatizzato che genera video comici brevi imitando gli sketch show, utilizzando una popolazione di agenti ispirati ai ruoli di produzione e critici LLM allineati alle preferenze del pubblico per ottimizzare la qualità e la diversità degli output.

Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz2026-03-12💬 cs.CL

SDR-GAIN: A High Real-Time Occluded Pedestrian Pose Completion Method for Autonomous Driving

Il documento presenta SDR-GAIN, un metodo in tempo reale basato su reti generative avversarie che ricostruisce con precisione le pose dei pedoni occlusi nel contesto della guida autonoma, superando le tecniche tradizionali sia in accuratezza che in velocità di inferenza.

Honghao Fu, Yongli Gu, Yidong Yan + 3 more2026-03-11🤖 cs.AI

A Temporal-Spectral Fusion Transformer with Subject-Specific Adapter for Enhancing RSVP-BCI Decoding

Il paper propone il TSformer-SA, un modello basato su Transformer che fusione temporale e spettrale con adattatori specifici per soggetto, al fine di migliorare la decodifica delle interfacce cervello-computer RSVP riducendo la dipendenza da grandi quantità di dati di addestramento per nuovi utenti.

Xujin Li, Wei Wei, Shuang Qiu + 1 more2026-03-11🤖 cs.AI

PnLCalib: Sports Field Registration via Points and Lines Optimization

Il paper propone PnLCalib, un metodo di calibrazione della camera basato sull'ottimizzazione di punti e linee che supera le limitazioni dei metodi tradizionali per la registrazione dei campi sportivi in video broadcast, dimostrando maggiore robustezza e precisione su dataset reali come SoccerNet-Calibration e WorldCup 2014.

Marc Gutiérrez-Pérez, Antonio Agudo2026-03-11🤖 cs.AI

DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild

Il paper presenta DP-IQA, un metodo innovativo per la valutazione della qualità delle immagini senza riferimento che sfrutta le conoscenze a priori di modelli di diffusione pre-addestrati, distillandole in un modello leggero per ottenere prestazioni all'avanguardia e una forte capacità di generalizzazione su dati reali.

Honghao Fu, Yufei Wang, Wenhan Yang + 2 more2026-03-11🤖 cs.AI

Dance of the ADS: Orchestrating Failures through Historically-Informed Scenario Fuzzing

Questo paper presenta ScenarioFuzz, un metodo innovativo di fuzz testing basato su scenari storici e reti neurali che, senza ricorrere a scenari predefiniti, riduce i costi temporali del 60,3% e raddoppia la scoperta di errori, identificando 54 categorie di scenari ad alto rischio e 58 bug in sei sistemi di guida autonoma.

Tong Wang, Taotao Gu, Huan Deng + 3 more2026-03-11🤖 cs.AI

Multi-agent Assessment with QoS Enhancement for HD Map Updates in a Vehicular Network

Questo articolo propone e valuta un approccio di apprendimento per rinforzo multi-agente basato su Q-learning per ottimizzare gli aggiornamenti delle mappe ad alta definizione nelle reti veicolari, riducendo il carico computazionale rispetto alle soluzioni single-agent e migliorando significativamente la latenza per vari servizi di rete.

Jeffrey Redondo, Nauman Aslam, Juan Zhang + 1 more2026-03-11🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Il paper propone CoHet, un algoritmo di apprendimento per rinforzo multi-agente decentralizzato che utilizza una ricompensa intrinseca basata su Reti Neurali su Grafi per migliorare la cooperazione tra agenti eterogenei in ambienti con osservabilità parziale e segnali di reward radi, ottenendo prestazioni superiori rispetto allo stato dell'arte.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan2026-03-11🤖 cs.AI

← Precedente Successivo →