cs.AI articoli | Gist.Science

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Il paper presenta Place-it-R1, un framework end-to-end che sfrutta il ragionamento Chain-of-Thought dei Modelli Linguistici Multimodali per guidare l'inserimento di oggetti nei video, garantendo coerenza fisica e interazione con l'ambiente attraverso un ciclo di pensiero e generazione che supera i limiti delle tecniche attuali focalizzate solo sulla fedeltà visiva.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Predictive Coding Graphs are a Superset of Feedforward Neural Networks

Il documento dimostra che i grafi di codifica predittiva costituiscono un insieme matematico sovrastante delle reti neurali feedforward, rafforzando così il loro ruolo nel machine learning moderno e la rilevanza della topologia nelle reti neurali.

Björn van Zwol2026-03-09🤖 cs.AI

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Il paper presenta VLM-RobustBench, un benchmark completo che valuta la robustezza dei modelli visione-linguaggio contro 133 tipi di perturbazioni, rivelando che le distorsioni geometriche e di ricampionamento a bassa severità compromettono le prestazioni più delle corruzioni fotometriche visivamente gravi, evidenziando la fragilità spaziale di questi modelli.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Ensemble Graph Neural Networks for Probabilistic Sea Surface Temperature Forecasting via Input Perturbations

Questo studio dimostra che l'uso di perturbazioni d'ingresso strutturate spazialmente, come il rumore di Perlin, all'interno di un ensemble di Graph Neural Networks permette di generare previsioni probabilistiche affidabili della temperatura superficiale del mare senza costi di addestramento aggiuntivi, migliorando la calibrazione dell'incertezza rispetto a perturbazioni puramente casuali.

Alejandro J. González-Santana, Giovanny A. Cuervo-Londoño, Javier Sánchez2026-03-09🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Lo studio RAPTOR dimostra che, per la rilevazione di deepfake audio, la traiettoria di pre-addestramento multilingue di modelli SSL compatti come HuBERT è più determinante della scala del modello per garantire robustezza cross-dominio e una corretta calibrazione dell'incertezza.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Il paper propone la Reflective Flow Sampling (RF-Sampling), un metodo di inferenza senza addestramento e teoricamente fondato che migliora la qualità e l'allineamento al prompt dei modelli di generazione immagini basati sul flow matching, come FLUX, dimostrando anche capacità di scaling al momento del test.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Il documento propone un framework a due stadi che combina l'apprendimento contrastivo supervisionato su alfabeti inventati con la distillazione da insegnante a studente per apprendere metriche di similarità tra sistemi di scrittura storici, permettendo sia la distinzione netta tra sistemi diversi che l'identificazione di somiglianze latenti senza richiedere relazioni evolutive verificate.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Il paper introduce CRIMSON, un nuovo framework di valutazione basato su LLM e fondato su principi clinici per i report radiologici generativi, che assegna pesi differenziati agli errori in base alla loro gravità e rilevanza clinica, dimostrando una forte allineamento con il giudizio di radiologi esperti attraverso benchmark specifici come RadJudge e RadPref.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Il paper presenta Whisper-CD, un framework di decoding contrastivo senza addestramento che riduce significativamente le allucinazioni e aumenta l'efficienza nel riconoscimento vocale a lungo termine confrontando i logit dell'audio pulito con quelli generati da perturbazioni acustiche negative.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong Shim2026-03-09🤖 cs.AI

MAPO: Mixed Advantage Policy Optimization for Long-Horizon Multi-Turn Dialogue

Il paper presenta MAPO, un algoritmo di ottimizzazione della politica senza critico che combina feedback di processo denso e un stimatore di vantaggio misto per migliorare la stabilità e le prestazioni nell'apprendimento per rinforzo di dialoghi multi-turno soggettivi a lungo termine.

Naifan Zhang, Ruihan Sun, Jinwei Su, Hengjie Yang, Zhengyuan Pan, Zhaohan Chen, Xiaofan Zhang2026-03-09🤖 cs.AI

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Il paper presenta FlashPrefill, un framework che abilita un prefilling ultra-rapido per modelli linguistici a lungo contesto attraverso la scoperta istantanea di pattern di attenzione e una soglia dinamica, ottenendo un speedup fino a 27,78x su sequenze di 256K senza degradare le prestazioni su contesti più brevi.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

Il paper introduce CoE, un framework di riepilogo multimodale senza addestramento che utilizza un Grafo Gerarchico di Eventi per guidare un ragionamento strutturato a catena, superando le limitazioni degli approcci esistenti e ottenendo prestazioni superiori su otto dataset diversi.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

Conversational Demand Response: Bidirectional Aggregator-Prosumer Coordination through Agentic AI

Questo articolo introduce la "Conversational Demand Response" (CDR), un meccanismo di coordinamento bidirezionale basato sull'intelligenza artificiale agentic che permette agli aggregatori e ai prosumer di interagire tramite linguaggio naturale, colmando il divario tra automazione scalabile e la necessità di trasparenza e controllo utente per garantire una partecipazione sostenibile.

Reda El Makroum, Sebastian Zwickl-Bernhard, Lukas Kranzl, Hans Auer2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Il paper presenta TaPD, un framework unificato e plug-and-play che utilizza la distillazione progressiva temporale-adattiva e un modulo di riempimento temporale per migliorare l'accuratezza della previsione delle traiettorie in scenari di guida autonoma con storie di osservazione variabili o estremamente brevi.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Il paper presenta GazeMoE, un nuovo framework end-to-end che utilizza un meccanismo Mixture-of-Experts su modelli visivi pre-addestrati per stimare con stato dell'arte i target dello sguardo umano integrando segnali multi-modali e affrontando lo sbilanciamento delle classi.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

Learning to Solve Orienteering Problem with Time Windows and Variable Profits

Il paper propone DeCoST, un approccio basato sull'apprendimento che risolve in modo efficiente il problema di orientamento con finestre temporali e profitti variabili decouplando le variabili discrete e continue, superando gli algoritmi attuali in qualità della soluzione e velocità di inferenza.

Songqun Gao, Zanxi Ruan, Patrick Floor, Marco Roveri, Luigi Palopoli, Daniele Fontanelli2026-03-09🤖 cs.AI

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Il paper presenta HiPP-Prune, un framework di pruning strutturato gerarchico condizionato dalle preferenze che ottimizza l'allocazione delle risorse nei modelli visione-linguaggio per bilanciare efficienza, utilità del compito e robustezza all'allucinazione, mitigando la degradazione della comprensione visiva attraverso segnali di sensibilità visiva e ottimizzazione multi-obiettivo.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Agentic retrieval-augmented reasoning reshapes collective reliability under model variability in radiology question answering

Lo studio dimostra che l'implementazione di pipeline di ragionamento agentiche con recupero di informazioni (RAG) nel campo della radiologia riduce la dispersione decisionale tra diversi modelli linguistici e ne aumenta la robustezza collettiva, suggerendo che la valutazione di tali sistemi richieda analisi complementari alla sola accuratezza per garantire l'affidabilità clinica.

Mina Farajiamiri, Jeta Sopa, Saba Afza, Lisa Adams, Felix Barajas Ordonez, Tri-Thien Nguyen, Mahshad Lotfinia, Sebastian Wind, Keno Bressem, Sven Nebelung, Daniel Truhn, Soroosh Tayebi Arasteh2026-03-09🤖 cs.AI

Looking Through Glass Box

Questo saggio presenta un'implementazione neurale della mappa cognitiva fuzzy (FHM) che utilizza la dinamica di Langevin per apprendere modelli causali, invertire i valori dei nodi di output e fornire criteri di modifica per l'ottimizzazione di servizi o prodotti, valutando le prestazioni su diversi dataset.

Alexis Kafantaris2026-03-09🤖 cs.AI

Stem: Rethinking Causal Information Flow in Sparse Attention

Il paper propone Stem, un modulo di sparsità plug-and-play che ottimizza il flusso di informazioni nelle architetture causalmente vincolate attraverso una selezione top-k dipendente dalla posizione e una metrica consapevole dell'output, riducendo così la complessità computazionale e la latenza di pre-filling mantenendo un'elevata accuratezza.

Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou2026-03-09🤖 cs.AI

← Precedente Successivo →