cs.CV articoli | Gist.Science

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Il paper presenta Markov-VAR, un nuovo modello di generazione visiva autoregressiva che supera l'inefficienza computazionale della previsione a contesto completo sostituendola con una previsione di scala markoviana basata su una finestra scorrevole, ottenendo così una significativa riduzione della memoria e un miglioramento della qualità delle immagini.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Il paper presenta ALARM, un framework basato su MLLM per il rilevamento di anomalie in ambienti complessi che integra la quantificazione dell'incertezza e tecniche di garanzia della qualità per garantire decisioni affidabili e robuste in diversi domini.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Il paper propone SSMP, un nuovo metodo di predizione mascherata auto-adattiva e auto-correttiva che supera i limiti dei paradigmi esistenti generando trailer cinematografici di qualità superiore attraverso una modellazione contestuale bidirezionale e un meccanismo di correzione progressiva.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Il paper propone VGG-Flow, un metodo basato sul matching dei gradienti che sfrutta la teoria del controllo ottimo per allineare efficientemente e preservando le probabilità i modelli Flow Matching (come Stable Diffusion 3) alle preferenze umane, superando i limiti delle approcci esistenti.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Il paper presenta AVI-Edit, un framework per la modifica di istanze video sincronizzate con audio che utilizza un affinatore di maschere sensibile alla granularità e un agente audio a feedback autonomo per ottenere un controllo spaziale e temporale preciso, supportato da un nuovo dataset su larga scala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Il paper presenta CHAMMI-75, un dataset open access di immagini microscopiche multicanale eterogenee derivato da 75 studi biologici, progettato per addestrare modelli di intelligenza artificiale adattivi ai canali che migliorano l'analisi della morfologia cellulare superando i limiti dei modelli specializzati su singoli tipi di imaging.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Il paper presenta UniDrive-WM, un modello del mondo unificato basato su vision-language models che integra comprensione della scena, pianificazione della traiettoria e generazione di immagini future in un'unica architettura, dimostrando prestazioni superiori nel benchmark Bench2Drive grazie a un ciclo di feedback che raffina iterativamente la guida autonoma.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Questo studio dimostra che l'utilizzo di immagini a bassa risoluzione (8x8 pixel) dei caratteri cinesi come input visivi per i modelli linguistici non solo raggiunge prestazioni comparabili ai tradizionali token basati su indici, ma offre anche un significativo vantaggio nell'apprendimento iniziale rispetto ai metodi convenzionali.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Il paper presenta LGANet++, un nuovo framework di registrazione deformabile delle immagini non supervisionato che combina un meccanismo di attenzione locale-globale con la decomposizione delle immagini per superare le limitazioni dei metodi tradizionali e ottenere prestazioni superiori in scenari clinici trasversali.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Il paper presenta GraSP, un metodo unificato e trasferibile per il riconoscimento di grafi visivi basato sulla predizione di sottografi, che supera i limiti delle soluzioni specifiche per singolo compito.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit è un framework di editing video senza addestramento basato sul flusso ottico che, attraverso una strategia di divisione e conquista potenziata da due moduli chiave per la coerenza temporale, risolve le sfide computazionali e di stabilità nell'editing di video della durata di minuti.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Questo studio presenta il Garbage Dataset (GD), un benchmark pubblico di 12.259 immagini multi-classe per la segregazione automatizzata dei rifiuti, che dimostra come il modello EfficientNetV2S raggiunga il 95,13% di accuratezza pur evidenziando sfide critiche come lo sbilanciamento delle classi, la complessità dello sfondo e i compromessi ambientali nella selezione del modello.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

Il paper propone EO-VAE, un autoencoder variazionale multi-sensore che utilizza iperreti dinamiche per codificare e ricostruire combinazioni flessibili di canali spettrali in un unico modello, superando le prestazioni dei tokenizers esistenti e fornendo una solida base per la generazione latente di dati di osservazione terrestre.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Il documento presenta MedXIAOHE, un modello fondazionale medico visivo-linguistico che, grazie a un framework di pre-addestramento continuo orientato alle entità e a tecniche di apprendimento per rinforzo, raggiunge prestazioni all'avanguardia nel ragionamento diagnostico e nella generazione di report clinici affidabili, superando i sistemi multimodali chiusi esistenti.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Il paper presenta UniTAF, un framework modulare che unifica i modelli Text-to-Speech e Audio-to-Face per abilitare il trasferimento interno delle caratteristiche e migliorare la coerenza tra audio ed espressioni facciali, validando la fattibilità del riutilizzo delle rappresentazioni intermedie per la progettazione congiunta di voce ed espressioni.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

← Precedente Successivo →