cs.CV articoli | Gist.Science

Value Gradient Guidance for Flow Matching Alignment

Il paper propone VGG-Flow, un metodo basato sul matching dei gradienti che sfrutta la teoria del controllo ottimo per allineare efficientemente e preservando le probabilità i modelli Flow Matching (come Stable Diffusion 3) alle preferenze umane, superando i limiti delle approcci esistenti.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Il paper presenta AVI-Edit, un framework per la modifica di istanze video sincronizzate con audio che utilizza un affinatore di maschere sensibile alla granularità e un agente audio a feedback autonomo per ottenere un controllo spaziale e temporale preciso, supportato da un nuovo dataset su larga scala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Il paper presenta CHAMMI-75, un dataset open access di immagini microscopiche multicanale eterogenee derivato da 75 studi biologici, progettato per addestrare modelli di intelligenza artificiale adattivi ai canali che migliorano l'analisi della morfologia cellulare superando i limiti dei modelli specializzati su singoli tipi di imaging.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Il paper presenta UniDrive-WM, un modello del mondo unificato basato su vision-language models che integra comprensione della scena, pianificazione della traiettoria e generazione di immagini future in un'unica architettura, dimostrando prestazioni superiori nel benchmark Bench2Drive grazie a un ciclo di feedback che raffina iterativamente la guida autonoma.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Questo studio dimostra che l'utilizzo di immagini a bassa risoluzione (8x8 pixel) dei caratteri cinesi come input visivi per i modelli linguistici non solo raggiunge prestazioni comparabili ai tradizionali token basati su indici, ma offre anche un significativo vantaggio nell'apprendimento iniziale rispetto ai metodi convenzionali.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Il paper presenta LGANet++, un nuovo framework di registrazione deformabile delle immagini non supervisionato che combina un meccanismo di attenzione locale-globale con la decomposizione delle immagini per superare le limitazioni dei metodi tradizionali e ottenere prestazioni superiori in scenari clinici trasversali.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Il paper presenta GraSP, un metodo unificato e trasferibile per il riconoscimento di grafi visivi basato sulla predizione di sottografi, che supera i limiti delle soluzioni specifiche per singolo compito.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit è un framework di editing video senza addestramento basato sul flusso ottico che, attraverso una strategia di divisione e conquista potenziata da due moduli chiave per la coerenza temporale, risolve le sfide computazionali e di stabilità nell'editing di video della durata di minuti.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Questo studio presenta il Garbage Dataset (GD), un benchmark pubblico di 12.259 immagini multi-classe per la segregazione automatizzata dei rifiuti, che dimostra come il modello EfficientNetV2S raggiunga il 95,13% di accuratezza pur evidenziando sfide critiche come lo sbilanciamento delle classi, la complessità dello sfondo e i compromessi ambientali nella selezione del modello.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

Il paper propone EO-VAE, un autoencoder variazionale multi-sensore che utilizza iperreti dinamiche per codificare e ricostruire combinazioni flessibili di canali spettrali in un unico modello, superando le prestazioni dei tokenizers esistenti e fornendo una solida base per la generazione latente di dati di osservazione terrestre.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Il documento presenta MedXIAOHE, un modello fondazionale medico visivo-linguistico che, grazie a un framework di pre-addestramento continuo orientato alle entità e a tecniche di apprendimento per rinforzo, raggiunge prestazioni all'avanguardia nel ragionamento diagnostico e nella generazione di report clinici affidabili, superando i sistemi multimodali chiusi esistenti.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

Il paper presenta UniTAF, un framework modulare che unifica i modelli Text-to-Speech e Audio-to-Face per abilitare il trasferimento interno delle caratteristiche e migliorare la coerenza tra audio ed espressioni facciali, validando la fattibilità del riutilizzo delle rappresentazioni intermedie per la progettazione congiunta di voce ed espressioni.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

Il paper presenta CRAFT-LoRA, un metodo che migliora la personalizzazione della generazione di immagini bilanciando fedeltà al contenuto e coerenza stilistica attraverso un adattamento a basso rango vincolato, un'aggregazione selettiva degli adapter guidata dal prompt e uno schema di guida senza classifier addestrato, ottenendo risultati ad alta fedeltà senza necessità di riaddestramento aggiuntivo.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Il paper introduce CFE-Bench, un benchmark multimodale basato su esami universitari reali che valuta le capacità di ragionamento dei modelli linguistici in oltre 20 ambiti STEM, rivelando che, nonostante le buone prestazioni complessive, i modelli avanzati faticano a mantenere stati intermedi corretti durante soluzioni complesse e mostrano un'efficienza di passaggio inferiore rispetto alle soluzioni degli istruttori.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

Il paper introduce TraqPoint, un innovativo framework di apprendimento per rinforzo che riformula il rilevamento di punti chiave come un problema decisionale sequenziale per ottimizzare direttamente la qualità delle tracce su sequenze di immagini, superando i limiti dei metodi basati su coppie di immagini.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

Il paper propone Concept Distillation Sampling (CDS), un innovativo framework unificato e senza addestramento che supera i limiti linguistici dei metodi precedenti permettendo l'editing multi-concetto e la composizione di adattatori LoRA mantenendo la fedeltà dell'identità e i dettagli visivi complessi.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

Il paper presenta Uni-Animator, un nuovo framework basato su Diffusion Transformer che unifica la colorizzazione di schizzi sia per immagini che per video, risolvendo le sfide della precisione cromatica, della conservazione dei dettagli fisici e della coerenza temporale attraverso innovazioni come l'embedding di patch di riferimento, il rinforzo dei dettagli fisici e una codifica RoPE dinamica basata sugli schizzi.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Il paper presenta MedMAP, un framework di pre-addestramento modale-agnostico per modelli visione-linguaggio che, sfruttando il nuovo dataset MedMoM-MRI3D, supera le prestazioni degli stati dell'arte nel rilevamento di anomalie multi-organo in risonanza magnetica 3D.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

← Precedente Successivo →