cs.CV articoli | Gist.Science

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Il paper presenta "Self-Aug", una strategia di decoding senza addestramento che migliora la coerenza fattoriale dei Large Vision-Language Models combinando un prompting di auto-aumento dipendente dalla query con un algoritmo di soglia adattiva basato sull'entropia.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Questo lavoro propone un modello di diffusione incondizionato addestrato su dati HiRISE per ricostruire con maggiore precisione e coerenza geometrica le aree mancanti dei terreni marziani in realtà virtuale, superando le tecniche di interpolazione tradizionali.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Il paper presenta CASR-Net, una rete di deep learning innovativa basata su un'architettura UNet con encoder DenseNet121 e decoder Self-ONN, che integra una strategia di pre-elaborazione multicanale e un modulo di raffinamento per migliorare l'accurata segmentazione e il recupero delle arterie coronariche in angiografie a raggi X, superando le prestazioni degli attuali modelli avanzati.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Il paper introduce Kinematify, un framework automatizzato che sintetizza oggetti articolati ad alto grado di libertà partendo da immagini RGB o descrizioni testuali, risolvendo le sfide dell'inferenza topologica e della stima dei parametri articolari per abilitare simulazioni fisiche e pianificazione del movimento.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Il paper presenta DetGain, un metodo di curatela dei dati online specifico per la rilevazione di oggetti che stima il contributo marginale di ogni immagine alla precisione media globale per selezionare dinamicamente campioni informativi, migliorando così l'accuratezza e la robustezza dei modelli di rilevazione.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Il paper introduce PrismAudio, un framework innovativo per la generazione audio da video che risolve l'entanglement degli obiettivi tramite un ragionamento Chain-of-Thought decomposto in quattro dimensioni e un nuovo algoritmo di apprendimento per rinforzo chiamato Fast-GRPO, ottenendo prestazioni state-of-the-art su un nuovo benchmark rigoroso denominato AudioCanvas.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Il paper presenta Markov-VAR, un nuovo modello di generazione visiva autoregressiva che supera l'inefficienza computazionale della previsione a contesto completo sostituendola con una previsione di scala markoviana basata su una finestra scorrevole, ottenendo così una significativa riduzione della memoria e un miglioramento della qualità delle immagini.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Il paper presenta ALARM, un framework basato su MLLM per il rilevamento di anomalie in ambienti complessi che integra la quantificazione dell'incertezza e tecniche di garanzia della qualità per garantire decisioni affidabili e robuste in diversi domini.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Il paper propone SSMP, un nuovo metodo di predizione mascherata auto-adattiva e auto-correttiva che supera i limiti dei paradigmi esistenti generando trailer cinematografici di qualità superiore attraverso una modellazione contestuale bidirezionale e un meccanismo di correzione progressiva.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Il paper propone VGG-Flow, un metodo basato sul matching dei gradienti che sfrutta la teoria del controllo ottimo per allineare efficientemente e preservando le probabilità i modelli Flow Matching (come Stable Diffusion 3) alle preferenze umane, superando i limiti delle approcci esistenti.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Il paper presenta AVI-Edit, un framework per la modifica di istanze video sincronizzate con audio che utilizza un affinatore di maschere sensibile alla granularità e un agente audio a feedback autonomo per ottenere un controllo spaziale e temporale preciso, supportato da un nuovo dataset su larga scala.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Il paper presenta CHAMMI-75, un dataset open access di immagini microscopiche multicanale eterogenee derivato da 75 studi biologici, progettato per addestrare modelli di intelligenza artificiale adattivi ai canali che migliorano l'analisi della morfologia cellulare superando i limiti dei modelli specializzati su singoli tipi di imaging.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

Il paper presenta UniDrive-WM, un modello del mondo unificato basato su vision-language models che integra comprensione della scena, pianificazione della traiettoria e generazione di immagini future in un'unica architettura, dimostrando prestazioni superiori nel benchmark Bench2Drive grazie a un ciclo di feedback che raffina iterativamente la guida autonoma.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Questo studio dimostra che l'utilizzo di immagini a bassa risoluzione (8x8 pixel) dei caratteri cinesi come input visivi per i modelli linguistici non solo raggiunge prestazioni comparabili ai tradizionali token basati su indici, ma offre anche un significativo vantaggio nell'apprendimento iniziale rispetto ai metodi convenzionali.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Il paper presenta LGANet++, un nuovo framework di registrazione deformabile delle immagini non supervisionato che combina un meccanismo di attenzione locale-globale con la decomposizione delle immagini per superare le limitazioni dei metodi tradizionali e ottenere prestazioni superiori in scenari clinici trasversali.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Il paper presenta GraSP, un metodo unificato e trasferibile per il riconoscimento di grafi visivi basato sulla predizione di sottografi, che supera i limiti delle soluzioni specifiche per singolo compito.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit è un framework di editing video senza addestramento basato sul flusso ottico che, attraverso una strategia di divisione e conquista potenziata da due moduli chiave per la coerenza temporale, risolve le sfide computazionali e di stabilità nell'editing di video della durata di minuti.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Il paper presenta VideoTemp-o3, un framework unificato di pensiero agenziale che armonizza l'individuazione temporale e la comprensione video, risolvendo le inefficienze dei metodi attuali attraverso un meccanismo di mascheramento unificato, ricompense dedicate per il reinforcement learning e un nuovo benchmark per la valutazione su video lunghi.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Il paper presenta WristMIR, un framework di recupero di radiografie del polso pediatriche che sfrutta report radiologici strutturati e localizzazione specifica delle ossa per migliorare l'accuratezza diagnostica e la rilevanza clinica attraverso un processo di recupero a due stadi, superando le prestazioni dei modelli di base senza richiedere annotazioni manuali delle immagini.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Questo studio presenta il Garbage Dataset (GD), un benchmark pubblico di 12.259 immagini multi-classe per la segregazione automatizzata dei rifiuti, che dimostra come il modello EfficientNetV2S raggiunga il 95,13% di accuratezza pur evidenziando sfide critiche come lo sbilanciamento delle classi, la complessità dello sfondo e i compromessi ambientali nella selezione del modello.

Suman Kunwar2026-03-04💻 cs

← Precedente Successivo →