cs.CV articoli | Gist.Science

Investigating Disability Representations in Text-to-Image Models

Questo studio esamina le rappresentazioni delle persone con disabilità nei modelli di generazione di immagini da testo come Stable Diffusion XL e DALL-E 3, rivelando persistenti squilibri rappresentativi e sottolineando la necessità di strategie di mitigazione e valutazioni continue per promuovere ritratti più inclusivi.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Il paper introduce RFDM, un modello di editing video causale ed efficiente che, adattando un modello di diffusione immagine-immagine per prevedere i residui tra i frame, permette la modifica di video a lunghezza variabile con un costo computazionale paragonabile a quello dei modelli 2D, superando i metodi basati su immagini e competendo con quelli spazio-temporali 3D.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Lo studio dimostra che, sebbene i modelli di ricostruzione 3D da singola slice falliscano nel generare volumi accurati a causa dell'ambiguità di profondità, SAM3D si distingue per la migliore preservazione della topologia anatomica rispetto ad altri modelli, evidenziando la necessità di adattamenti specifici per il dominio medico.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Il paper presenta EchoTorrent, un nuovo schema che combina formazione multi-insegnante, calibrazione adattiva CFG, forzatura ibrida della coda e affinamento del decodificatore VAE per abilitare la generazione video multimodale in streaming ad alta velocità, garantendo stabilità temporale, sincronizzazione labiale e conservazione dell'identità senza compromessi tra efficienza e qualità.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Il paper presenta GPEReg-Net, un metodo di registrazione di immagini cross-dominio privo di deformazioni che, scomponendo le immagini in rappresentazioni invarianti al dominio e statistiche globali e sfruttando un meccanismo di attenzione temporale codificata per la coerenza sequenziale, raggiunge prestazioni all'avanguardia su benchmark retinici e sintetici superando i metodi basati su campi di deformazione.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

OmniCT è un modello LVLM unificato per l'analisi delle immagini TC che supera le limitazioni dei metodi esistenti integrando la comprensione sia delle singole fette che del volume tridimensionale attraverso meccanismi di coerenza spaziale e semantica, offrendo al contempo un nuovo dataset di benchmark per la valutazione clinica.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Il paper presenta Prefer-DAS, un modello innovativo per la segmentazione adattiva di domini in microscopia elettronica che, sfruttando prompt sparsi e preferenze locali umane tramite ottimizzazione diretta, supera i metodi esistenti offrendo prestazioni superiori sia in modalità interattiva che automatica.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Il paper presenta Hepato-LLaVA, un modello linguistico multimodale specializzato che utilizza un nuovo meccanismo di attenzione "Sparse Topo-Pack" e un dataset clinico di 33.000 coppie domanda-risposta per analizzare con precisione le immagini intere dei vetrini nel contesto del carcinoma epatocellulare, superando le prestazioni degli attuali metodi.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Questo articolo presenta un nuovo metodo di spiegazione per i modelli di segmentazione delle immagini mediche basato sul ragionamento causale e sull'effetto medio di trattamento (ATE), che supera le tecniche esistenti fornendo spiegazioni più fedeli e rivelando significative eterogeneità nelle strategie percettive dei diversi modelli.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

Il paper propone il Dataset Color Quantization (DCQ), un framework unificato che comprime i dataset di immagini riducendo la ridondanza cromatica e preservando le informazioni semantiche essenziali per l'addestramento dei modelli, ottenendo così significativi risparmi di spazio senza compromettere le prestazioni.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Questo lavoro presenta VII, un framework di jailbreaking senza addestramento che sfrutta istruzioni visive in immagini di riferimento per aggirare le misure di sicurezza dei modelli di generazione video da immagine, ottenendo tassi di successo elevati su diversi sistemi commerciali.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

Il paper introduce HorizonForge, un framework unificato che combina Gaussian Splats, Mesh e diffusione video per generare scene di guida fotorealistiche e controllabili con qualsiasi traiettoria e veicolo, superando gli stati dell'arte esistenti in termini di fedeltà visiva e coerenza temporale.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

Il lavoro propone le mappe di interazione luce-geometria (LGI), una nuova rappresentazione che, integrando informazioni geometriche derivate da mappe di profondità monoculare in un modello generativo, permette la generazione congiunta di ombre e il rilighting in modo fisicamente coerente, superando le limitazioni dei metodi precedenti che trattano questi compiti separatamente.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

Il paper presenta PhotoAgent, un sistema autonomo per la modifica fotografica che utilizza la pianificazione estetica esplicita e la ricerca ad albero per decomporre e sequenziare le azioni di editing senza richiedere prompt utente passo-passo, supportato dal nuovo benchmark UGC-Edit per la valutazione estetica.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

Il paper introduce OmniGAIA, un benchmark per valutare agenti AI multimodali nativi, e OmniAtlas, un agente fondazionale che integra ragionamento, percezione attiva e uso di strumenti su video, audio e immagini per colmare il divario verso assistenti AI generali.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

Il paper presenta HELMLAB, uno spazio colore analitico basato sui dati con 72 parametri progettato per i sistemi di design UI, che supera le prestazioni di CIEDE2000 nella misurazione delle distanze percettive garantendo al contempo invertibilità matematica e strumenti pratici per l'adattamento ai temi chiaro/scuro.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Il paper introduce AgentVista, un benchmark progettato per valutare agenti multimodali in scenari realistici e complessi che richiedono ragionamento visivo e uso ibrido di strumenti su più turni, evidenziando le attuali limitazioni dei modelli più avanzati nel gestire compiti a lungo raggio.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

Il paper presenta V-MORALS, un metodo che utilizza grafi di Morse derivati da dati visivi per stimare le regioni di attrazione in uno spazio latente appreso, permettendo l'analisi di sicurezza nei sistemi robotici senza richiedere la conoscenza completa dello stato.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

Gli autori propongono HMKGN, una rete neurale a grafo gerarchico multi-scala e consapevole della conoscenza che modella le relazioni spaziali e le interazioni multi-scala nelle immagini intere di vetrino per migliorare l'analisi prognostica della sopravvivenza nel cancro, superando le prestazioni dei modelli MIL esistenti su quattro coorti TCGA.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

Il paper presenta AoE, un sistema di raccolta dati a basso costo e scalabile che sfrutta smartphone indossati al collo e un'architettura cloud-edge per generare dati interattivi egocentrici di alta qualità, fondamentali per migliorare la generalizzazione dei modelli di intelligenza artificiale incarnata nel mondo reale.

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

← Precedente Successivo →