cs.CV articoli | Gist.Science

Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Il lavoro presenta Dyslexify, un metodo di difesa senza riaddestramento per i modelli CLIP che, identificando e disattivando selettivamente i circuiti attentivi responsabili dell'estrazione di informazioni tipografiche, protegge efficacemente da attacchi basati sul testo mantenendo al contempo le prestazioni standard.

Lorenz Hufe, Constantin Venhoff, Erblina Purelku + 3 more2026-02-27🤖 cs.AI

Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

Questo articolo presenta un nuovo metodo di costruzione di dataset multimodali adattivo e orientato alle immagini per scenari di sicurezza reali, che genera automaticamente 35.000 coppie immagine-testo con risposte guida e introduce una metrica standardizzata per valutarne l'efficacia.

Jingen Qu, Lijun Li, Bo Zhang + 2 more2026-02-27💬 cs.CL

Loc $^2$ : Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

Il paper propone Loc $^2$ , un metodo interpretabile e ad alta precisione per la localizzazione incrociata tra viste aeree e terrestri che stima la posa 3D tramite la corrispondenza diretta delle caratteristiche locali, il sollevamento in spazio BEV basato sulla profondità e l'allineamento Procrustes, ottenendo risultati all'avanguardia senza necessità di annotazioni a livello di pixel.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Il paper propone ST-GS, un nuovo framework basato su Gaussian Splatting spaziotemporale che migliora l'interazione spaziale e la coerenza temporale nella previsione dell'occupazione 3D per la guida autonoma, ottenendo prestazioni all'avanguardia sul benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Il paper propone ViTP, un nuovo approccio di preaddestramento visivo che integra un Vision Transformer in un modello visione-linguaggio potenziato dall'apprendimento della robustezza visiva (VRL) per migliorare le prestazioni nei domini specifici come il telerilevamento e l'imaging medico.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

Il paper presenta PartSAM, il primo modello di segmentazione di parti 3D promptabile addestrato nativamente su dati 3D su larga scala, che supera i limiti degli approcci basati su visione 2D offrendo una comprensione geometrica intrinseca e capacità di decomposizione open-world superiori.

Zhe Zhu, Le Wan, Rui Xu + 6 more2026-02-27💻 cs

Secure and reversible face anonymization with diffusion models

Questo articolo presenta il primo framework basato su modelli di diffusione per l'anonimizzazione facciale sicura e reversibile, che utilizza la condizionamento tramite chiave segreta per garantire il recupero esatto dell'identità solo agli utenti autorizzati mantenendo al contempo alta qualità visiva e robustezza.

Pol Labarbarie, Vincent Itier, William Puech2026-02-27🤖 cs.LG

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

Questo lavoro propone modelli di diffusione asincroni che assegnano step temporali distinti a ciascun pixel, permettendo alle regioni legate al prompt di denoising in modo più graduale per sfruttare un contesto inter-pixel più chiaro e migliorare così l'allineamento testo-immagine.

Zijing Hu, Yunze Tong, Fengda Zhang + 3 more2026-02-27💻 cs

Detection and Measurement of Hailstones with Multimodal Large Language Models

Questo studio dimostra che i modelli linguistici multimodali pre-addestrati, analizzando immagini di social media con strategie di prompting a due stadi, possono rilevare e misurare le grandine con un errore medio assoluto di 1,12 cm, offrendo un valido complemento ai sensori tradizionali per la valutazione rapida degli eventi meteorologici estremi.

Moritz Alker, David C. Schedl, Andreas Stöckl2026-02-27🤖 cs.AI

Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

Il paper presenta FlowRVS, un nuovo framework generativo che risolve il problema della segmentazione video riferita (RVOS) modellando la transizione da una rappresentazione video globale alla maschera target come un processo di deformazione continua guidato dal linguaggio, ottenendo risultati state-of-the-art su tutti i benchmark principali.

Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li + 6 more2026-02-27💻 cs

G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior

Il paper presenta G4Splat, un metodo che utilizza un prior generativo guidato da geometria accurata, derivata da strutture planari, per migliorare la ricostruzione 3D e il completamento di scene in regioni non osservate, risolvendo le inconsistenze multi-vista e garantendo risultati superiori sia nella geometria che nell'aspetto.

Junfeng Ni, Yixin Chen, Zhifei Yang + 4 more2026-02-27💻 cs

PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

Il paper introduce PoSh, una metrica che utilizza grafi di scena per guidare i LLM nella valutazione di descrizioni d'immagine dettagliate, e DOCENT, un nuovo dataset di opere d'arte con giudizi esperti, dimostrando che questo approccio supera le metriche esistenti nel correlarsi con le valutazioni umane e nel guidare l'addestramento dei modelli.

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford + 7 more2026-02-27💬 cs.CL

Learning with less: label-efficient land cover classification at very high spatial resolution using self-supervised deep learning

Questo studio dimostra che l'apprendimento auto-supervisionato permette di realizzare una classificazione della copertura del suolo a risoluzione di 1 metro su larga scala con un'alta accuratezza, utilizzando un dataset di addestramento etichettato estremamente ridotto e migliaia di immagini aeree non etichettate per il pre-addestramento.

Dakota Hester, Vitor S. Martins, Lucas B. Ferreira + 1 more2026-02-27💻 cs

Q $^2$ : Quantization-Aware Gradient Balancing and Attention Alignment for Low-Bit Quantization

Il paper presenta Q $^2$ , un framework innovativo che risolve il problema dello squilibrio dei gradienti nella quantizzazione a basso bit per compiti visivi complessi come il rilevamento di oggetti e la segmentazione, ottenendo significativi miglioramenti nelle prestazioni senza introdurre alcun sovraccarico durante l'inferenza.

Zhaoyang Wang, Dong Wang2026-02-27🤖 cs.AI

USF-Net: A Unified Spatiotemporal Fusion Network for Ground-Based Remote Sensing Cloud Image Sequence Extrapolation

Il paper presenta USF-Net, una rete unificata per la fusione spaziotemporale che combina convoluzioni a kernel adattivi e meccanismi di attenzione a bassa complessità per migliorare l'estrapolazione delle sequenze di immagini delle nuvole, accompagnata dal rilascio del nuovo dataset ASI-CIS.

Penghui Niu, Taotao Cai, Suqi Zhang + 4 more2026-02-27💻 cs

Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering

Questo lavoro introduce il benchmark RETINA e il modello MIMIR per superare le scorciatoie visive presenti nei sistemi attuali di Visual Question Answering basato su conoscenze multimodali, dimostrando come l'arricchimento dei documenti con immagini di entità correlate migliori significativamente le prestazioni.

Dosung Lee, Sangwon Jung, Boyoung Kim + 4 more2026-02-27💻 cs

Diffusion Model in Latent Space for Medical Image Segmentation Task

Il paper presenta MedSegLatDiff, un framework di segmentazione medica basato su modelli di diffusione nello spazio latente che, combinando un VAE con una funzione di perdita ottimizzata, genera ipotesi di segmentazione multiple e affidabili con elevata efficienza computazionale e prestazioni all'avanguardia.

Huynh Trinh Ngoc, Toan Nguyen Hai, Ba Luong Son + 1 more2026-02-27🤖 cs.AI

ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data

Il paper presenta ClimaOoD, un benchmark e un framework di sintesi dati guidati dalla fisica che generano scenari di guida anomali realistici e diversificati per migliorare la generalizzazione dei modelli di segmentazione delle anomalie in ambienti open-world.

Yuxing Liu, Zheng Li, Huanhuan Liang + 3 more2026-02-27💻 cs

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Il paper presenta VLM-Pruner, un algoritmo di pruning dei token privo di addestramento che bilancia ridondanza e sparsità spaziale attraverso un paradigma centrifugo e un criterio di buffering, migliorando l'efficienza e la velocità di inferenza dei modelli visione-linguaggio senza comprometterne le prestazioni.

Zhenkai Wu, Xiaowen Ma, Zhenliang Ni + 4 more2026-02-27🤖 cs.LG

Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Il paper presenta TIMAR, un framework causale basato su modelli autoregressivi mascherati a livello di turno che genera dinamiche realistiche della testa per avatar conversazionali 3D, migliorando significativamente la coerenza temporale e le prestazioni rispetto ai metodi esistenti.

Junjie Chen, Fei Wang, Zhihao Huang + 5 more2026-02-27💻 cs

← Precedente Successivo →

cs.CV