cs.CV articoli | Gist.Science

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Questo lavoro introduce un approccio senza addestramento per la segmentazione temporale delle azioni a vocabolario aperto (OVTAS) sfruttando le capacità zero-shot dei modelli visione-linguaggio, proponendo una pipeline che combina l'adattamento delle embedding e la coerenza temporale, e fornendo la prima analisi sistematica di 14 diversi VLM su benchmark standard.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Il paper introduce WildSVG, un nuovo benchmark composto da dataset reali e sintetici per valutare l'estrazione di SVG da immagini naturali, evidenziando le attuali limitazioni dei modelli multimodali in scenari complessi e il potenziale delle tecniche di raffinamento iterativo.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Il documento presenta *tugturn.py*, un flusso di lavoro Python open-source per l'analisi biomeccanica 3D senza marcatori del test Timed Up and Go, che automatizza la segmentazione delle fasi, il rilevamento degli eventi del passo e il calcolo di metriche di stabilità dinamica, garantendo risultati riproducibili attraverso report HTML e tabelle CSV.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

PSF-Med: Measuring and Explaining Paraphrase Sensitivity in Medical Vision Language Models

Il paper introduce PSF-Med, un benchmark che rivela come i modelli medico-visuali cambino le risposte a riformulazioni di domande, e dimostra che l'identificazione e la soppressione di specifiche caratteristiche sparse nel modello riducono significativamente questa instabilità, migliorando l'affidabilità clinica.

Binesh Sadanandan, Vahid Behzadan2026-02-26🤖 cs.LG

Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Il paper propone un framework di decodifica causale che, intervenendo direttamente sui meccanismi di generazione, riduce significativamente le allucinazioni di oggetti nei modelli linguistici multimodali mantenendo al contempo l'alta qualità delle risposte.

Shiwei Tan, Hengyi Wang, Weiyi Qin + 3 more2026-02-26🤖 cs.AI

Adversarial Robustness of Deep Learning-Based Thyroid Nodule Segmentation in Ultrasound

Lo studio valuta la robustità di un modello di segmentazione basato su deep learning per i noduli tiroidei agli attacchi avversariali nell'ecografia, dimostrando che mentre le perturbazioni spaziali possono essere parzialmente mitigate tramite pre-elaborazione dell'input, quelle nel dominio della frequenza rimangono efficaci e non mitigabili dalle difese testate.

Nicholas Dietrich, David McShannon2026-02-26🤖 cs.AI

Perceptual Quality Optimization of Image Super-Resolution

Il paper propone l'Efficient-PBAN, una rete neurale che ottimizza la super-risoluzione di immagini massimizzando la qualità percettiva umana attraverso una nuova metrica differenziabile addestrata su un dataset specifico, superando i tradizionali compromessi tra fedeltà e qualità visiva.

Wei Zhou, Yixiao Li, Hadi Amirpour + 4 more2026-02-26⚡ eess

Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning

Il paper propone SPL, un quadro di addestramento unificato per il rilevamento di oggetti 3D senza supervisione o con supervisione scarsa che combina etichettatura pseudo-semantica e apprendimento prototipale per generare pseudo-etichette di alta qualità e stabilizzare l'apprendimento delle caratteristiche, superando così le prestazioni dello stato dell'arte sui dataset KITTI e nuScenes.

Yushen He2026-02-26💻 cs

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

Il paper propone AHAN, una rete neurale con attenzione gerarchica asimmetrica che migliora la verifica facciale dei gemelli monozigoti fino al 92,3% analizzando le asimmetrie facciali e le variazioni non genetiche attraverso moduli di attenzione incrociata multi-scala e una strategia di regolarizzazione specifica per i gemelli.

Hoang-Nhat Nguyen2026-02-26💻 cs

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

Il paper presenta WaterVIB, un framework basato sul principio del collo di bottiglia dell'informazione variazionale che, estraendo statistiche sufficienti minime e filtrando le texture ad alta frequenza del contenuto originale, garantisce una robustezza superiore dei watermark contro gli attacchi di rigenerazione basati sull'IA generativa.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

Which Tool Response Should I Trust? Tool-Expertise-Aware Chest X-ray Agent with Multimodal Agentic Learning

Questo articolo presenta TEA-CXA, un agente per l'analisi delle radiografie toraciche che, attraverso l'apprendimento agentic multimodale, impara empiricamente a valutare l'affidabilità di diversi strumenti AI per risolvere i conflitti nelle risposte e superare gli stati dell'arte.

Zheang Huai, Honglong Yang, Xiaomeng Li2026-02-26💻 cs

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

Il paper presenta LiLo-VLA, un framework modulare che combina un modulo di raggiungimento globale con un modulo di interazione basato su VLA centrato sugli oggetti per abilitare la generalizzazione zero-shot e il recupero robusto nei compiti di manipolazione a lungo orizzonte, ottenendo prestazioni superiori rispetto agli approcci end-to-end sia in simulazione che nel mondo reale.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess

Pseudo-View Enhancement via Confidence Fusion for Unposed Sparse-View Reconstruction

Questo lavoro propone un nuovo framework per la ricostruzione 3D di scene esterne da viste sparse non posizionate, che combina una restaurazione bidirezionale di pseudo-viste guidata da modelli di diffusione e un algoritmo di gestione delle Gaussiane basato sulla percezione della scena per migliorare la completezza geometrica e ridurre gli artefatti.

Beizhen Zhao, Sicheng Yu, Guanzhi Ding + 2 more2026-02-26💻 cs

IHF-Harmony: Multi-Modality Magnetic Resonance Images Harmonization using Invertible Hierarchy Flow Model

Il paper introduce IHF-Harmony, un framework unificato basato su un modello di flusso gerarchico invertibile che armonizza immagini MRI multimodali non accoppiate garantendo una mappatura biunivoca e una ricostruzione senza perdite per preservare l'anatomia originale e migliorare le prestazioni nei compiti downstream.

Pengli Zhu, Yitao Zhu, Haowen Pang + 1 more2026-02-26💻 cs

VasGuideNet: Vascular Topology-Guided Couinaud Liver Segmentation with Structural Contrastive Loss

Il paper presenta VasGuideNet, un nuovo framework di segmentazione del fegato secondo Couinaud che, integrando la topologia vascolare tramite GCN e una perdita di contrasto strutturale, supera i metodi esistenti offrendo confini più precisi e una maggiore generalizzazione anatomica.

Chaojie Shen, Jingjun Gu, Zihao Zhao + 4 more2026-02-26💻 cs

Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

Il paper presenta GPOcc, un framework che generalizza i prior geometrici visivi per la previsione di occupazione 3D monocular e in streaming, estendendo i punti superficiali verso l'interno lungo i raggi della camera per generare primitive Gaussiane volumetriche e ottenendo significativi miglioramenti di accuratezza e velocità rispetto allo stato dell'arte.

Changqing Zhou, Yueru Luo, Changhao Chen2026-02-26💻 cs

MultiAnimate: Pose-Guided Image Animation Made Extensible

Il paper presenta MultiAnimate, un framework basato su Diffusion Transformers che risolve i problemi di identità e occlusione nell'animazione di immagini umane multi-persona, permettendo la generazione realistica di video con un numero di personaggi superiore a quello del dataset di addestramento.

Yingcheng Hu, Haowen Gong, Chuanguang Yang + 3 more2026-02-26💻 cs

SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction

Il paper propone SEF-MAP, un framework innovativo che migliora la robustezza della previsione di mappe HD multimodali per la guida autonoma disaccoppiando le caratteristiche in sottospazi semantici dedicati e utilizzando un meccanismo di gating basato sull'incertezza per adattarsi dinamicamente a condizioni degradate, ottenendo risultati allo stato dell'arte sui benchmark nuScenes e Argoverse2.

Haoxiang Fu, Lingfeng Zhang, Hao Li + 7 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Questo lavoro rivela una vulnerabilità fondamentale nei sistemi di filigrana semantica per immagini generative, dimostrando che un attacco guidato da modelli linguistici (LLM) chiamato CSI può manipolare le semantica in modo coerente per eludere i rilevatori senza compromettere la coerenza globale dell'immagine.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Questo studio rivela che gli embedding condizionali nei Diffusion Transformers presentano un collo di bottiglia semantico caratterizzato da un'elevata ridondanza angolare e da una concentrazione del segnale informativo in poche dimensioni, permettendo di ridurre drasticamente lo spazio degli embedding senza compromettere la qualità della generazione.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

← Precedente Successivo →