cs.CV articoli | Gist.Science

Dynamic Token Reweighting for Robust Vision-Language Models

Il paper presenta DTR, una difesa innovativa a tempo di inferenza che mitiga gli attacchi jailbreak multimodali nei modelli visione-linguaggio ottimizzando dinamicamente i pesi dei token visivi nei cache KV, ottenendo così una maggiore robustezza senza compromettere le capacità generali del modello.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Il paper presenta Seek-CAD, un approccio pionieristico e senza addestramento che utilizza il modello open-source DeepSeek-R1 in combinazione con un feedback visivo e di ragionamento (Chain-of-Thought) per generare e perfezionare iterativamente modelli CAD parametrici 3D, supportato da un nuovo dataset basato sul paradigma di design SSR.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Questo articolo propone nuove funzioni kernel probabilistiche basate su proiezioni deterministiche per il test degli angoli in spazi ad alta dimensionalità, dimostrando sperimentalmente che superano i metodi basati su distribuzioni gaussiane e offrono un throughput di ricerca 2,5-3 volte superiore rispetto all'algoritmo HNSW.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Il paper introduce Point-MoE, un'architettura basata su Mixture-of-Experts che permette un addestramento congiunto su larga scala di dataset eterogenei per la segmentazione semantica 3D, superando i limiti dei modelli tradizionali senza richiedere etichette specifiche per dataset durante l'addestramento o l'inferenza.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Il paper presenta SenseFlow, un metodo che risolve le difficoltà di convergenza della distillazione per modelli text-to-image su larga scala basati sul flusso (come SD 3.5 e FLUX) introducendo l'allineamento implicito della distribuzione e la guida intra-segmento per ottenere prestazioni superiori rispetto alle tecniche esistenti.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Questo lavoro introduce FaceCoT, il primo dataset su larga scala di domande e risposte visive con ragionamento a catena di pensiero per il rilevamento di falsi volti, e una strategia di apprendimento progressivo potenziata da CoT, che insieme migliorano significativamente la robustezza e l'interpretabilità dei modelli multimodali rispetto agli stati dell'arte.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Il paper introduce OmniSpatial, un benchmark completo basato sulla psicologia cognitiva con oltre 8.400 coppie di domande e risposte per valutare le capacità di ragionamento spaziale avanzato dei modelli visione-linguaggio, evidenziando le loro attuali limitazioni e proponendo strategie come PointGraph e SpatialCoT per migliorarle.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Il paper presenta UniCUE, il primo framework unificato che genera direttamente l'audio dal video della Lingua dei Segni Cued (CS) cinese senza passare per il testo, superando i limiti delle pipeline tradizionali grazie a un'architettura che integra compiti di riconoscimento e generazione supportata dal nuovo dataset su larga scala UniCUE-HI.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Questo studio migliora il rilevamento di specie selvatiche fuori distribuzione (OOD) per i "Cinque Grandi" dell'Africa, dimostrando che l'approccio basato su Nearest Class Mean (NCM) con feature pre-addestrate su ImageNet supera significativamente i metodi OOD esistenti, riducendo l'overconfidence dei modelli di visione artificiale in ambienti con specie non note.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Il paper propone un approccio di meta-apprendimento che migliora le capacità few-shot dei Large Multimodal Models per il Visual Question Answering distillando prompt soft da caratteristiche visive rilevanti tramite un modulo mappatore di attenzione, superando significativamente sia l'apprendimento in contesto che i metodi di finetuning efficiente.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Il paper presenta BitVLA, un modello nativo Vision-Language-Action a 1 bit progettato per la manipolazione robotica che, grazie a una strategia di addestramento ottimizzata e alla compressione del backbone visivo, riduce l'occupazione di memoria di 11 volte e la latenza di 4,4 volte mantenendo prestazioni competitive rispetto alle controparti a precisione intera.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Il paper introduce PD $^{2}$ GS, un nuovo framework auto-supervisionato basato su Gaussian Splatting che risolve la frammentazione nella modellazione di oggetti articolati apprendendo un campo gaussiano canonico condiviso e una deformazione continua per abilitare un controllo fluido e una decoupling accurata a livello di parti, validato anche sul nuovo dataset reale-to-sim RS-Art.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Il paper introduce NIC-RobustBench, un toolkit open-source che colma il divario nella valutazione della robustezza avversaria dei metodi di compressione neurale delle immagini, offrendo un framework completo per analizzare sia la resilienza dei codec che il loro impatto sulle attività a valle.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Il paper propone ConCM, un framework per l'apprendimento incrementale di classe con pochi esempi che risolve i conflitti di conoscenza attraverso una calibrazione dei prototipi ispirata alla memoria associativa e un adattamento dinamico della struttura delle caratteristiche, ottenendo risultati all'avanguardia su diversi benchmark.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Il paper introduce VisionDrop, un framework di pruning visivo senza addestramento che supera le limitazioni della riduzione guidata dal testo selezionando i token visivi più informativi basandosi esclusivamente sull'attenzione intra-modale, ottenendo così una significativa riduzione della complessità computazionale con una minima perdita di prestazioni.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

Il paper introduce EchoMimicV3, un framework efficiente di soli 1,3 miliardi di parametri che unifica l'animazione umana multi-task e multi-modale attraverso strategie innovative come il "Soup-of-Tasks" e il "Soup-of-Modals", superando i limiti di velocità e costo computazionale delle soluzioni precedenti.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Il paper propone CLiFT, un metodo di rendering neurale che rappresenta le scene tramite "token di campo luminoso compressi", permettendo un rendering efficiente e adattivo che bilancia dimensioni dei dati, qualità e velocità in base al budget computazionale.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Il paper propone SeC, un nuovo framework di segmentazione video basato sulla costruzione progressiva di concetti ad alto livello tramite modelli visione-linguaggio, che supera gli stati dell'arte esistenti e introduce il benchmark SeCVOS per valutare le prestazioni in scenari complessi e semanticamente ricchi.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

← Precedente Successivo →

cs.CV