cs.CV articoli | Gist.Science

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Il paper presenta TFM, un nuovo framework di attacco che sfrutta la vulnerabilità temporale dei modelli text-to-video inserendo solo condizioni di confine sparse (due fotogrammi) per indurre il modello a generare autonomamente contenuti dannosi, aggirando così i filtri di sicurezza tradizionali.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Questo articolo propone un metodo innovativo per la ricostruzione 3D fine-granulare delle micro-espressioni facciali, integrando una modulazione dinamica globale con un adattamento locale guidato da flusso ottico e geometria, superando così le limitazioni dei dati scarsi e ottenendo risultati superiori rispetto agli stati dell'arte.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Il paper propone CAPL, un framework strutturato che combina un meccanismo di attenzione calibrato per le interazioni tra immagini e un'ottimizzazione basata sulle preferenze per mitigare le allucinazioni nei modelli visione-linguaggio su compiti multi-immagine, migliorando le prestazioni senza compromettere le capacità su singole immagini.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Il paper propone SODA, un metodo di accelerazione dinamica e adattiva per i Diffusion Transformer che, modellando la sensibilità a livello fine-granularità e ottimizzando la cache e il pruning tramite programmazione dinamica, supera i limiti delle strategie fisse esistenti raggiungendo uno stato dell'arte nel compromesso tra velocità di inferenza e fedeltà della generazione.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Il paper presenta MedSteer, un framework di steering delle attivazioni senza addestramento che genera coppie controfattuali endoscopiche preservando la struttura anatomica e superando i metodi basati su inversione e riprompting nelle valutazioni di sintesi e rilevamento dei polipi.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Il paper introduce VirtueBench, un nuovo benchmark progettato per valutare l'affidabilità dei modelli visione-linguaggio nell'ambito della comprensione di video lunghi, affrontando il problema della valutazione inaffidabile che penalizza il rifiuto onesto di rispondere in condizioni di incertezza rispetto alla fortuna nel indovinare.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

Il paper propone PhyVLM-CR, un metodo unificato per la rimozione di tutte le nuvole che integra i priors semantici di un Modello Linguistico-Visivo (VLM) in un modello di ripristino fisico, permettendo una transizione adattiva tra l'inversione fisica e la ricostruzione temporale per garantire risultati ad alta fedeltà senza discontinuità.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Il paper propone PSG-UIENet, una rete innovativa per il miglioramento delle immagini subacquee che combina la correzione dell'illuminazione basata sulla teoria Retinex con guide semantiche testuali derivate da CLIP, supportata dal nuovo dataset multimodale LUIQD-TD e da una funzione di perdita per la similarità semantica, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Questo lavoro introduce il concetto di "visibilità neurale" e un framework di fusione gerarchica complementare per allineare i segnali EEG a rappresentazioni visive intermedie, superando le limitazioni dei metodi esistenti e ottenendo prestazioni all'avanguardia nel decodifica visiva zero-shot.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Il paper propone mAVE, il primo framework di watermarking nativo per modelli di generazione audio-visiva congiunta che, legando crittograficamente le latenti audio e video, risolve la vulnerabilità agli attacchi di sostituzione garantendo integrità e sicurezza senza compromettere le prestazioni.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Questo articolo propone un metodo per la generazione di espressioni facciali allineate alle preferenze umane per interazioni dialogiche naturali, che utilizza un ciclo di feedback chiuso e un apprendimento per rinforzo guidato da feedback umano per addestrare un modello visione-linguaggio-azione capace di produrre risposte espressive contestualmente appropriate e libere da bias identitari.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Il paper introduce NuNext, un nuovo approccio che riformula il rilevamento dei nuclei istopatologici come previsione del punto successivo utilizzando un modello linguistico multimodale addestrato con supervisione spaziale e affinamento tramite rinforzo, ottenendo risultati superiori su nove benchmark.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Il paper presenta S-PCL, un framework di apprendimento auto-supervisionato efficiente per le radiografie toraciche che, partizionando semanticamente i patch di un'immagine per creare viste complementari, supera i limiti dei metodi esistenti eliminando la necessità di aumentazioni pesanti e decodificatori ausiliari, ottenendo così prestazioni superiori con un costo computazionale ridotto.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Il paper introduce TIQA, un nuovo compito e dataset per la valutazione della qualità del testo generato nelle immagini, insieme al metodo ANTIQA che supera le tecniche esistenti nel prevedere i giudizi umani e migliorare la selezione delle generazioni migliori.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Questo articolo presenta Inter-image Pixel Shuffling (IPS), un metodo innovativo che supera la scarsità di dati di addestramento per la fusione di immagini multi-fuoco riformulando il compito come un problema di classificazione pixel-wise e utilizzando un'architettura ibrida CNN-SSM per generare immagini completamente a fuoco senza richiedere immagini multi-fuoco reali.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Il paper presenta EyExIn, un framework efficiente che supera le lacune di conoscenza specifica nel dominio oftalmico dei modelli visione-linguaggio, integrando un meccanismo di iniezione profonda di esperti per ancorare il ragionamento a evidenze visive accurate e raggiungere prestazioni all'avanguardia nella diagnosi retinica.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Il paper presenta AutoSelect, un metodo che riformula la potatura dei token visivi come comunicazione a capacità vincolata, utilizzando un gate di rumore e un denoiser per selezionare automaticamente i token più rilevanti durante l'addestramento, ottenendo un'accelerazione significativa dell'inferenza nei modelli visione-linguaggio con una minima perdita di accuratezza e senza necessità di obiettivi di addestramento aggiuntivi.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Il paper presenta PDD, un nuovo framework per la rilevazione di anomalie nelle immagini mediche che unifica le conoscenze di due insegnanti diversi in un manifold condiviso e le distilla in studenti complementari, ottenendo prestazioni state-of-the-art su diversi dataset medici.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Il paper presenta CanoVerse, un vasto dataset canonico di 320.000 oggetti 3D e un nuovo framework di canonizzazione ad alta efficienza che risolve l'ambiguità rotazionale per migliorare la generazione 3D, il recupero di forme e la stima dell'orientamento.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Il paper presenta LiveWorld, un nuovo framework che risolve il problema della dinamica "fuori vista" nei modelli di mondo video generativi introducendo uno stato globale persistente e un meccanismo di monitoraggio che permette agli oggetti di evolvere anche quando non sono osservati, garantendo così una coerenza temporale e spaziale a lungo termine.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

← Precedente Successivo →