cs.CV articoli | Gist.Science

Real-Time Motion Detection Using Dynamic Mode Decomposition

Questo lavoro propone un algoritmo interpretabile per il rilevamento di movimento in tempo reale nei flussi video, basato sulla Decomposizione Modale Dinamica (DMD) che associa il movimento in primo piano agli autovalori della matrice risultante dall'applicazione della DMD a segmenti video, dimostrando la sua efficacia su dati simulati di videosorveglianza.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

Questo articolo offre una rassegna completa sull'enhancement delle immagini subacquee basata sul deep learning, presentando modelli fisici, classificando gli algoritmi recenti, effettuando una valutazione comparativa quantitativa e qualitativa su più dataset e delineando le direzioni future della ricerca.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Questo lavoro introduce un framework per valutare la qualità dei benchmark sull'allucinazione nei modelli visione-linguaggio, rivelando le carenze degli strumenti esistenti e proponendo HQH, un nuovo benchmark ad alta affidabilità che evidenzia gravi problemi di allucinazione nei modelli attuali.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

Il paper presenta PoseAdapt, un framework open-source e una suite di benchmark per l'adattamento continuo dei modelli di stima della posa umana, progettati per ottimizzare l'efficienza computazionale e l'adattabilità a nuovi domini e modalità di sensing senza richiedere un addestramento completo da zero.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

Il paper presenta LLM2CLIP, un framework di efficient fine-tuning che integra un grande modello linguistico (LLM) in CLIP pre-addestrato per potenziarne la comprensione di didascalie lunghe e complesse, ottenendo significativi miglioramenti su numerose attività downstream senza richiedere un addestramento su larga scala.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Il paper introduce Renaissance, un framework di valutazione per l'analisi meta-sperimentale del preaddestramento di encoder visione-linguaggio, dimostrando che è possibile risparmiare risorse computazionali congelando parti del modello e confrontando l'efficacia di basi visive rispetto a quelle testuali.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Questo studio presenta un framework di tracciamento guidato da visione per veicoli di superficie autonomi (USV) in ambienti marittimi complessi, che attraverso un benchmark di sette algoritmi avanzati e test in simulazione e in mare reale, identifica SeqTrack come il tracciatore più efficace in condizioni avverse e il controllore LQR come la soluzione di controllo più robusta per garantire una tracciatura stabile.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Il paper presenta OC-STORM, un framework di apprendimento per rinforzo basato su modelli che, sfruttando rappresentazioni centrate sugli oggetti estratte da poche annotazioni, supera l'inefficienza dei campioni dei metodi tradizionali e raggiunge risultati all'avanguardia in ambienti visivamente complessi come Atari e Hollow Knight.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

Il paper introduce VOILA, un benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di comprendere relazioni percettive e di ragionamento analogico, rivelando che le attuali architetture faticano significativamente in questi compiti rispetto alle prestazioni umane, sebbene strategie di prompting a più passaggi possano migliorare i risultati.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

Il paper presenta PD-VLA, un innovativo framework di decodifica parallela che accelera l'inferenza dei modelli Vision-Language-Action integrati con l'azione a blocchi (action chunking) senza richiedere modifiche architetturali o riaddestramento, garantendo al contempo prestazioni competitive e un aumento significativo della frequenza di esecuzione nei robot manipolatori.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

Il paper propone UnifiedReward, il primo modello di ricompensa unificato che, addestrato su un vasto dataset di preferenze umane e utilizzato per allineare i modelli visivi tramite DPO, dimostra come l'apprendimento congiunto di compiti di comprensione e generazione multimodale generi benefici sinergici in entrambi i domini.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

Il paper introduce TRACE, un metodo che sfrutta le mappe di attenzione dei modelli di diffusione testo-immagine per rilevare automaticamente i bordi delle istanze e migliorare la segmentazione senza bisogno di annotazioni manuali, ottenendo risultati superiori e un'inferenza 81 volte più veloce rispetto alle tecniche esistenti.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

Il paper presenta AnyIR, un modello unificato ed efficiente per il ripristino di immagini che, sfruttando una fusione parallela spazio-frequenza e un meccanismo di adattamento delle degradazioni, raggiunge prestazioni allo stato dell'arte riducendo drasticamente parametri e complessità computazionale rispetto alle soluzioni esistenti.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

Il paper presenta Twin-Co, un framework che utilizza un dialogo sincronizzato e co-adattivo per affinare progressivamente la generazione di immagini basata su testo, riducendo le ambiguità delle richieste utente e migliorando la qualità finale del risultato.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

Questo lavoro propone un metodo basato sull'analisi dell'operatore p-Laplaciano stimato tramite le funzioni di punteggio dei modelli di diffusione per identificare il fenomeno della memorizzazione dei dati di addestramento, fornendo sia stime numeriche efficaci che limiti teorici di errore validi anche per modelli generativi testo-immagine.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Questo studio dimostra che un'architettura ibrida basata su transformer preaddestrato (SMIT), ottimizzata con un apprendimento curricolare bilanciato, raggiunge una segmentazione accurata delle sottostutture cardiache su TC con contrasto e senza contrasto utilizzando il 64% in meno di dati annotati rispetto a un modello "oracle", superando in robustezza le soluzioni tradizionali come nnU-Net e TotalSegmentator per la pianificazione della radioterapia.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Il paper presenta JailBound, un nuovo framework di jailbreak che sfrutta le rappresentazioni nello spazio latente dei modelli visione-linguaggio per individuare e attraversare i confini di sicurezza interni, superando i limiti dei metodi esistenti e ottenendo tassi di successo significativamente superiori sia in scenari white-box che black-box.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

Il paper presenta PROGRESS, un framework efficiente che ottimizza l'addestramento dei modelli visione-linguaggio selezionando dinamicamente i campioni più informativi in base all'errore relativo, riducendo così drasticamente la necessità di dati, annotazioni e risorse computazionali rispetto alle tecniche attuali.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Il paper presenta LoRA-Edit, un metodo innovativo che utilizza un adattamento LoRA guidato da una maschera spazio-temporale per modificare in modo controllato i video generati da modelli diffusion, permettendo agli utenti di preservare o rigenerare selettivamente contenuti e movimenti in base a un primo frame di riferimento.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

Questo lavoro propone un sistema a doppia telecamera con controllo di esposizione asincrono e una rete di fusione adattiva (EAFNet) per generare video HDR stabili, eliminando il flicker temporale tipico dei metodi a singola telecamera e mantenendo costi contenuti.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

← Precedente Successivo →

cs.CV