cs.CV articoli | Gist.Science

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Il paper presenta Phys4D, un metodo innovativo che trasforma i modelli di diffusione video in rappresentazioni 4D fisicamente coerenti attraverso un paradigma di addestramento in tre fasi, migliorando significativamente la stabilità dinamica e la plausibilità fisica rispetto ai modelli basati solo sull'aspetto visivo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Questo studio presenta un nuovo approccio bayesiano basato su Transformer ad alta risoluzione che fonde dati Sentinel-1, RCM e AMSR2 per mappare la concentrazione del ghiaccio marino artico a 200 metri e quantificare l'incertezza, superando le sfide delle etichette imprecise e dell'eterogeneità dei dati grazie a una funzione di perdita supervisionata debole geograficamente ponderata e a un'architettura che integra moduli globali e locali.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Il paper presenta PhyPrompt, un framework di apprendimento per rinforzo a due stadi che affina automaticamente i prompt testuali per generare video coerenti con le leggi fisiche, ottenendo risultati superiori rispetto a modelli più grandi e trasferibili su diverse architetture senza bisogno di addestramento specifico.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Il paper presenta PinCLIP, un nuovo approccio di apprendimento delle rappresentazioni multimodali su larga scala sviluppato da Pinterest che, grazie a un'architettura ibrida e a un obiettivo di allineamento dei vicini, supera le soluzioni esistenti migliorando significativamente il recupero dei contenuti, la distribuzione di materiale fresco e le prestazioni pubblicitarie.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Il paper presenta PolyV, un modello visivo unificato che, grazie a un'architettura a misto di esperti e una strategia di addestramento sinergico, supera i limiti delle integrazioni funzionali esistenti permettendo un ragionamento visivo trasversale che sfrutta i priors complementari di immagini, video e dati 3D.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Questo lavoro propone un nuovo quadro per la stima della profondità monoculare in chirurgia minimamente invasiva che, integrando target di confidenza calibrati, funzioni di perdita consapevoli della confidenza e una testina di stima durante l'inferenza, migliora l'accuratezza e la affidabilità clinica riducendo l'impatto di artefatti come fumo e riflessi.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Il paper presenta L2G-Det, un nuovo framework di rilevamento istanziale che supera i limiti dei metodi basati su proposte sfruttando la corrispondenza densa a livello di patch per generare punti candidati, i quali vengono poi raffinati e utilizzati per guidare un modello SAM potenziato nella segmentazione accurata di oggetti sconosciuti in scenari aperti e affollati.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

Questo articolo presenta l'Ambient Radio Sensing (ARS), un approccio innovativo che risolve la carenza di spettro riutilizzando i segnali 5G esistenti per il rilevamento delle attività umane tramite un dispositivo passivo e un framework di apprendimento cross-modale, dimostrando la fattibilità di stime scheletriche e segmentazioni corporee accurate senza interferire con le comunicazioni primarie.

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

Questo articolo presenta un metodo di aumento dei dati ispirato al VQA che migliora il riconoscimento del testo nelle immagini generando domande naturali sui caratteri per addestrare modelli OCR a un ragionamento più dettagliato, ottenendo risultati superiori su dataset come WordArt ed Esposalles.

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

Questo lavoro propone un nuovo framework per la generazione di grafi di scena del traffico che, integrando dati sugli incidenti e informazioni sulla profondità, supera i limiti delle approcci esistenti identificando e classificando le minacce per la sicurezza rispetto al veicolo egoista.

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

Il paper presenta DM-CFO, un approccio basato su modelli di diffusione che genera modelli 3D di denti composti con ottimizzazione priva di collisioni, migliorando significativamente la coerenza multivista e il realismo rispetto ai metodi esistenti.

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

Questo studio propone un framework che migliora il rilevamento e l'identificazione dei pinguini in ambienti complessi integrando caratteristiche di aspetto e movimento, adattando YOLO11 per l'elaborazione di frame consecutivi e applicando un apprendimento contrastivo basato su tracklet per ridurre le interruzioni dell'identità.

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

Questo lavoro propone un metodo innovativo per stimare l'orientamento della testa dei cavalli ferali in video aerei, utilizzando un sistema di votazione basato su IoU per risolvere le ambiguità dei bounding box orientati e garantire un tracciamento individuale continuo e accurato.

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

Il paper propone ParaHydra, un nuovo framework di compressione distribuita di immagini multi-vista che introduce il meccanismo di attenzione OmniParallax per modellare le correlazioni tra le viste, superando significativamente le prestazioni degli stati dell'arte esistenti con un elevato risparmio di bitrate e una ridotta complessità computazionale.

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

Questo lavoro introduce LeafInst, un nuovo framework di segmentazione delle istanze e il dataset Poplar-leaf per l'analisi fenotipica fine di foglie di alberi in ambienti aperti, ottenendo prestazioni superiori rispetto agli stati dell'arte su scenari UAV complessi.

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

Il paper presenta RAGTrack, un innovativo framework di tracciamento RGB-T che integra descrizioni testuali e la generazione aumentata dal recupero (RAG) per superare le limitazioni dei metodi esistenti, ottenendo prestazioni all'avanguardia su diversi benchmark grazie a una modellazione unificata visivo-linguistica e a un ragionamento temporale contestuale.

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

Il paper introduce CoRe-BT, un benchmark multimodale radiologia-patologia-test per il typing robusto dei tumori cerebrali che valuta l'apprendimento multimodale in scenari clinici realistici caratterizzati da dati incompleti.

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

Questo lavoro presenta un quadro rigoroso per estendere gli operatori neurali al di fuori della distribuzione di addestramento, sfruttando tecniche di approssimazione dei kernel e spazi di Hilbert a nucleo riproducente per garantire la robustezza teorica e l'accuratezza nella risoluzione di equazioni differenziali alle derivate parziali su varietà.

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

Questo studio introduce l'iniezione di prompt basata su immagini (IPI), un attacco in scatola nera che nasconde istruzioni avversarie all'interno di immagini naturali per manipolare con successo fino al 64% dei modelli linguistici multimodali, evidenziando una nuova vulnerabilità pratica che richiede urgenti contromisure difensive.

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

Il paper presenta InfinityStory, un nuovo framework, dataset e modello progettati per generare video narrativi di lunga durata con coerenza visiva globale, mantenendo l'identità dei personaggi e garantendo transizioni fluide tra inquadrature complesse con più soggetti.

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

← Precedente Successivo →