cs.CV articoli | Gist.Science

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Il paper introduce HDFLIM, un framework che allinea modelli di linguaggio e visione preaddestrati e congelati in uno spazio iperdimensionale tramite operazioni simboliche leggere, permettendo la generazione di didascalie immagini efficienti e semanticamente solide senza necessità di un addestramento multimodale intensivo.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

Incremental dimension reduction for efficient and accurate visual anomaly detection

Il paper presenta un algoritmo di riduzione dimensionale incrementale che, elaborando i dati in batch e aggiornando dinamicamente la decomposizione ai valori singolari, permette di accelerare l'addestramento di modelli di rilevamento di anomalie visive su grandi dataset mantenendo un'accuratezza elevata.

Teng-Yok Lee2026-03-02💻 cs

Extended Reality (XR): The Next Frontier in Education

Questo articolo esamina come la Realtà Estesa (XR) stia rivoluzionando l'istruzione attraverso ambienti di apprendimento immersivi, analizzando al contempo le sfide legate ai costi, alla complessità tecnica e alla protezione dei dati, e sottolineando la necessità di bilanciare l'innovazione con l'accessibilità e l'etica.

Shadeeb Hossain2026-03-02💻 cs

Egocentric Visibility-Aware Human Pose Estimation

Questo articolo presenta Eva-3M, un vasto dataset egocentrico con annotazioni di visibilità delle articolazioni, e propone EvaPose, un nuovo metodo che sfrutta tali informazioni per migliorare l'accuratezza della stima della posa umana in contesti di realtà virtuale e aumentata.

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Il paper introduce DLEBench, il primo benchmark dedicato alla valutazione della capacità dei modelli di editing delle immagini basati su istruzioni di modificare oggetti su piccola scala, proponendo un nuovo protocollo di valutazione e rivelando significative lacune nelle prestazioni attuali.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

Il paper presenta BuildAnyPoint, un nuovo framework generativo che utilizza un modello di diffusione e un trasformatore autoregressivo per ricostruire strutture 3D di edifici a partire da nuvole di punti sparse o rumorose, ottenendo mesh compatte con prestazioni superiori rispetto ai metodi precedenti.

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Questo lavoro propone il Semantically Decoupled Latent Steering (SDLS), un framework di controllo a tempo di inferenza privo di addestramento che, mediante decomposizione semantica guidata da LLM e ortogonalizzazione QR, sopprime le allucinazioni da confronto con precedenti radiologici nei modelli visione-linguaggio preservando al contempo l'accuratezza clinica.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

Il paper propone VL-WS, un nuovo framework di segmentazione crop-weed basato sull'allineamento visione-linguaggio che, integrando embedding CLIP e descrizioni testuali, supera i limiti di generalizzazione dei modelli esistenti ottenendo prestazioni superiori su dataset agricoli eterogenei e condizioni di supervisione limitata.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

Il paper presenta rs-embed, una libreria Python che unifica l'accesso ai modelli fondazionali per il telerilevamento, consentendo agli utenti di ottenere embedding per qualsiasi area e periodo con una singola riga di codice, superando così le attuali sfide di interoperabilità e confronto.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Il paper presenta HiDrop, un framework innovativo che ottimizza l'efficienza dei Modelli Linguistici Multimodali riducendo il 90% dei token visivi tramite iniezione tardiva, potatura piramidale concava e uscita anticipata, mantenendo le prestazioni originali e accelerando l'addestramento di 1,72 volte.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Questo paper presenta un sistema di navigazione indoor affidabile basato sulla Realtà Aumentata che integra il modello di ambiente Vuforia Area Target, la componente NavMesh e l'algoritmo A* per fornire percorsi ottimali e un'esperienza utente superiore rispetto ai metodi tradizionali.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

Il paper presenta EgoGraph, un framework senza addestramento che costruisce dinamicamente un grafo di conoscenza temporale per superare le limitazioni dei modelli esistenti e abilitare un ragionamento semantico coerente su video egocentrici ultra-lunghi, ottenendo risultati all'avanguardia su benchmark specifici.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Questo studio introduce VGUBench per dimostrare che, nonostante le capacità di ragionamento testuale e di rendering visivo, i Modelli Linguistici Multimodali Unificati attuali falliscono nel mantenere l'equivalenza semantica quando devono generare risposte visive, rivelando una rottura nell'allineamento semantico trasversale piuttosto che un deficit di fedeltà generativa.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Il paper presenta StemVLA, un modello open-source visione-linguaggio-azione che migliora la manipolazione robotica e le prestazioni su benchmark a lungo termine integrando esplicitamente la previsione della geometria spaziale 3D futura e una rappresentazione storica spaziotemporale 4D.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

Questo articolo propone un nuovo metodo basato sulla differenza delle differenze per migliorare l'individuazione di immagini generate dall'IA, superando i limiti dei rilevatori tradizionali che si basano sull'errore di ricostruzione.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

Il paper presenta UTPTrack, un framework innovativo di pruning unificato dei token che, per la prima volta, comprime congiuntamente le tre componenti principali dei tracker basati su Transformer, ottenendo prestazioni all'avanguardia in termini di efficienza e accuratezza sia nel tracciamento RGB che in quello multimodale.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

Il paper introduce U-Mind, il primo sistema unificato per il dialogo multimodale ad alta intelligenza che supporta la generazione in tempo reale di linguaggio, voce, movimento e video, risolvendo le sfide di sincronizzazione e ragionamento attraverso un framework di allineamento unificato e un apprendimento guidato dalla ripetizione.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Questo studio evidenzia le differenze comportamentali tra esseri umani e modelli visione-linguaggio nel riconoscere caratteri giapponesi ambigui, dimostrando che, sebbene i loro confini decisionali differiscano nella sola analisi della forma, il contesto può migliorare l'allineamento in alcune condizioni.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Il paper propone CausalProto, una rete prototipale causale non supervisionata che, sfruttando un modello causale strutturale e un collo di bottiglia informativo, disaccoppia le caratteristiche patologiche dai fattori ambientali confondenti nelle immagini dermoscopiche per ottenere diagnosi più accurate, interpretabili e prive di bias senza compromettere le prestazioni.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

Il paper presenta NIST, un approccio di post-processing neurale leggero che ricrea l'effetto visivo della tassellazione geometrica deformando i contorni nello spazio immagine e preservando la coerenza delle texture, offrendo così silhouettes lisce e fedeli a un costo costante indipendentemente dalla complessità geometrica.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

← Precedente Successivo →