cs.CV articoli | Gist.Science

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Questo articolo presenta un approccio innovativo che combina modelli di intelligenza generativa come SAM2, Florence2 e ChatGPT con un'ontologia specializzata per segmentare e etichettare trattati storici sulla costruzione navale del XVI e XVII secolo, superando le sfide legate alla scarsità di dati di addestramento e alla specializzazione del dominio per migliorare la curatela e l'accessibilità di documenti storici preziosi.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Questo articolo presenta Lilium, un nuovo metodo evolutivo automatizzato che migliora l'accuratezza e la robustezza della sovrapposizione cranio-facciale forense modellando esplicitamente la variabilità dei tessuti molli tramite un algoritmo di evoluzione differenziale e vincoli di plausibilità anatomica.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

Il paper presenta GLIDE-Reg, un metodo di registrazione deformabile che combina ottimizzata co-occorrenza di caratteristiche fondazionali e manuali per superare i limiti di robustezza e generalizzabilità delle tecniche attuali, ottenendo prestazioni superiori su diverse coorti di imaging polmonare.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

Il paper propone IDER, un nuovo approccio basato sulla proprietà di idempotenza che, integrando una distillazione dell'idempotenza con i metodi di replay esistenti, risolve il problema della dimenticanza catastrofica migliorando al contempo l'accuratezza e l'affidabilità delle previsioni nell'apprendimento continuo.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Il paper presenta BornoViT, un modello Vision Transformer leggero ed efficiente con soli 0,65 milioni di parametri, che classifica con successo i caratteri e le cifre scritti a mano in bengalese raggiungendo un'accuratezza del 95,77% sul dataset BanglaLekha e del 91,51% su un dataset autonomo, offrendo una soluzione ottimizzata per ambienti con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

Il paper propone ShiftLUT, un nuovo framework per il ripristino efficiente delle immagini che combina un modulo di spostamento spaziale apprendibile, un'architettura a due rami asimmetrici e una strategia di compressione dei LUT per ottenere un campo ricettivo più ampio e prestazioni superiori rispetto agli stati dell'arte, mantenendo al contempo bassi costi computazionali e di memoria.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Questo lavoro presenta il framework Multimodal Weight Predictor (MWP) e il dataset Waste-Weight-10K, che combinano immagini RGB e metadati fisici tramite fusione multimodale per stimare con alta precisione il peso dei rifiuti industriali, fornendo anche spiegazioni interpretabili.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

Il paper presenta PreciseCache, un framework plug-and-play che accelera l'inferenza dei modelli di generazione video identificando e saltando con precisione i calcoli ridondanti a livello di step e di blocco tramite la differenza a bassa frequenza, ottenendo così un significativo aumento di velocità senza compromettere la qualità visiva.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

Il paper presenta FlowReg, un framework di registrazione non supervisionata per risonanza magnetica cardiaca basato sul flow matching che, grazie a una strategia di training "warmup-reflow" e a un meccanismo di "Initial Guess", raggiunge prestazioni superiori allo stato dell'arte con una sola o due inferenze, eliminando la necessità di modelli pre-addestrati o etichette di segmentazione.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

HeroGS è un framework unificato che utilizza una guida gerarchica a livello di immagine, caratteristica e parametro per migliorare la robustezza e la qualità del rendering del 3D Gaussian Splatting in condizioni di visione sparsa.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Questo lavoro presenta ET-Turb, un ampio dataset sintetico che introduce un modello di MTF dipendente dal tempo di esposizione per generare turbolenza atmosferica realistica, migliorando significativamente la generalizzazione dei modelli di restauro rispetto alle metodologie esistenti.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack è un framework unificato ed efficiente per il tracciamento di singoli oggetti che, integrando modalità multiple (RGB, profondità, termica, eventi e linguaggio) attraverso meccanismi innovativi di aggregazione delle caratteristiche e distillazione adattiva, supera i limiti delle metodologie esistenti offrendo un eccellente compromesso tra velocità e accuratezza su diverse piattaforme hardware.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

Il paper introduce FACE, un nuovo framework autoregressivo che genera mesh 3D ad alta fedeltà trattando ogni faccia triangolare come un singolo token, riducendo drasticamente la lunghezza della sequenza e i costi computazionali pur mantenendo una qualità di ricostruzione superiore allo stato dell'arte.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

Il paper propone InterCoG, un innovativo framework di ragionamento a catena intercalata testo-visualizzazione che, supportato dal nuovo dataset GroundEdit-45K e da moduli di addestramento specifici, permette di eseguire modifiche di immagine estremamente precise e spazialmente accurate in scene complesse con più entità.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Il paper presenta BiCAM, un metodo di mappatura delle attivazioni di classe bidirezionale per Vision Transformers che cattura sia i contributi positivi che negativi per migliorare l'interpretabilità, la fedeltà e il rilevamento di esempi adversariali senza necessità di riaddestramento.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Il paper presenta PromptStereo, un metodo zero-shot per la corrispondenza stereoscopica che introduce l'unità ricorrente PRU per integrare prompt di struttura e movimento nei modelli di profondità monoculare, migliorando così la generalizzazione e la velocità di inferenza.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Il paper presenta Nano-EmoX, un modello linguistico multimodale compatto da 2,2 miliardi di parametri che, grazie a una gerarchia cognitiva ispirata e a un framework di addestramento curriculare chiamato P2E, unifica sei compiti affettivi fondamentali per colmare il divario tra percezione ed empatia, ottenendo prestazioni all'avanguardia con elevata efficienza.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Il paper presenta SimRecon, un framework che realizza la ricostruzione composizionale di scene complesse da video reali attraverso una pipeline "Percezione-Generazione-Simulazione" potenziata da due moduli ponte, l'Ottimizzazione Attiva del Punto di Vista e il Sintetizzatore di Grafi di Scena, per garantire sia la fedeltà visiva che la plausibilità fisica degli asset generati.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Il paper presenta OnlineX, un framework feed-forward che risolve il problema della deriva cumulativa nella ricostruzione 3D online attraverso un'evoluzione decoupled dello stato da attivo a stabile, permettendo la ricostruzione simultanea di campi visivi e linguistici con alta fedeltà e stabilità.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Il paper presenta HiFi-Inpaint, un nuovo framework di inpainting basato su riferimento ad alta fedeltà che, grazie all'attenzione di potenziamento condiviso e a una perdita consapevole dei dettagli, risolve le limitazioni attuali nella generazione di immagini uomo-prodotto preservando con precisione i dettagli del prodotto.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

← Precedente Successivo →