cs.CV articoli | Gist.Science

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Il paper propone TraceVision, un modello visione-linguaggio unificato che integra la comprensione spaziale consapevole delle traiettorie per simulare l'attenzione visiva umana, ottenendo prestazioni all'avanguardia in compiti di generazione di didascalie, localizzazione e segmentazione grazie a un nuovo modulo di percezione visiva, una pipeline di addestramento in tre fasi e il dataset RILN.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Il paper propone un framework di distillazione duale basato su contrasto che allinea modelli fondazione ottici e multispettrali per migliorare l'apprendimento delle rappresentazioni nell'osservazione terrestre, ottenendo risultati all'avanguardia in compiti come la segmentazione semantica e il rilevamento dei cambiamenti.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Questo lavoro introduce VBVR, un dataset su larga scala e un framework di valutazione per colmare il divario nella ricerca sul ragionamento video, consentendo studi di scalabilità che mostrano i primi segni di generalizzazione emergente verso compiti non visti.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O è un modello multimodale unificato e compatto che, grazie al suo innovativo proiettore di condizionamento (MCP) e a un addestramento efficiente, abilita per la prima volta su dispositivi mobili prestazioni competitive nella comprensione e generazione visiva in tempo reale, eliminando la dipendenza dal cloud.

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad + 8 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

Il paper presenta VISION-ICE, un framework basato su reti neurali convoluzionali 3D che analizza i video dell'ecocardiografia intracardiaca per localizzare automaticamente l'origine delle aritmie, dimostrando la fattibilità di ridurre i tempi procedurali e migliorare le decisioni cliniche.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Il paper presenta OptimusVLA, un modello VLA potenziato da una memoria duale che combina un prior globale e una memoria di coerenza locale per migliorare l'efficienza inferenziale, la robustezza e la precisione nella manipolazione robotica rispetto agli stati dell'arte.

Zaijing Li, Bing Hu, Rui Shao + 5 more2026-02-25🤖 cs.AI

De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

Questo lavoro presenta un framework basato su modelli visione-linguaggio che de-renderizza, analizza e corregge i grafici identificando errori di progettazione e suggerendo modifiche concrete per migliorare la qualità delle visualizzazioni e la competenza degli utenti.

Valentin Bonas, Martin Sinnona, Viviana Siless + 1 more2026-02-25💻 cs

N4MC: Neural 4D Mesh Compression

Il paper presenta N4MC, il primo framework di compressione neurale 4D che, sfruttando la ridondanza temporale e l'interpolazione basata su transformer, supera lo stato dell'arte nella compressione di sequenze di mesh variabili nel tempo consentendo al contempo una decodifica in tempo reale.

Guodong Chen, Huanshuo Dong, Mallesham Dasari2026-02-25💻 cs

Inspectorch: Efficient rare event exploration in solar observations

Il paper introduce Inspectorch, un framework open-source basato su modelli di flusso probabilistici che analizza efficientemente grandi volumi di dati solari per identificare eventi rari e anomali, ottimizzando così l'uso delle risorse computazionali per lo studio di fenomeni fisici estremi.

C. J. Díaz Baso, I. J. Soler Poquet, C. Kuckein + 2 more2026-02-25🔭 astro-ph

GSNR: Graph Smooth Null-Space Representation for Inverse Problems

Il paper propone GSNR, un metodo che migliora la risoluzione dei problemi inversi nell'imaging incorporando informazioni strutturate nello spazio nullo tramite una rappresentazione basata su grafi, ottenendo risultati superiori rispetto ai modelli esistenti in termini di qualità dell'immagine ricostruita.

Romario Gualdrón-Hurtado, Roman Jacome, Rafael S. Suarez + 1 more2026-02-25⚡ eess

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Questo lavoro introduce il primo framework per la tracciabilità dei circuiti nei modelli visione-linguaggio, rivelando come integrino gerarchicamente concetti visivi e semantici per il ragionamento multimodale e dimostrando la causalità e il controllo di tali circuiti attraverso tecniche di steering e patching.

Jingcheng Yang, Tianhu Xiong, Shengyi Qian + 2 more2026-02-25🤖 cs.AI

Large-scale Photorealistic Outdoor 3D Scene Reconstruction from UAV Imagery Using Gaussian Splatting Techniques

Questo studio presenta un pipeline end-to-end che combina lo streaming video in tempo reale da droni, la fusione sensoriale e l'ottimizzazione del Gaussian Splatting 3D per generare ricostruzioni 3D fotorealistiche di grandi scenari esterni con latenza ridotta e prestazioni di rendering superiori rispetto ai metodi basati su NeRF.

Christos Maikos, Georgios Angelidis, Georgios Th. Papadopoulos2026-02-25💻 cs

BiRQA: Bidirectional Robust Quality Assessment for Images

Il paper presenta BiRQA, un modello di valutazione della qualità delle immagini a riferimento completo che combina un'architettura piramidale bidirezionale con una strategia di addestramento avversaria ancorata per ottenere prestazioni all'avanguardia, una velocità di esecuzione in tempo reale e una robustezza significativa contro gli attacchi avversari.

Aleksandr Gushchin, Dmitriy S. Vatolin, Anastasia Antsiferova2026-02-25💻 cs

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

Il paper presenta 3DSPA, un autoencoder di punti semantici 3D che valuta automaticamente il realismo dei video generati dall'IA integrando traiettorie spaziotemporali, informazioni di profondità e caratteristiche semantiche per rilevare violazioni delle leggi fisiche e garantire coerenza temporale senza bisogno di un video di riferimento.

Bhavik Chandna, Kelsey R. Allen2026-02-25💻 cs

Momentum Guidance: Plug-and-Play Guidance for Flow Models

Il paper introduce la Momentum Guidance, una tecnica plug-and-play che migliora la qualità dei campioni nei modelli generativi basati su flussi sfruttando una media mobile esponenziale delle velocità passate lungo la traiettoria ODE, ottenendo risultati superiori senza aumentare il costo computazionale rispetto ai metodi tradizionali.

Runlong Liao, Jian Yu, Baiyu Su + 3 more2026-02-25🤖 cs.LG

Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

Questo lavoro introduce un campo estetico 3D basato su Gaussian Splatting che, estraendo conoscenze da modelli 2D preaddestrati e utilizzando catture sparse, permette di suggerire efficientemente punti di vista fotografici esteticamente superiori senza ricorrere a costose esplorazioni RL o acquisizioni dense.

Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu + 2 more2026-02-25💻 cs

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

Il paper presenta SimLBR, un framework efficiente che migliora la generalizzazione nella rilevazione di immagini fake definendo un confine decisionale attorno alla distribuzione delle immagini reali tramite la regolarizzazione del blending latente, ottenendo risultati superiori su benchmark difficili e introducendo nuove metriche di valutazione orientate all'affidabilità.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

gQIR: Generative Quanta Image Reconstruction

Il paper presenta gQIR, un metodo che adatta i modelli di diffusione latenti su larga scala per ricostruire immagini di alta qualità da burst di frame quantici SPAD rumorosi e sparsi, superando i limiti delle pipeline tradizionali in condizioni di scarsa illuminazione.

Aryan Garg, Sizhuo Ma, Mohit Gupta2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Il paper presenta MedCLIPSeg, un nuovo framework che adatta i modelli visione-linguaggio CLIP per la segmentazione di immagini mediche attraverso un'attenzione probabilistica e una perdita contrastiva, ottenendo risultati superiori in termini di accuratezza, efficienza dei dati e generalizzazione su diverse modalità di imaging e organi.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

SceMoS è un framework innovativo per la sintesi di movimenti umani 3D guidati dal testo che, disaccoppiando la pianificazione globale dall'esecuzione locale tramite rappresentazioni 2D (immagini BEV e mappe di altezza), raggiunge uno stato dell'arte nel realismo e nell'accuratezza dei contatti riducendo al contempo i parametri di addestramento rispetto ai metodi basati su dati 3D completi.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

← Precedente Successivo →