cs.CV articoli | Gist.Science

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Il paper presenta HERO, un nuovo paradigma che combina modelli visivi open-vocabulary per la generalizzazione con un preciso controllo end-effector appreso tramite simulazione, permettendo ai robot umanoidi di manipolare oggetti arbitrari in ambienti reali non strutturati.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

Tree crop mapping of South America reveals links to deforestation and conservation

Questo studio presenta la prima mappa ad alta risoluzione dei coltivi arborei in Sud America, evidenziando come le attuali mappe normative possano erroneamente classificare l'agroforestazione come foresta e proponendo un approccio più equo per le politiche di conservazione.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Il paper presenta EAGLE, un framework senza riaddestramento che integra l'output di modelli esperti per guidare i modelli linguistici multimodali verso una rilevazione più accurata e semanticamente interpretabile delle anomalie industriali, dimostrando prestazioni competitive rispetto ai metodi basati sul fine-tuning.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Questo studio propone un framework di apprendimento basato su camminate casuali probabilistiche che, sfruttando le reti di similarità corticale fondate sulle pieghe giroidee individuali, supera le limitazioni delle rappresentazioni atlasiche e le sfide dell'eterogeneità anatomica per migliorare la diagnosi differenziale tra malattia di Alzheimer e demenza con corpi di Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Il paper presenta MIRROR, un framework che migliora il ragionamento multimodale e riduce le allucinazioni visive attraverso un processo iterativo di riflessione e verifica basato su regioni specifiche dell'immagine, supportato dal nuovo dataset ReflectV.

Haoyu Zhang, Yuwei Wu, Pengxiang Li + 6 more2026-02-25💻 cs

Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Il paper introduce SymPL, un framework che trasforma il ragionamento spaziale allocentrico in rappresentazioni simboliche strutturate, migliorando significativamente le prestazioni dei modelli visione-linguaggio in compiti complessi di percezione spaziale da diverse prospettive.

Jaeyun Jang, Seunghui Shin, Taeho Park + 1 more2026-02-25💻 cs

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Il paper propone TraceVision, un modello visione-linguaggio unificato che integra la comprensione spaziale consapevole delle traiettorie per simulare l'attenzione visiva umana, ottenendo prestazioni all'avanguardia in compiti di generazione di didascalie, localizzazione e segmentazione grazie a un nuovo modulo di percezione visiva, una pipeline di addestramento in tre fasi e il dataset RILN.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Il paper propone un framework di distillazione duale basato su contrasto che allinea modelli fondazione ottici e multispettrali per migliorare l'apprendimento delle rappresentazioni nell'osservazione terrestre, ottenendo risultati all'avanguardia in compiti come la segmentazione semantica e il rilevamento dei cambiamenti.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Questo lavoro introduce VBVR, un dataset su larga scala e un framework di valutazione per colmare il divario nella ricerca sul ragionamento video, consentendo studi di scalabilità che mostrano i primi segni di generalizzazione emergente verso compiti non visti.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O è un modello multimodale unificato e compatto che, grazie al suo innovativo proiettore di condizionamento (MCP) e a un addestramento efficiente, abilita per la prima volta su dispositivi mobili prestazioni competitive nella comprensione e generazione visiva in tempo reale, eliminando la dipendenza dal cloud.

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad + 8 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

Il paper presenta VISION-ICE, un framework basato su reti neurali convoluzionali 3D che analizza i video dell'ecocardiografia intracardiaca per localizzare automaticamente l'origine delle aritmie, dimostrando la fattibilità di ridurre i tempi procedurali e migliorare le decisioni cliniche.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

Il paper presenta OptimusVLA, un modello VLA potenziato da una memoria duale che combina un prior globale e una memoria di coerenza locale per migliorare l'efficienza inferenziale, la robustezza e la precisione nella manipolazione robotica rispetto agli stati dell'arte.

Zaijing Li, Bing Hu, Rui Shao + 5 more2026-02-25🤖 cs.AI

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Il paper introduce UniLACT, un modello Vision-Language-Action che supera i limiti delle rappresentazioni basate solo su RGB incorporando la struttura geometrica attraverso un preaddestramento su azioni latenti unificate e consapevoli della profondità, apprese tramite il framework UniLARN, ottenendo così prestazioni superiori in compiti di manipolazione sia in simulazione che nel mondo reale.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs

De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

Questo lavoro presenta un framework basato su modelli visione-linguaggio che de-renderizza, analizza e corregge i grafici identificando errori di progettazione e suggerendo modifiche concrete per migliorare la qualità delle visualizzazioni e la competenza degli utenti.

Valentin Bonas, Martin Sinnona, Viviana Siless + 1 more2026-02-25💻 cs

N4MC: Neural 4D Mesh Compression

Il paper presenta N4MC, il primo framework di compressione neurale 4D che, sfruttando la ridondanza temporale e l'interpolazione basata su transformer, supera lo stato dell'arte nella compressione di sequenze di mesh variabili nel tempo consentendo al contempo una decodifica in tempo reale.

Guodong Chen, Huanshuo Dong, Mallesham Dasari2026-02-25💻 cs

Inspectorch: Efficient rare event exploration in solar observations

Il paper introduce Inspectorch, un framework open-source basato su modelli di flusso probabilistici che analizza efficientemente grandi volumi di dati solari per identificare eventi rari e anomali, ottimizzando così l'uso delle risorse computazionali per lo studio di fenomeni fisici estremi.

C. J. Díaz Baso, I. J. Soler Poquet, C. Kuckein + 2 more2026-02-25🔭 astro-ph

GSNR: Graph Smooth Null-Space Representation for Inverse Problems

Il paper propone GSNR, un metodo che migliora la risoluzione dei problemi inversi nell'imaging incorporando informazioni strutturate nello spazio nullo tramite una rappresentazione basata su grafi, ottenendo risultati superiori rispetto ai modelli esistenti in termini di qualità dell'immagine ricostruita.

Romario Gualdrón-Hurtado, Roman Jacome, Rafael S. Suarez + 1 more2026-02-25⚡ eess

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Questo lavoro introduce il primo framework per la tracciabilità dei circuiti nei modelli visione-linguaggio, rivelando come integrino gerarchicamente concetti visivi e semantici per il ragionamento multimodale e dimostrando la causalità e il controllo di tali circuiti attraverso tecniche di steering e patching.

Jingcheng Yang, Tianhu Xiong, Shengyi Qian + 2 more2026-02-25🤖 cs.AI

Large-scale Photorealistic Outdoor 3D Scene Reconstruction from UAV Imagery Using Gaussian Splatting Techniques

Questo studio presenta un pipeline end-to-end che combina lo streaming video in tempo reale da droni, la fusione sensoriale e l'ottimizzazione del Gaussian Splatting 3D per generare ricostruzioni 3D fotorealistiche di grandi scenari esterni con latenza ridotta e prestazioni di rendering superiori rispetto ai metodi basati su NeRF.

Christos Maikos, Georgios Angelidis, Georgios Th. Papadopoulos2026-02-25💻 cs

BiRQA: Bidirectional Robust Quality Assessment for Images

Il paper presenta BiRQA, un modello di valutazione della qualità delle immagini a riferimento completo che combina un'architettura piramidale bidirezionale con una strategia di addestramento avversaria ancorata per ottenere prestazioni all'avanguardia, una velocità di esecuzione in tempo reale e una robustezza significativa contro gli attacchi avversari.

Aleksandr Gushchin, Dmitriy S. Vatolin, Anastasia Antsiferova2026-02-25💻 cs

← Precedente Successivo →