cs.CV articoli | Gist.Science

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Questo articolo propone una tassonomia a tre livelli e un'API unificata basata su TorchGeo per standardizzare l'accesso ai prodotti di embedding pre-calcolati dei Modelli Fondamentali Geospaziali, superando le barriere di interoperabilità e facilitando il confronto tra modelli e la riproducibilità nell'osservazione della Terra.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Il paper introduce ACLNet, una rete di apprendimento contrastivo basata sull'affinità che migliora la comprensione delle attività umane scheletriche sfruttando le similarità strutturali tra classi e gestendo dinamicamente i campioni anomali per ottenere una migliore discriminazione delle caratteristiche.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Il paper presenta CER-HV, un framework human-in-the-loop che combina un rilevatore di rumore basato su CER e la verifica umana per identificare e correggere errori nei dataset di riconoscimento di testo manoscritto in caratteri arabi, migliorando significativamente la qualità dei dati e le prestazioni dei modelli.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Il documento propone un approccio di ottimizzazione guidato dal principio di Pareto, basato su una strategia curriculare regionale e un meccanismo di etichettatura fuzzy, per migliorare la segmentazione delle immagini mediche gestendo in modo efficace l'incertezza non uniforme e stabilizzando la convergenza del modello.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

Il paper propone DVLA-RL, un approccio innovativo per l'apprendimento con pochi esempi che combina un allineamento semantico visivo-linguistico a due livelli con un meccanismo di gating basato sul reinforcement learning per ottenere prestazioni state-of-the-art su nove benchmark.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Questo lavoro propone un innovativo framework di calcolo totalmente ottico basato su reti neurali diffrattive (DONN) per l'efficienza energetica nella segmentazione semantica e nel rilevamento delle corsie per la guida autonoma, dimostrando la sua efficacia attraverso esperimenti su dataset reali e scenari simulati.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Il paper introduce GOT-Edit, un approccio di modifica online del modello che integra indizi geometrici 3D in un tracciatore generico di oggetti 2D, migliorando significativamente la robustezza e l'accuratezza in scenari complessi come occlusioni e clutter.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

Il rapporto presenta UI-Venus-1.5, un agente GUI unificato e end-to-end che, grazie a un avanzato mid-training, allineamento tramite apprendimento per rinforzo online e fusione di modelli, stabilisce nuovi record di prestazioni su benchmark globali e dimostra robuste capacità di navigazione in app mobili cinesi.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Questo studio dimostra che i modelli fondazionali geospaziali, in particolare Prithvi-EO-2.0 e TerraMind, superano i modelli baselines tradizionali in compiti ecologici chiave come la stima delle caratteristiche forestali e il rilevamento delle torbiere, pur richiedendo un'attenta allineamento dei dati e risoluzioni elevate per massimizzare le prestazioni.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Il paper propone DriveMamba, un modello scalabile basato su State Space (Mamba) che supera le limitazioni dei paradigmi E2E-AD esistenti grazie a una decodifica unificata a complessità lineare e a un'architettura task-centrica che integra modellazione dinamica delle relazioni, corrispondenza implicita tra viste e fusione temporale a lungo termine per una guida autonoma efficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Il paper presenta Sim2Radar, un framework end-to-end che colma il divario tra simulazione e realtà per la percezione radar a onde millimetriche ricostruendo scene 3D materiali-aware da immagini RGB tramite ragionamento visione-linguaggio e simulazione fisica, migliorando significativamente le prestazioni dei modelli di rilevamento oggetti reali attraverso l'addestramento su dati sintetici.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Il paper presenta HERO, un nuovo paradigma che combina modelli visivi open-vocabulary per la generalizzazione con un preciso controllo end-effector appreso tramite simulazione, permettendo ai robot umanoidi di manipolare oggetti arbitrari in ambienti reali non strutturati.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

Tree crop mapping of South America reveals links to deforestation and conservation

Questo studio presenta la prima mappa ad alta risoluzione dei coltivi arborei in Sud America, evidenziando come le attuali mappe normative possano erroneamente classificare l'agroforestazione come foresta e proponendo un approccio più equo per le politiche di conservazione.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Il paper presenta EAGLE, un framework senza riaddestramento che integra l'output di modelli esperti per guidare i modelli linguistici multimodali verso una rilevazione più accurata e semanticamente interpretabile delle anomalie industriali, dimostrando prestazioni competitive rispetto ai metodi basati sul fine-tuning.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Questo studio propone un framework di apprendimento basato su camminate casuali probabilistiche che, sfruttando le reti di similarità corticale fondate sulle pieghe giroidee individuali, supera le limitazioni delle rappresentazioni atlasiche e le sfide dell'eterogeneità anatomica per migliorare la diagnosi differenziale tra malattia di Alzheimer e demenza con corpi di Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

Il paper presenta MIRROR, un framework che migliora il ragionamento multimodale e riduce le allucinazioni visive attraverso un processo iterativo di riflessione e verifica basato su regioni specifiche dell'immagine, supportato dal nuovo dataset ReflectV.

Haoyu Zhang, Yuwei Wu, Pengxiang Li + 6 more2026-02-25💻 cs

Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Il paper introduce SymPL, un framework che trasforma il ragionamento spaziale allocentrico in rappresentazioni simboliche strutturate, migliorando significativamente le prestazioni dei modelli visione-linguaggio in compiti complessi di percezione spaziale da diverse prospettive.

Jaeyun Jang, Seunghui Shin, Taeho Park + 1 more2026-02-25💻 cs

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Il paper propone TraceVision, un modello visione-linguaggio unificato che integra la comprensione spaziale consapevole delle traiettorie per simulare l'attenzione visiva umana, ottenendo prestazioni all'avanguardia in compiti di generazione di didascalie, localizzazione e segmentazione grazie a un nuovo modulo di percezione visiva, una pipeline di addestramento in tre fasi e il dataset RILN.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Il paper propone un framework di distillazione duale basato su contrasto che allinea modelli fondazione ottici e multispettrali per migliorare l'apprendimento delle rappresentazioni nell'osservazione terrestre, ottenendo risultati all'avanguardia in compiti come la segmentazione semantica e il rilevamento dei cambiamenti.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Questo lavoro introduce VBVR, un dataset su larga scala e un framework di valutazione per colmare il divario nella ricerca sul ragionamento video, consentendo studi di scalabilità che mostrano i primi segni di generalizzazione emergente verso compiti non visti.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

← Precedente Successivo →