cs.CV articoli | Gist.Science

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Il paper introduce ViPO, una variante dell'ottimizzazione della politica di gruppo relativa (GRPO) che trasforma i feedback a scalare in mappe di vantaggio strutturate a livello di pixel per allineare meglio i modelli generativi visivi alle preferenze umane, correggendo efficacemente gli artefatti localizzati e migliorando le prestazioni sia su immagini che su video.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

Il paper presenta KeyTailor, un nuovo framework basato su un'iniezione di dettagli guidata da fotogrammi chiave e sul dataset ViT-HD, che risolve le sfide della fedeltà dei dettagli e dell'integrità dello sfondo nel virtual try-on video senza modificare l'architettura DiT sottostante.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

Il paper presenta CogFlow, un nuovo framework ispirato alla cognizione umana che risolve le difficoltà dei modelli linguistici multimodali nella risoluzione di problemi matematici visivi integrando percezione, interiorizzazione della conoscenza e ragionamento attraverso meccanismi di ricompensa sinergica e ottimizzazione strategica, supportato dal nuovo dataset MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Il paper presenta Fast-ThinkAct, un framework efficiente che riduce drasticamente la latenza di inferenza nei modelli Vision-Language-Action attraverso un ragionamento latente verbalizzabile, mantenendo al contempo elevate capacità di pianificazione e adattamento in compiti di manipolazione complessi.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

Il paper presenta MetamerGen, un modello di diffusione latente che genera metameri visivi allineati alla comprensione umana delle scene fondendo informazioni di "gist" periferiche a bassa risoluzione con dettagli ad alta risoluzione dalle fissazioni, validando così la sua efficacia attraverso esperimenti comportamentali che dimostrano come l'allineamento semantico basato sulle fissazioni dell'osservatore sia cruciale per la percezione di identità tra immagine originale e generata.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Il paper propone THz-SSDD, una rete neurale auto-supervisionata basata sull'analisi delle componenti principali che risolve simultaneamente il rumore e la sfocatura nelle immagini terahertz sfruttando una strategia di apprendimento "Recorrupted-to-Recorrupted" senza bisogno di dati etichettati.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Questo articolo propone una tassonomia a tre livelli e un'API unificata basata su TorchGeo per standardizzare l'accesso ai prodotti di embedding pre-calcolati dei Modelli Fondamentali Geospaziali, superando le barriere di interoperabilità e facilitando il confronto tra modelli e la riproducibilità nell'osservazione della Terra.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Il paper introduce ACLNet, una rete di apprendimento contrastivo basata sull'affinità che migliora la comprensione delle attività umane scheletriche sfruttando le similarità strutturali tra classi e gestendo dinamicamente i campioni anomali per ottenere una migliore discriminazione delle caratteristiche.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

Il paper presenta CER-HV, un framework human-in-the-loop che combina un rilevatore di rumore basato su CER e la verifica umana per identificare e correggere errori nei dataset di riconoscimento di testo manoscritto in caratteri arabi, migliorando significativamente la qualità dei dati e le prestazioni dei modelli.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Il documento propone un approccio di ottimizzazione guidato dal principio di Pareto, basato su una strategia curriculare regionale e un meccanismo di etichettatura fuzzy, per migliorare la segmentazione delle immagini mediche gestendo in modo efficace l'incertezza non uniforme e stabilizzando la convergenza del modello.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

Il paper propone DVLA-RL, un approccio innovativo per l'apprendimento con pochi esempi che combina un allineamento semantico visivo-linguistico a due livelli con un meccanismo di gating basato sul reinforcement learning per ottenere prestazioni state-of-the-art su nove benchmark.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Questo lavoro propone un innovativo framework di calcolo totalmente ottico basato su reti neurali diffrattive (DONN) per l'efficienza energetica nella segmentazione semantica e nel rilevamento delle corsie per la guida autonoma, dimostrando la sua efficacia attraverso esperimenti su dataset reali e scenari simulati.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

Il paper introduce GOT-Edit, un approccio di modifica online del modello che integra indizi geometrici 3D in un tracciatore generico di oggetti 2D, migliorando significativamente la robustezza e l'accuratezza in scenari complessi come occlusioni e clutter.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

Il rapporto presenta UI-Venus-1.5, un agente GUI unificato e end-to-end che, grazie a un avanzato mid-training, allineamento tramite apprendimento per rinforzo online e fusione di modelli, stabilisce nuovi record di prestazioni su benchmark globali e dimostra robuste capacità di navigazione in app mobili cinesi.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Questo studio dimostra che i modelli fondazionali geospaziali, in particolare Prithvi-EO-2.0 e TerraMind, superano i modelli baselines tradizionali in compiti ecologici chiave come la stima delle caratteristiche forestali e il rilevamento delle torbiere, pur richiedendo un'attenta allineamento dei dati e risoluzioni elevate per massimizzare le prestazioni.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

Il paper propone DriveMamba, un modello scalabile basato su State Space (Mamba) che supera le limitazioni dei paradigmi E2E-AD esistenti grazie a una decodifica unificata a complessità lineare e a un'architettura task-centrica che integra modellazione dinamica delle relazioni, corrispondenza implicita tra viste e fusione temporale a lungo termine per una guida autonoma efficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Il paper presenta Sim2Radar, un framework end-to-end che colma il divario tra simulazione e realtà per la percezione radar a onde millimetriche ricostruendo scene 3D materiali-aware da immagini RGB tramite ragionamento visione-linguaggio e simulazione fisica, migliorando significativamente le prestazioni dei modelli di rilevamento oggetti reali attraverso l'addestramento su dati sintetici.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Il paper presenta HERO, un nuovo paradigma che combina modelli visivi open-vocabulary per la generalizzazione con un preciso controllo end-effector appreso tramite simulazione, permettendo ai robot umanoidi di manipolare oggetti arbitrari in ambienti reali non strutturati.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

Tree crop mapping of South America reveals links to deforestation and conservation

Questo studio presenta la prima mappa ad alta risoluzione dei coltivi arborei in Sud America, evidenziando come le attuali mappe normative possano erroneamente classificare l'agroforestazione come foresta e proponendo un approccio più equo per le politiche di conservazione.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Il paper presenta EAGLE, un framework senza riaddestramento che integra l'output di modelli esperti per guidare i modelli linguistici multimodali verso una rilevazione più accurata e semanticamente interpretabile delle anomalie industriali, dimostrando prestazioni competitive rispetto ai metodi basati sul fine-tuning.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

← Precedente Successivo →