cs.CV articoli | Gist.Science

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Il paper presenta D-REX, un motore differenziabile real-to-sim-to-real che utilizza il Gaussian Splatting per identificare automaticamente la massa degli oggetti da osservazioni reali e trasferire dimostrazioni umane in simulazione, permettendo così l'addestramento di politiche di presa dattilica robuste e riducendo il divario tra simulazione e realtà.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

GRAD-Former è un nuovo framework per il rilevamento dei cambiamenti nelle immagini satellitari che, integrando meccanismi di attenzione differenziale e gate per migliorare l'efficienza e la precisione, supera le prestazioni degli attuali modelli più avanzati su diversi dataset utilizzando un numero inferiore di parametri.

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Il paper presenta BeautyGRPO, un framework di reinforcement learning che risolve il compromesso tra fedeltà e preferenze estetiche nel ritocco facciale attraverso il dataset FRPref-10K, un modello di reward specializzato e una guida dinamica del percorso (DPG) che stabilizza l'esplorazione stocastica per garantire risultati di alta qualità e allineati al gusto umano.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

Il paper presenta FREE-Edit, un framework zero-shot basato su modelli Rectified Flow che utilizza un metodo di iniezione "Editing-aware" (REE) per modulare dinamicamente l'intensità dell'iniezione delle caratteristiche in base alle aree modificate, permettendo così un'editing video guidato da immagini di alta qualità senza necessità di addestramento.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Il paper presenta TripleSumm, un nuovo approccio che fonde in modo adattivo le modalità visiva, testuale e audio per la sintesi video, accompagnato da MoSu, il primo benchmark su larga scala che fornisce tutte e tre le modalità, con risultati che superano lo stato dell'arte su quattro dataset.

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification

Il paper presenta VP-Hype, un nuovo framework ibrido che combina modelli Mamba e Transformer con prompt visivi e testuali per classificare immagini iperspettrali con elevata precisione anche in condizioni di scarsità di dati etichettati.

Abdellah Zakaria Sellam, Fadi Abdeladhim Zidi, Salah Eddine Bekhouche + 4 more2026-03-03💻 cs

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

Il paper presenta RnG, un Transformer feed-forward unificato che combina ricostruzione e generazione per inferire una rappresentazione 3D implicita e completa da osservazioni parziali, permettendo il rendering in tempo reale di nuove viste con geometrie coerenti sia visibili che invisibili.

Mochu Xiang, Zhelun Shen, Xuesong Li + 7 more2026-03-03💻 cs

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

Il paper propone VisNec, un framework di selezione dei dati che misura la "necessità visiva" per identificare e filtrare i campioni ridondanti o non allineati, permettendo di addestrare modelli multimodali in modo più efficiente e robusto utilizzando solo una frazione dei dati originali senza compromettere le prestazioni.

Mingkang Dong, Hongyi Cai, Jie Li + 4 more2026-03-03🤖 cs.AI

CoSMo3D: Open-World Promptable 3D Semantic Part Segmentation through LLM-Guided Canonical Spatial Modeling

Il paper propone CoSMo3D, un metodo che supera le fragilità della segmentazione semantica 3D aperta utilizzando un modello spaziale canonico guidato da LLM per allineare le parti degli oggetti in un riferimento funzionale stabile, ottenendo così nuove prestazioni all'avanguardia.

Li Jin, Weikai Chen, Yujie Wang + 7 more2026-03-03💻 cs

Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Questo lavoro presenta un modello di Vision-Language Model (VLM) finetunato che, partendo da immagini monococulari e comandi linguistici, stima con precisione la posizione 3D degli oggetti per migliorare l'interazione uomo-robot, raggiungendo un errore mediano di 13 mm.

Ari Wahl, Dorian Gawlinski, David Przewozny + 3 more2026-03-03🤖 cs.LG

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

Questo articolo presenta SafeEditBench, un nuovo benchmark per valutare la generalizzazione delle politiche di sicurezza nelle immagini, e SafeGuard-VL, un metodo basato sull'apprendimento per rinforzo con ricompense verificabili che permette ai modelli visione-linguaggio di adattarsi dinamicamente a politiche di sicurezza in evoluzione senza perdere le capacità generali.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Il paper "AgilePruner" presenta un'analisi empirica che evidenzia i limiti dei metodi di pruning basati su attenzione e diversità nei Large Vision-Language Models, proponendo un meccanismo adattivo che combina dinamicamente queste strategie in base alla complessità dell'immagine per migliorare le prestazioni e ridurre le allucinazioni.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Il Challenge MAMA-MIA ha introdotto un benchmark su larga scala per valutare la generalizzabilità e l'equità dei modelli di intelligenza artificiale nella segmentazione dei tumori al seno e nella previsione della risposta terapeutica, utilizzando dati multicentrici statunitensi ed europei per evidenziare le disparità di performance tra diversi sottogruppi demografici.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Questo lavoro propone un metodo che integra una modalità di imaging complementare (come la tomografia a raggi X) per guidare i modelli di diffusione senza necessità di riaddestramento, migliorando significativamente la qualità delle ricostruzioni nella tomografia computerizzata a neutroni con dati sparsi.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

Questo lavoro presenta un quadro unificato che sintetizza i grafi fattoriali e gli stimatori certificabili, dimostrando come la preservazione della struttura dei grafi durante le trasformazioni di rilassamento convesso permetta di implementare ottimizzazioni globalmente ottimali utilizzando le stesse librerie e flussi di lavoro maturi già diffusi nella robotica e nella visione artificiale.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Il paper presenta FoSS, un nuovo framework a due rami che integra l'analisi nel dominio della frequenza con modelli a spazio di stato selettivi per prevedere le traiettorie dei veicoli autonomi con alta precisione e incertezza multimodale, riducendo al contempo significativamente la complessità computazionale e i parametri rispetto alle architetture esistenti.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Questo lavoro propone un framework di apprendimento multi-task per l'analisi ecografica del seno che supera le limitazioni delle approcci convenzionali attraverso un'interazione bidirezionale a più livelli tra i decoder e un meccanismo di coordinamento adattivo basato sull'incertezza, ottenendo prestazioni superiori nella segmentazione delle lesioni e nella classificazione dei tessuti.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Questo studio dimostra che l'apprendimento per rinforzo (RL) migliora l'efficienza del campionamento e l'accuratezza dei modelli visione-linguaggio medici solo quando il fine-tuning supervisionato (SFT) ha già stabilito una solida base di supporto, proponendo di conseguenza una strategia di addestramento che combina SFT e RL per ottenere prestazioni superiori su diversi benchmark medici.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Il paper presenta AG-VAS, un nuovo framework che utilizza modelli multimodali su larga scala potenziati da token di ancoraggio semantico e un modulo di allineamento semantico-pixel per ottenere prestazioni all'avanguardia nella segmentazione zero-shot di anomalie visive in ambito industriale e medico.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Questo studio confronta i metodi di apprendimento supervisionato con quelli a vocabolario aperto per la comprensione visiva post-disastro, concludendo che, nonostante i vantaggi dei modelli fondazionali, l'addestramento supervisionato rimane l'approccio più affidabile per la segmentazione semantica e il rilevamento di oggetti in scenari complessi e affollati.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs

← Precedente Successivo →