D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Il paper presenta D-REX, un motore differenziabile real-to-sim-to-real che utilizza il Gaussian Splatting per identificare automaticamente la massa degli oggetti da osservazioni reali e trasferire dimostrazioni umane in simulazione, permettendo così l'addestramento di politiche di presa dattilica robuste e riducendo il divario tra simulazione e realtà.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

Il paper presenta BeautyGRPO, un framework di reinforcement learning che risolve il compromesso tra fedeltà e preferenze estetiche nel ritocco facciale attraverso il dataset FRPref-10K, un modello di reward specializzato e una guida dinamica del percorso (DPG) che stabilizza l'esplorazione stocastica per garantire risultati di alta qualità e allineati al gusto umano.

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

Il paper presenta FREE-Edit, un framework zero-shot basato su modelli Rectified Flow che utilizza un metodo di iniezione "Editing-aware" (REE) per modulare dinamicamente l'intensità dell'iniezione delle caratteristiche in base alle aree modificate, permettendo così un'editing video guidato da immagini di alta qualità senza necessità di addestramento.

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Il paper "AgilePruner" presenta un'analisi empirica che evidenzia i limiti dei metodi di pruning basati su attenzione e diversità nei Large Vision-Language Models, proponendo un meccanismo adattivo che combina dinamicamente queste strategie in base alla complessità dell'immagine per migliorare le prestazioni e ridurre le allucinazioni.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Il Challenge MAMA-MIA ha introdotto un benchmark su larga scala per valutare la generalizzabilità e l'equità dei modelli di intelligenza artificiale nella segmentazione dei tumori al seno e nella previsione della risposta terapeutica, utilizzando dati multicentrici statunitensi ed europei per evidenziare le disparità di performance tra diversi sottogruppi demografici.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Certifiable Estimation with Factor Graphs

Questo lavoro presenta un quadro unificato che sintetizza i grafi fattoriali e gli stimatori certificabili, dimostrando come la preservazione della struttura dei grafi durante le trasformazioni di rilassamento convesso permetta di implementare ottimizzazioni globalmente ottimali utilizzando le stesse librerie e flussi di lavoro maturi già diffusi nella robotica e nella visione artificiale.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Il paper presenta FoSS, un nuovo framework a due rami che integra l'analisi nel dominio della frequenza con modelli a spazio di stato selettivi per prevedere le traiettorie dei veicoli autonomi con alta precisione e incertezza multimodale, riducendo al contempo significativamente la complessità computazionale e i parametri rispetto alle architetture esistenti.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

Questo lavoro propone un framework di apprendimento multi-task per l'analisi ecografica del seno che supera le limitazioni delle approcci convenzionali attraverso un'interazione bidirezionale a più livelli tra i decoder e un meccanismo di coordinamento adattivo basato sull'incertezza, ottenendo prestazioni superiori nella segmentazione delle lesioni e nella classificazione dei tessuti.

Abdullah Al Shafi, Md Kawsar Mahmud Khan Zunayed, Safin Ahmmed + 2 more2026-03-03🤖 cs.AI

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Questo studio dimostra che l'apprendimento per rinforzo (RL) migliora l'efficienza del campionamento e l'accuratezza dei modelli visione-linguaggio medici solo quando il fine-tuning supervisionato (SFT) ha già stabilito una solida base di supporto, proponendo di conseguenza una strategia di addestramento che combina SFT e RL per ottenere prestazioni superiori su diversi benchmark medici.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

Questo studio confronta i metodi di apprendimento supervisionato con quelli a vocabolario aperto per la comprensione visiva post-disastro, concludendo che, nonostante i vantaggi dei modelli fondazionali, l'addestramento supervisionato rimane l'approccio più affidabile per la segmentazione semantica e il rilevamento di oggetti in scenari complessi e affollati.

Anna Michailidou, Georgios Angelidis, Vasileios Argyriou + 2 more2026-03-03💻 cs