cs.CV articoli | Gist.Science

Openfly: A comprehensive platform for aerial vision-language navigation

Il paper presenta OpenFly, una piattaforma completa che include un motore di rendering avanzato, un toolchain automatizzato e un vasto dataset per la navigazione visione-linguaggio aerea, insieme a un agente specializzato che supera le sfide della navigazione outdoor in ambienti aerei.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Il paper presenta SemHiTok, un tokenizzatore di immagini unificato basato su un codice gerarchico guidato semanticamente che risolve il compromesso tra comprensione e generazione multimodale, ottenendo prestazioni superiori in entrambi i compiti.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

Effective and Efficient Masked Image Generation Models

Il paper presenta eMIGM, un modello unificato che combina generazione di immagini mascherata e diffusione mascherata per ottenere prestazioni all'avanguardia nella generazione di immagini su ImageNet con una maggiore efficienza computazionale rispetto agli approcci esistenti.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

Il paper introduce SPEED, un metodo efficiente per l'eliminazione scalabile e precisa di concetti dai modelli di diffusione testo-immagine che, modificando direttamente i parametri del modello all'interno di uno spazio nullo e utilizzando strategie di filtraggio e vincoli invarianti, garantisce la preservazione della qualità dei concetti non target permettendo di rimuovere fino a 100 concetti in soli 5 secondi.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Questo lavoro presenta un nuovo framework di valutazione multi-obiettivo, disponibile pubblicamente e applicabile in modo agnostico al modello, che facilita l'analisi sistematica dei compromessi tra utilità e equità nei sistemi di Machine Learning, con una specifica validazione empirica nel dominio dell'imaging medico.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Il paper presenta un modello di diffusione video consapevole dell'obiettivo che genera video da un'immagine di input, permettendo a un attore di interagire con un oggetto specifico definito da una maschera di segmentazione e descritto tramite un prompt testuale, migliorando così la pianificazione delle interazioni umano-oggetto e abilitando applicazioni come la sintesi di movimenti 3D e la creazione di contenuti video a lungo termine.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Il paper propone AdaRank, un nuovo framework di fusione di modelli che migliora l'efficienza e le prestazioni nel multi-task learning selezionando adattivamente le direzioni singolari più utili e rimuovendo dinamicamente quelle interferenti tramite minimizzazione dell'entropia, ottenendo risultati all'avanguardia con un divario prestazionale quasi nullo rispetto ai modelli fine-tuned.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Questo lavoro introduce i "concetti analitici" come ponte tra la conoscenza semantica dei modelli linguistici multimodali e il mondo fisico, permettendo ai robot di manipolare oggetti articolati in modo generalizzato e accurato grazie a rappresentazioni informate dalla fisica.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

Il paper presenta OSDM-MReg, un nuovo framework per la registrazione di immagini multisensoriali che utilizza un modello di diffusione condizionale a un solo passo per tradurre le immagini in un dominio unificato e una rete di registrazione multiscale per migliorare precisione e robustezza.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Questo articolo presenta VR-FuseNet, un modello ibrido di deep learning che fonde i dati eterogenei di cinque dataset pubblici e integra tecniche di intelligenza artificiale spiegabile per migliorare l'accuratezza e l'interpretabilità clinica nella classificazione della retinopatia diabetica.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Questo articolo sostiene che i modelli di visione artificiale per l'ecologia e la biologia debbano essere valutati tramite metriche specifiche dell'applicazione che riflettano l'impatto sulle analisi finali, anziché basarsi esclusivamente sulle tradizionali metriche di apprendimento automatico, come dimostrato da casi studio su stime di abbondanza di scimpanzé e direzione dello sguardo di piccioni.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Questo lavoro propone un metodo basato sull'Intelligenza Artificiale Spiegabile per attribuire in modo efficiente e accurato le distanze di Wasserstein a specifici componenti dei dati, come sottogruppi o caratteristiche, facilitando così l'analisi degli spostamenti dei dataset e dei fenomeni di trasporto.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Il paper propone il framework DURA, che integra un Selettore di Caratteristiche Chiave e una nuova funzione di perdita per modellare l'incertezza delle corrispondenze rumorose e migliorare le prestazioni della ricerca di persone basata su testo in ambienti con dati non perfettamente allineati.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Questo studio teorico dimostra che i transformer preaddestrati in modo avversario possono agire come modelli fondazionali universalmente robusti, adattandosi a compiti di classificazione non visti tramite apprendimento contestuale da esempi puliti senza necessità di ulteriore addestramento avversario.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Il paper presenta la Distanza di Chamfer a pesi flessibili (FCD), una nuova funzione obiettivo asimmetrica che, decouplando precisione locale e completezza globale, risolve i problemi di aggregazione dei punti e migliora significativamente la qualità e l'uniformità strutturale dei risultati nella completazione di nuvole di punti rispetto alla Distanza di Chamfer standard.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Il paper presenta DeepEyes, un modello visione-linguaggio addestrato tramite reinforcement learning che impara nativamente a "pensare con le immagini" integrando attivamente le informazioni visive nel ragionamento, migliorando così le prestazioni in compiti di percezione, ragionamento matematico e riducendo le allucinazioni senza bisogno di dati di ragionamento pre-collezionati.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Il paper introduce GradPCA, un metodo per il rilevamento di dati fuori distribuzione (OOD) che sfrutta la struttura a basso rango dei gradienti delle reti neurali indotta dall'allineamento NTK, applicando l'analisi delle componenti principali (PCA) alle medie dei gradienti per ottenere prestazioni più coerenti e fornendo un quadro teorico che evidenzia il ruolo cruciale della qualità delle feature.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Il paper presenta DTR, una difesa innovativa a tempo di inferenza che mitiga gli attacchi jailbreak multimodali nei modelli visione-linguaggio ottimizzando dinamicamente i pesi dei token visivi nei cache KV, ottenendo così una maggiore robustezza senza compromettere le capacità generali del modello.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

← Precedente Successivo →