cs.CV articoli | Gist.Science

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

Il paper introduce RAISE, un framework di raffinamento evolutivo senza addestramento che adatta dinamicamente lo sforzo computazionale alla complessità del prompt durante l'inferenza, ottenendo un allineamento testo-immagine superiore con un minor numero di campioni generati e chiamate a modelli linguistici rispetto alle tecniche esistenti.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Il paper propone che una strategia di raggruppamento casuale dei token visivi, soddisfacendo condizioni chiave come l'informazione posizionale e la diversità delle teste, sia superiore e più semplice rispetto alle complesse strategie di raggruppamento progettate manualmente per i Transformer visivi.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Il paper presenta ArtiFixer, un metodo a due stadi che utilizza un modello generativo bidirezionale addestrato con una strategia di mixing dell'opacità e successivamente distillato in un modello causale auto-regressivo per correggere gli artefatti e migliorare la ricostruzione 3D in aree non osservate, superando significativamente le prestazioni degli approcci esistenti.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

Il paper propone COG, un framework non supervisionato per la stima della posa di oggetti nuovi da una singola vista di riferimento, che risolve le sfide delle corrispondenze cross-view formulando il problema come un trasporto ottimo consapevole della confidenza per generare corrispondenze soft bilanciate e sopprimere le regioni non sovrapposte.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

Il paper presenta M $^2$ , un framework senza addestramento che potenzia gli agenti web a lungo termine attraverso un meccanismo di memoria duale basato sulla sintesi dinamica delle traiettorie e sul recupero di intuizioni, migliorando significativamente il successo e l'efficienza computazionale.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Il paper propone HiClass, un framework di classificazione gerarchica basato sull'apprendimento multi-istanza che, integrando bidirezionalmente le rappresentazioni delle caratteristiche e utilizzando funzioni di perdita specifiche, migliora l'analisi delle immagini istopatologiche intere (WSI) catturando efficacemente sia le caratteristiche a grana grossa che a grana fine.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Questo lavoro introduce EmbedLens per dimostrare che i token visivi nei modelli multimodali sono caratterizzati da una marcata sparsità semantica, dove solo una frazione "viva" trasporta informazioni significative, rendendo superfluo il calcolo visivo interno e suggerendo che l'iniezione diretta negli strati intermedi dell'LLM è sufficiente per le prestazioni ottimali.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

Il paper propone MMA-RAG, un sistema di generazione aumentata dal recupero multimodale che utilizza l'apprendimento delle rappresentazioni interne per adattare dinamicamente l'uso di conoscenze esterne, riducendo le allucinazioni e migliorando l'affidabilità nelle risposte ai quesiti visivi.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

Il paper introduce MLLM-4D, un framework che supera le limitazioni attuali dei modelli linguistici multimodali nella comprensione spaziotemporale 4D, utilizzando una pipeline di curatela dati efficiente e una strategia di post-training basata su SFT e RFT con Chain of Thought specializzati per ottenere risultati all'avanguardia partendo da input video 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Il paper introduce Vision-TTT, un nuovo modello di apprendimento visivo che integra la Test-Time Training per ottenere rappresentazioni efficienti ed espressive con complessità lineare, superando i limiti computazionali dei Transformer visivi tradizionali e ottenendo prestazioni superiori su ImageNet e altre attività a valle.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

Jano è un framework senza addestramento che accelera la generazione di modelli di diffusione adattando dinamicamente l'allocazione delle risorse computazionali in base ai pattern di convergenza eterogenei delle diverse regioni dell'immagine, ottenendo un aumento di velocità fino a 2,4 volte senza compromettere la qualità.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Il paper presenta Mesh-Pro, un nuovo framework di apprendimento per rinforzo asincrono basato sull'ottimizzazione della preferenza di ranking guidata dal vantaggio (ARPO) che, combinando una tokenizzazione ibrida triangolare-quadrangolare e un premio basato sui raggi, migliora significativamente l'efficienza di addestramento e la qualità nella generazione di mesh quadrangolari in stile artistico.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

Il paper propone TP-Spikformer, un metodo di potatura dei token per trasformatori spiking che riduce l'overhead computazionale e di archiviazione mantenendo prestazioni competitive attraverso un criterio euristico di conservazione delle informazioni e una strategia di arresto anticipato a livello di blocco, risultando efficace e scalabile su diverse architetture e compiti senza necessità di riaddestramento.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

Il paper presenta CaptionFool, un attacco avversario universale in grado di manipolare i modelli di descrizione delle immagini più avanzati modificando solo l'1,2% dei patch dell'immagine per generare descrizioni arbitrarie, inclusi contenuti offensivi e termini gergali progettati per eludere i filtri di moderazione.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Il paper presenta RAFM, un metodo di traduzione non accoppiata da CBCT a CT che integra il flusso rettificato con un meccanismo di recupero guidato da un encoder DINOv3 e una banca di memoria globale per generare immagini CT sintetiche di alta qualità, superando le limitazioni dei dati non accoppiati e ottenendo risultati superiori rispetto agli stati dell'arte nel dataset SynthRAD2023.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Questo studio presenta il MIMD-3DVT, un nuovo metodo basato su Vision Transformer 3D che integra dati di risonanza magnetica multi-ROI e informazioni cliniche e demografiche per classificare l'Alzheimer con un'accuratezza del 97,14%, superando i metodi esistenti.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Questo lavoro introduce M-JudgeBench, un benchmark orientato alle capacità per valutare i modelli giudici multimodali, e Judge-MCTS, un framework di generazione dati basato su MCTS per addestrare modelli giudici più robusti e affidabili.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Il paper propone LAS-VAD, un nuovo framework per il rilevamento di anomalie video con supervisione debole che integra un meccanismo di componenti connesse, un'attenzione all'intenzione e informazioni sugli attributi per superare le limitazioni delle annotazioni a livello di video e migliorare le prestazioni su dataset come XD-Violence e UCF-Crime.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

Il paper presenta "Geometry OR Tracker", un sistema in due fasi che corregge le imprecisioni di calibrazione delle telecamere in sala operatoria per garantire una coerenza geometrica globale, migliorando significativamente l'accuratezza del tracciamento 3D e riducendo le discrepanze di profondità rispetto ai metodi tradizionali.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Il paper presenta MIDAS, un framework di jailbreak multimodale che elude i meccanismi di sicurezza dei Modelli Linguistici Multimodali (MLLM) suddividendo le intenzioni dannose in sottounità distribuite su più immagini e ricostruendole tramite ragionamento incrociato, ottenendo un tasso di successo medio del 81,46% su modelli commerciali chiusi.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

← Precedente Successivo →

cs.CV