cs.CV articoli | Gist.Science

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Il paper presenta UniFlow, un tokenizzatore visivo unificato che risolve il compromesso tra comprensione e generazione sovrapponendo distillazione adattiva e un decoder a flusso di pixel per ottenere prestazioni superiori in entrambi i domini.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Il paper introduce un innovativo framework di training a due stadi che, attraverso un pre-addestramento auto-supervisionato, permette di addestrare modelli generativi direttamente nello spazio dei pixel con prestazioni superiori rispetto alle controparti nello spazio latente, ottenendo risultati all'avanguardia su ImageNet senza l'uso di VAE pre-addestrati.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Il paper presenta Fly-CL, un framework bio-ispirato al sistema olfattivo della mosca che risolve il problema della multicollinearità nell'apprendimento continuo basato su modelli preaddestrati, garantendo tempi di addestramento ridotti e prestazioni competitive.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Il paper introduce Mono4DGS-HDR, il primo sistema in grado di ricostruire scene 4D ad alto intervallo dinamico (HDR) da video monoculari a bassa esposizione con esposizioni alternate, utilizzando un approccio a due stadi basato su Gaussian Splatting che apprende una rappresentazione ortografica iniziale per poi affinarla nello spazio mondiale senza richiedere pose camera note.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

Il paper introduce LightMem, un sistema di memoria leggero ed efficiente ispirato al modello di memoria umana di Atkinson-Shiffrin che, organizzando le informazioni in tre stadi (sensoriale, a breve termine e a lungo termine con aggiornamenti offline), migliora significativamente l'accuratezza delle domande e riduce drasticamente l'uso di token e chiamate API rispetto ai metodi esistenti.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

Il paper presenta BioCAP, un modello fondazionale biologico che supera le limitazioni della mancanza di descrizioni testuali reali generando didascalie sintetiche accurate tramite modelli linguistici multimodali, migliorando così l'allineamento tra immagini e testo per compiti come la classificazione delle specie e il recupero immagine-testo.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP è un metodo feed-forward che prevede campi volumetrici di proprietà meccaniche (modulo di Young, rapporto di Poisson e densità) per oggetti 3D, garantendo la validità fisica dei materiali attraverso un addestramento su un dataset reale e superando le tecniche precedenti in accuratezza e velocità.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Il paper introduce Concerto, un metodo di apprendimento auto-supervisionato congiunto 2D-3D che, ispirandosi alla sinergia multisensoriale umana, supera le prestazioni degli stati dell'arte esistenti nella percezione delle scene 3D e abilita la percezione in mondi aperti attraverso rappresentazioni spaziali coerenti e semanticamente ricche.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Il paper presenta ProMoE, un framework Mixture-of-Experts con una guida di routing esplicita a due fasi che risolve le sfide dell'eterogeneità funzionale e della ridondanza spaziale nei token visivi, permettendo ai Diffusion Transformers di scalare in modo più efficace rispetto agli stati dell'arte su ImageNet.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Il paper presenta "Brain-IT", un approccio basato su un Transformer di Interazione Cerebrale che ricostruisce fedelmente le immagini viste dai soggetti a partire da dati fMRI, superando gli stati dell'arte attuali e permettendo risultati comparabili con soli un'ora di registrazione cerebrale.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Questo lavoro propone un metodo innovativo che genera video di volti parlanti ad alta risoluzione esclusivamente da un singolo input audio, superando i limiti delle tecniche esistenti grazie a un modello di diffusione guidato da prior statistici e a un modulo di raffinamento regionale per migliorare la sincronizzazione labiale e i dettagli.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Il paper presenta ThinkMorph, un modello unificato che, grazie all'addestramento su tracce di ragionamento intercalate testo-immagine, dimostra proprietà emergenti di intelligenza multimodale e supera le prestazioni di modelli proprietari su benchmark visivi.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Questo studio dimostra che la segmentazione di immagini mediche segue una legge di scala limitata dalla geometria anatomica, dove l'uso di aumentazioni topologicamente consapevoli migliora l'efficienza dei dati riducendo l'errore senza alterare la struttura fondamentale della legge di scala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Il paper presenta VeCoR, un metodo di regolarizzazione contrastiva per il Flow Matching che migliora la stabilità e la qualità delle immagini introducendo un meccanismo di attrazione e repulsione per guidare il campo di velocità sia verso direzioni corrette che lontano da quelle errate, ottenendo significativi miglioramenti nei modelli generativi leggeri e a pochi step.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Il paper presenta UltraViCo, un metodo gratuito e plug-and-play che risolve i limiti di estrapolazione nei trasformatori di diffusione video sopprimendo la dispersione dell'attenzione per i token oltre la finestra di addestramento, permettendo così di raddoppiare il limite di estrapolazione fino a 4 volte la lunghezza originale con significativi miglioramenti nella qualità e nella coerenza del video.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

Il paper presenta ReSAM, un framework di segmentazione auto-prompting basato su annotazioni puntuali che adatta il Segment Anything Model alle immagini di telerilevamento attraverso un ciclo iterativo di raffinamento, riquery e rinforzo, ottenendo prestazioni superiori rispetto ai metodi esistenti su diversi dataset di benchmark.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

Il paper presenta InnoGym, il primo benchmark e framework progettato per valutare sistematicamente il potenziale innovativo degli agenti AI attraverso metriche di guadagno prestazionale e novità, rivelando un divario critico tra creatività e robustezza nelle soluzioni generate.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision è un paradigma efficiente per i modelli visione-linguaggio che, ispirandosi alla visione attiva umana e utilizzando un framework di apprendimento per rinforzo con ottimizzazione della politica disaccoppiata (DTPO), determina autonomamente il numero minimo di token visivi necessari per ogni campione attraverso un approccio a grana grossa-fine che combina token compressi e l'acquisizione selettiva di regioni chiave.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Il paper propone FARL, un nuovo framework che migliora la generalizzazione a pochi esempi nei modelli visione-linguaggio disaccoppiando esplicitamente le rappresentazioni visive in caratteristiche strutturali e stilistiche tramite analisi di Fourier e un meccanismo di attenzione incrociata.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Questo studio presenta un approccio di apprendimento profondo non supervisionato basato su un autoencoder variazionale leggero, integrato con immagini satellitari Planet Labs ad alta risoluzione, che consente il rilevamento quasi in tempo reale delle aree colpite da incendi legati al conflitto in Sudan, superando le prestazioni dei metodi tradizionali.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

← Precedente Successivo →