cs.CV articoli | Gist.Science

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Il paper presenta RadarVLM, un framework visione-linguaggio che utilizza un dataset simulato di oltre 800.000 coppie radar-testo e un obiettivo di apprendimento chiamato SG-CLIP per unificare la comprensione delle scene radar e migliorare significativamente l'accuratezza spaziale nella segmentazione e nella generazione di descrizioni.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Il paper presenta PowerCLIP, un nuovo framework di pre-addestramento contrastivo che supera i limiti delle allineamenti token-patch tradizionali introducendo un'efficiente allineamento di insiemi di poteri tramite aggregatori non lineari per catturare la semantica composizionale su più regioni, ottenendo prestazioni superiori nelle attività di classificazione e recupero zero-shot.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Il paper introduce DPAC, un metodo di controllo avversariale per il campionamento diffusion che, proiettando i gradienti avversariali sullo spazio tangente definito dalla geometria del punteggio generativo, minimizza la divergenza KL nel percorso e preserva la qualità dei campioni riducendo la distanza di Wasserstein e il FID.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Questo lavoro introduce un approccio di fine-tuning equo per modelli visione-linguaggio medici basato su Low-Rank Adaptation e una funzione di perdita differenziabile per la parità di accuratezza, che riduce le disparità diagnostiche del 69% nella diagnosi del glaucoma mantenendo un'alta efficienza parametrica.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Il paper presenta UniComp, un nuovo framework di compressione video guidato dall'unicità informativa che, superando i metodi basati sull'attenzione, ottimizza la fedeltà delle rappresentazioni visive sotto vincoli computazionali mediante l'analisi dell'entropia condizionale e l'allocazione adattiva delle risorse.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Il paper introduce NeuralRemaster, un metodo di diffusione che preserva la fase dei segnali per generare contenuti strutturati e allineati geometricamente, migliorando significativamente il trasferimento sim-to-real senza costi aggiuntivi o modifiche architetturali.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Questo articolo presenta TAP, un innovativo framework di scoperta automatica e senza addestramento per i proxy nella quantizzazione a precisione mista, che sfrutta i grandi modelli linguistici e strategie evolutive guidate da un controller DPO per ottenere prestazioni all'avanguardia senza richiedere intervento umano o ottimizzazione differenziabile.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Il paper introduce EgoCampus, un nuovo dataset e un modello di deep learning (EgoCampusNet) per prevedere lo sguardo di pedoni in ambienti esterni, basandosi su registrazioni egocentriche raccolte con occhiali Meta Project Aria in un campus universitario.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Il paper introduce DriverGaze360, un nuovo dataset su larga scala con campo visivo a 360° e il relativo metodo DriverGaze360-Net, che superano i limiti delle soluzioni esistenti per la previsione dell'attenzione del guidatore grazie a una visione panoramica completa e a una guida a livello di oggetto.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Il paper presenta ViRC, un framework che migliora il ragionamento matematico multimodale dei modelli linguistici attraverso un meccanismo di "Reason Chunking" ispirato alla psicologia cognitiva e addestrato sul dataset CRUX, ottenendo significativi miglioramenti nelle prestazioni rispetto alle basi di riferimento.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Il paper introduce FluenceFormer, un framework basato su trasformatori che risolve il problema inverso della pianificazione radioterapica attraverso una regressione a due stadi e una funzione di perdita fisica, ottenendo risultati superiori rispetto ai metodi convenzionali nella predizione delle mappe di fluenza.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Questo articolo presenta l'EPD-Solver, un innovativo risolutore ODE parallelo basato su un'ottimizzazione della politica Dirichlet tramite RL e distillazione, progettato per accelerare il campionamento dei modelli di diffusione riducendo gli errori di troncamento e preservando la qualità delle immagini senza richiedere il fine-tuning dell'intero modello.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Il paper presenta PhyGDPO, un nuovo framework per la generazione di video testo-a-video che integra un processo di costruzione dati fisico-aumentato e un'ottimizzazione diretta delle preferenze di gruppo consapevole della fisica per garantire coerenza fisica e superare i limiti degli approcci esistenti.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

MorphAny3D è un framework senza addestramento che utilizza rappresentazioni latenti strutturate (SLAT) e meccanismi di attenzione innovativi per generare sequenze di morphing 3D semanticamente coerenti e temporalmente fluide, anche tra categorie diverse.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Il paper presenta EmboTeam, un nuovo framework per la collaborazione tra robot eterogenei che integra il ragionamento dei modelli linguistici di grandi dimensioni con la pianificazione classica PDDL e alberi comportamentali reattivi, dimostrando su un nuovo benchmark (MACE-THOR) un significativo miglioramento del successo nei compiti complessi rispetto alle soluzioni esistenti.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Il paper presenta EGAgent, un framework agentico basato su grafi di scene entitativi che supera i limiti delle attuali metodologie consentendo un ragionamento composizionale e multi-hop su flussi video egocentrici continui di durata estremamente lunga, ottenendo risultati all'avanguardia su dataset specifici.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Il paper propone MiTA Attention, un meccanismo efficiente che unifica metodi di attenzione esistenti in un quadro comune di scalatura dei pesi veloci e introduce una strategia di compressione e instradamento che riduce la complessità aggregando le coppie chiave-valore più attivate per un insieme limitato di query landmark.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Il paper introduce DDP-WM, un modello del mondo efficiente basato sulla previsione dinamica disaccoppiata che, decomponendo l'evoluzione degli stati in dinamiche primarie e aggiornamenti contestuali, supera i limiti computazionali dei modelli densi ottenendo notevoli miglioramenti sia nella velocità di inferenza che nel successo della pianificazione robotica.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Il paper presenta Rolling Sink, una soluzione priva di addestramento che colma il divario tra l'addestramento a orizzonte limitato e il test a durata aperta nei modelli di diffusione video autoregressivi, permettendo la generazione coerente di video ultra-lunghi (fino a 30 minuti) partendo da clip brevi.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

← Precedente Successivo →