cs.CV articoli | Gist.Science

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Il paper presenta DAWN-FM, un metodo di Flow Matching che integra embedding di dati e rumore per risolvere problemi inversi mal posti in modo robusto, permettendo anche la quantificazione dell'incertezza attraverso la generazione di molteplici esiti plausibili.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Il paper propone FiLo++, un metodo per il rilevamento di anomalie in scenari zero-shot e few-shot che combina descrizioni testuali granulari fuse generate da LLM con una localizzazione deformabile basata su Grounding DINO per superare i limiti delle descrizioni generiche e delle corrispondenze a patch rigide.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Questo articolo dimostra che l'utilizzo di funzioni di attivazione basate su basi ortonormali (polinomiali, trigonometriche e tropicali), combinate con un'inizializzazione che preserva la varianza, permette di addestrare con successo modelli profondi come GPT-2 e ConvNeXt risolvendo i problemi di esplosione e svanimento dei gradienti, offrendo al contempo nuove prospettive sull'interpretazione strutturale delle reti neurali e facilitando il fine-tuning tramite approssimazione di attivazioni classiche.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Questo studio dimostra che l'inferenza generativa profonda applicata alle mappe di perfusione derivate dalla TC angiografica (CTA) permette di localizzare i substrati neurali dei deficit clinici nell'ictus ischemico acuto senza conoscere la lesione stessa, offrendo un potente strumento per la caratterizzazione funzionale precoce della malattia.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Questo studio dimostra che, sebbene CLIP appaia comportarsi come un modello "bag-of-words" nell'allineamento cross-modale, le informazioni sulle relazioni attributo-oggetto sono già presenti nelle sue rappresentazioni unimodali e possono essere recuperate efficacemente tramite una semplice trasformazione lineare, migliorando così le prestazioni senza necessità di un addestramento costoso.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Il paper introduce WorldSense, il primo benchmark omni-modale che valuta la comprensione video integrata di audio, visivi e testo attraverso 1.662 video sincronizzati e 3.172 domande, rivelando le attuali limitazioni dei modelli nello scenario reale.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

Questo lavoro dimostra che meno dell'1% dei parametri dei modelli di diffusione, localizzati esclusivamente nei livelli di attenzione, è responsabile della generazione del testo nelle immagini, permettendo di migliorare l'efficienza, l'editing e la sicurezza del contenuto testuale attraverso tecniche mirate come il fine-tuning LoRA su questi specifici strati.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Il paper propone un framework di adattamento robusto per i Modelli Multimodali di grandi dimensioni che migliora l'accuratezza e la generalizzazione nel rilevamento dei meme offensivi, superando le prestazioni dei sistemi supervisionati tradizionali e offrendo maggiore interpretabilità.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Il paper presenta "Jumbo", un nuovo token globale ad alta capacità che, integrato in architetture Vision Transformer (ViT) standard, ne migliora significativamente accuratezza ed efficienza mantenendo la compatibilità con metodi di pre-addestramento e adattabilità a diversi compiti, superando i compromessi tipici tra velocità e precisione.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Il paper presenta MemeXplain, un nuovo dataset spiegabile per la rilevazione di meme propagandistici e d'odio, e propone un approccio di ottimizzazione multi-stadio che, utilizzando modelli visione-linguaggio, supera lo stato dell'arte migliorando sia la classificazione che la generazione di spiegazioni.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

Il paper presenta OpenFly, una piattaforma completa che include un motore di rendering avanzato, un toolchain automatizzato e un vasto dataset per la navigazione visione-linguaggio aerea, insieme a un agente specializzato che supera le sfide della navigazione outdoor in ambienti aerei.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Il paper presenta LLaVE, un nuovo framework di modelli di embedding multimodali che utilizza un apprendimento contrastivo ponderato per la difficoltà per superare i limiti delle perdite standard, ottenendo prestazioni all'avanguardia su 36 dataset e dimostrando una forte capacità di generalizzazione zero-shot.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Il paper presenta Vision-R1, un modello MLLM che potenzia le capacità di ragionamento multimodale attraverso un'inizializzazione "cold-start" su un dataset di ragionamento a catena di pensiero generato automaticamente e un addestramento RL con una strategia di soppressione progressiva del pensiero, ottenendo prestazioni paragonabili a OpenAI O1 su benchmark matematici.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Il paper presenta SemHiTok, un tokenizzatore di immagini unificato basato su un codice gerarchico guidato semanticamente che risolve il compromesso tra comprensione e generazione multimodale, ottenendo prestazioni superiori in entrambi i compiti.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

Effective and Efficient Masked Image Generation Models

Il paper presenta eMIGM, un modello unificato che combina generazione di immagini mascherata e diffusione mascherata per ottenere prestazioni all'avanguardia nella generazione di immagini su ImageNet con una maggiore efficienza computazionale rispetto agli approcci esistenti.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

Il paper introduce SPEED, un metodo efficiente per l'eliminazione scalabile e precisa di concetti dai modelli di diffusione testo-immagine che, modificando direttamente i parametri del modello all'interno di uno spazio nullo e utilizzando strategie di filtraggio e vincoli invarianti, garantisce la preservazione della qualità dei concetti non target permettendo di rimuovere fino a 100 concetti in soli 5 secondi.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Questo lavoro presenta un nuovo framework di valutazione multi-obiettivo, disponibile pubblicamente e applicabile in modo agnostico al modello, che facilita l'analisi sistematica dei compromessi tra utilità e equità nei sistemi di Machine Learning, con una specifica validazione empirica nel dominio dell'imaging medico.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Il paper presenta un modello di diffusione video consapevole dell'obiettivo che genera video da un'immagine di input, permettendo a un attore di interagire con un oggetto specifico definito da una maschera di segmentazione e descritto tramite un prompt testuale, migliorando così la pianificazione delle interazioni umano-oggetto e abilitando applicazioni come la sintesi di movimenti 3D e la creazione di contenuti video a lungo termine.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Il paper propone AdaRank, un nuovo framework di fusione di modelli che migliora l'efficienza e le prestazioni nel multi-task learning selezionando adattivamente le direzioni singolari più utili e rimuovendo dinamicamente quelle interferenti tramite minimizzazione dell'entropia, ottenendo risultati all'avanguardia con un divario prestazionale quasi nullo rispetto ai modelli fine-tuned.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Questo lavoro introduce i "concetti analitici" come ponte tra la conoscenza semantica dei modelli linguistici multimodali e il mondo fisico, permettendo ai robot di manipolare oggetti articolati in modo generalizzato e accurato grazie a rappresentazioni informate dalla fisica.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

← Precedente Successivo →