cs.CV articoli | Gist.Science

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Il paper presenta CalibAtt, un metodo senza addestramento che accelera la generazione video da testo mediante un'attenzione sparsa calibrata che identifica e salta le connessioni tra token irrilevanti, ottenendo un significativo aumento della velocità senza compromettere la qualità.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

Il paper presenta FaceCam, un sistema che genera video di ritratti umani con traiettorie di telecamera personalizzabili, risolvendo le distorsioni geometriche tipiche dei metodi esistenti attraverso una rappresentazione di controllo della scala specifica per i volti e strategie di addestramento ibrido.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Il paper propone un metodo di inpainting basato su transformer, progettato come modulo post-processing indipendente e in tempo reale, che utilizza embedding spaziotemporali per ricostruire texture mancanti in flussi 3D da telecamere multiple, garantendo coerenza visiva e prestazioni superiori rispetto alle tecniche esistenti.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Questo lavoro presenta "Volley Revolver", un nuovo metodo di codifica matriciale che abilita l'inferenza efficiente di reti neurali convoluzionali su dati cifrati tramite crittografia omomorfica, permettendo la classificazione di immagini MNIST su cloud pubblico con un singolo upload di cifrato.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

Il documento propone un approccio innovativo alla privacy visiva che utilizza stati quantistici per mantenere le immagini simultaneamente private e utili fino alla misurazione, controllando il compromesso tra anonimato e utilità tramite un algoritmo di apprendimento per rinforzo basato sul double deep Q-learning.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

GeoTop è un framework matematicamente fondato che unisce l'Analisi Topologica dei Dati e le Curvature di Lipschitz-Killing per risolvere l'ambiguità tra strutture benigne e maligne nell'imaging diagnostico, migliorando significativamente l'accuratezza e l'interpretabilità nella classificazione delle lesioni cutanee.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Questo articolo propone un metodo innovativo per la segmentazione istanza di oggetti mimetizzati in ambito open-vocabulary, sfruttando le capacità dei modelli di diffusione testo-immagine per apprendere rappresentazioni visivo-testuali multiscala che superano le sfide poste dal camuffamento e permettono l'identificazione di nuove classi di oggetti.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

Il paper presenta Export3D, un metodo one-shot per l'animazione ritrattistica 3D-aware che, sfruttando un generatore di tri-piano condizionato dall'espressione e un framework di pre-addestramento contrastivo, permette di controllare espressioni facciali e viste della telecamera senza scambiare le caratteristiche dell'identità.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Il paper presenta FireANTs, un algoritmo di ottimizzazione Riemanniana adattiva multi-scala, privo di training e accelerato da GPU, che risolve il problema dell'adattamento diffeomorfo denso offrendo una velocità e un'efficienza di memoria superiori rispetto ai metodi tradizionali e deep learning, garantendo al contempo una robustezza trasversale a diverse modalità e specie senza necessità di addestramento specifico.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Il paper presenta Merlin, un modello fondazionale visione-linguaggio 3D addestrato su un vasto dataset clinico di scansioni TC addominali e dati sanitari, che supera i modelli esistenti nel comprendere volumi medici complessi e nel svolgere compiti diagnostici, prognostici e di generazione di report senza necessità di annotazioni manuali aggiuntive.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Il paper introduce TrashFuzz, un algoritmo di fuzzing in black-box che genera scenari realistici manipolando la posizione di oggetti stradali comuni per indurre sistemi di guida autonoma a violare le leggi del traffico, dimostrando su Apollo che tali manovre possono portare alla violazione di 15 su 24 norme.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

Il paper propone FINE, un metodo di pre-addestramento innovativo che scompone la conoscenza dei modelli di diffusione in componenti fondamentali chiamati "learngenes", consentendo l'inizializzazione efficiente e diretta di modelli di dimensioni variabili senza la necessità di un ripetuto pre-addestramento.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

Questo studio conferma per la prima volta l'esistenza di leggi di scalabilità nei Diffusion Transformers (DiT), dimostrando che la perdita di pre-addestramento segue una relazione di potenza con il calcolo computazionale, permettendo così di prevedere con precisione le dimensioni ottimali del modello, i requisiti di dati e le prestazioni di generazione per budget computazionali anche molto elevati.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

Il paper presenta TextMaster, un framework unificato che migliora l'accuratezza e il controllo dello stile nell'editing testuale delle immagini integrando informazioni sui glifi ad alta risoluzione, perdite percettive e un meccanismo di attenzione per la regressione dei riquadri, superando così le limitazioni delle metodologie esistenti.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Il paper introduce FlowCLAS, un framework ibrido che potenzia i flussi normalizzanti per la segmentazione delle anomalie nei robot combinando l'obiettivo di massima verosimiglianza con una perdita di contrasto tramite esposizione agli outlier, ottenendo così prestazioni all'avanguardia e colmando il divario con i metodi discriminatori.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Il paper presenta VideoMindPalace, un nuovo framework che organizza i momenti chiave dei video in un grafo semantico strutturato ispirato al "palazzo della mente" per migliorare l'analisi di video lunghi e il ragionamento spaziotemporale nei modelli linguistici visivi, accompagnato dal benchmark VMB per valutarne le capacità.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

Il paper propone DCENWCNet, un nuovo modello ensemble basato su tre architetture CNN con configurazioni uniche di dropout e max-pooling, che supera gli stati dell'arte nella classificazione dei globuli bianchi sul dataset Rabbin-WBC offrendo al contempo spiegazioni interpretabili tramite LIME per aumentare la fiducia nella diagnosi automatizzata.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

Il paper propone STAG, un metodo di fine-tuning efficiente per Transformer su nuvole di punti 3D che utilizza una rete laterale a convoluzione grafica per ridurre significativamente costi computazionali e parametri adattabili mantenendo un'alta accuratezza, accompagnato dal nuovo benchmark PCC13.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Il paper introduce il dataset UNB StepUP-P150, una raccolta di oltre 200.000 misurazioni ad alta risoluzione delle pressioni plantari di 150 individui in diverse condizioni di calzatura e velocità, destinata a stabilire un nuovo benchmark per l'analisi e il riconoscimento del passo tramite tecnologie di pressione sotto il piede.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

Il paper presenta un nuovo modello generativo basato su distribuzioni geometriche che, attraverso l'encoding delle distribuzioni in mappe di caratteristiche 2D e l'uso di modelli SMPL in un framework di training a due stadi, supera gli stati dell'arte nella generazione di geometrie umane realistiche con dettagli di abbigliamento e interazioni corpo-vestiti, ottenendo un miglioramento del 57% nella qualità geometrica.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

← Precedente Successivo →