cs.CV articoli | Gist.Science

Scaling Laws For Diffusion Transformers

Questo studio conferma per la prima volta l'esistenza di leggi di scalabilità nei Diffusion Transformers (DiT), dimostrando che la perdita di pre-addestramento segue una relazione di potenza con il calcolo computazionale, permettendo così di prevedere con precisione le dimensioni ottimali del modello, i requisiti di dati e le prestazioni di generazione per budget computazionali anche molto elevati.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

Il paper presenta TextMaster, un framework unificato che migliora l'accuratezza e il controllo dello stile nell'editing testuale delle immagini integrando informazioni sui glifi ad alta risoluzione, perdite percettive e un meccanismo di attenzione per la regressione dei riquadri, superando così le limitazioni delle metodologie esistenti.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Il paper introduce FlowCLAS, un framework ibrido che potenzia i flussi normalizzanti per la segmentazione delle anomalie nei robot combinando l'obiettivo di massima verosimiglianza con una perdita di contrasto tramite esposizione agli outlier, ottenendo così prestazioni all'avanguardia e colmando il divario con i metodi discriminatori.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Il paper presenta VideoMindPalace, un nuovo framework che organizza i momenti chiave dei video in un grafo semantico strutturato ispirato al "palazzo della mente" per migliorare l'analisi di video lunghi e il ragionamento spaziotemporale nei modelli linguistici visivi, accompagnato dal benchmark VMB per valutarne le capacità.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

Il paper propone DCENWCNet, un nuovo modello ensemble basato su tre architetture CNN con configurazioni uniche di dropout e max-pooling, che supera gli stati dell'arte nella classificazione dei globuli bianchi sul dataset Rabbin-WBC offrendo al contempo spiegazioni interpretabili tramite LIME per aumentare la fiducia nella diagnosi automatizzata.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

Il paper propone STAG, un metodo di fine-tuning efficiente per Transformer su nuvole di punti 3D che utilizza una rete laterale a convoluzione grafica per ridurre significativamente costi computazionali e parametri adattabili mantenendo un'alta accuratezza, accompagnato dal nuovo benchmark PCC13.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Il paper introduce il dataset UNB StepUP-P150, una raccolta di oltre 200.000 misurazioni ad alta risoluzione delle pressioni plantari di 150 individui in diverse condizioni di calzatura e velocità, destinata a stabilire un nuovo benchmark per l'analisi e il riconoscimento del passo tramite tecnologie di pressione sotto il piede.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

Il paper presenta un nuovo modello generativo basato su distribuzioni geometriche che, attraverso l'encoding delle distribuzioni in mappe di caratteristiche 2D e l'uso di modelli SMPL in un framework di training a due stadi, supera gli stati dell'arte nella generazione di geometrie umane realistiche con dettagli di abbigliamento e interazioni corpo-vestiti, ottenendo un miglioramento del 57% nella qualità geometrica.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Il paper presenta Implicit U-KAN 2.0, una nuova architettura di segmentazione medica basata su equazioni differenziali ordinarie neurali del secondo ordine e strati MultiKAN, che migliora l'efficienza, l'interpretabilità e le prestazioni teoriche rispetto ai metodi esistenti.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Questo studio analizza nove dimensioni di qualità dei modelli di classificazione delle immagini oltre alla sola accuratezza, rivelando l'impatto di diverse strategie di addestramento e introducendo il punteggio QUBA per valutare e raccomandare modelli ben comportati in base alle esigenze specifiche.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

Il paper propone DeCon, un framework di apprendimento auto-supervisionato che migliora le prestazioni nelle previsioni dense attraverso un pre-addestramento contrastivo congiunto di encoder e decoder, superando i metodi tradizionali focalizzati solo sull'encoder.

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Questo lavoro presenta un nuovo framework unificato per la sintesi di interazioni uomo-oggetto che sfrutta i modelli visione-linguaggio per generare automaticamente politiche di movimento e funzioni di ricompensa, superando la necessità di dati di motion capture costosi o di ingegneria manuale delle ricompense.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Questo paper presenta \data, un dataset focalizzato sulle interazioni tra entità, e \model, un metodo che sfrutta i Modelli Linguistici Multimodali per decomporre le interazioni e raffinare le immagini generate, migliorando significativamente la qualità delle relazioni spaziali e funzionali tra gli oggetti.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Il paper propone "Inception", il primo attacco di jailbreak multi-turno che sfrutta i meccanismi di memoria dei sistemi di generazione testo-immagine per aggirare i filtri di sicurezza suddividendo e ricorsivamente elaborando le intenzioni malevole, ottenendo un tasso di successo superiore del 20% rispetto alle tecniche esistenti.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Questo studio propone la CSASN, una rete di apprendimento multitask basata su un'architettura a doppio ramo con meccanismi di attenzione canale-spaziale, che migliora l'accuratezza nella diagnosi delle rare carcinomi tiroidei mediante immagini ecografiche superando gli squilibri dei dati e le sfide morfologiche.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Questo articolo caratterizza il "Pattern di Rumore di Sfocatura Sintetica" (SDNP) introdotto da Apple nelle foto in modalità ritratto, proponendo un metodo per la sua stima precisa e dimostrando come il suo utilizzo per mascherare le aree interessate migliori l'accuratezza della verifica forense della fonte della fotocamera, riducendo significativamente i falsi positivi.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Il paper propone MoB, un metodo di pruning dei token visivi basato sulla teoria della copertura multi-obiettivo che risolve il compromesso tra allineamento e preservazione visiva garantendo prestazioni superiori e scalabilità lineare nei modelli MLLM.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Questo studio presenta un'analisi comparativa tra modelli linguistici di grandi dimensioni e sistemi OCR tradizionali per il riconoscimento del testo in caratteri Nastaliq sui giornali urdu, introducendo il dataset UNB e dimostrando che l'addestramento di modelli LLM su dati specifici migliora significativamente l'accuratezza rispetto alle soluzioni convenzionali.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Questo lavoro propone "Feature Mixing", un metodo semplice e veloce per la sintesi di outlier multimodali che, insieme al nuovo dataset CARLA-OOD, raggiunge prestazioni all'avanguardia nella rilevazione e segmentazione di dati fuori distribuzione con un significativo aumento di velocità rispetto alle tecniche esistenti.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Questo paper introduce il dataset BAH, un nuovo insieme di dati multimodale composto da 1.427 video annotati da esperti per il riconoscimento automatico dell'ambivalenza e dell'esitazione nei contesti di cambiamento comportamentale digitale, fornendo anche risultati preliminari che evidenziano la necessità di modelli spaziotemporali avanzati.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

← Precedente Successivo →