cs.CV articoli | Gist.Science

Multimodal Classification via Total Correlation Maximization

Questo articolo propone TCMax, un metodo di classificazione multimodale privo di iperparametri che massimizza la correlazione totale tra le caratteristiche multimodali e le etichette per mitigare la competizione tra le modalità e migliorare le prestazioni rispetto agli approcci esistenti.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng LuWed, 11 Ma💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Il paper propone B-DENSE, un nuovo framework che migliora l'efficienza dell'inferenza nei modelli di diffusione tramite allineamento denso di traiettorie multi-ramo, permettendo al modello studente di apprendere informazioni strutturali intermedie complete e ottenere una qualità di generazione superiore rispetto alle tecniche di distillazione esistenti.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree SinghiWed, 11 Ma🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Il paper presenta CoPeDiT, un modello di diffusione latente basato su transformer che, grazie a una percezione autonoma dello stato di completezza dei dati, risolve in modo unificato e robusto i problemi di sintesi 3D delle risonanze magnetiche cerebrali e cardiache senza dipendere da guide esterne.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Il paper presenta ChimeraLoRA, un metodo che combina un LoRA condiviso a livello di classe con LoRA specifici per immagine, potenziati da un meccanismo di rafforzamento semantico e combinati tramite una distribuzione di Dirichlet, per generare dataset sintetici diversificati e ricchi di dettagli che migliorano l'accuratezza nella classificazione in scenari con pochi dati.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul OkWed, 11 Ma💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Il paper presenta OrthoAI, un framework neuro-simbolico che integra segmentazione dentale con supervisione sparsa, inferenza di vincoli biomeccanici basata su conoscenza e valutazione del trattamento per supportare le decisioni cliniche nell'ortodonzia con allineatori trasparenti.

Edouard Lansiaux, Margaux Leman, Mehdi AmmiWed, 11 Ma🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Questo articolo presenta un approccio a doppia pipeline per la segmentazione di immagini di uccelli basato su modelli fondazionali del 2025, che combina Grounding DINO 1.5 e YOLOv11 con SAM 2.1 per ottenere risultati di precisione superiore sia in modalità zero-shot che supervisionata, superando le reti di segmentazione tradizionali.

Abhinav MunagalaWed, 11 Ma🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Il paper introduce DOCFORGE-BENCH, il primo benchmark zero-shot per la rilevazione di falsificazioni documentali, rivelando che i metodi attuali falliscono nella pratica non per carenze rappresentative ma a causa di una scarsa calibrazione delle soglie dovuta alla rarità delle regioni alterate, sottolineando al contempo la necessità urgente di valutare nuove minacce basate sull'IA generativa.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao RenWed, 11 Ma💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Il paper introduce Pri4R, un approccio semplice ed efficace che potenzia i modelli Vision-Language-Action con una comprensione implicita delle dinamiche del mondo attraverso l'addestramento su rappresentazioni 4D privilegiate, migliorando significativamente le prestazioni nei compiti di manipolazione fisica senza aggiungere overhead computazionale durante l'inferenza.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong KimWed, 11 Ma🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Questo articolo offre una revisione comparativa dei processori AI edge e in-sensor, integrando un'analisi architetturale con benchmark empirici su tre piattaforme rappresentative (GAP9, STM32N6 e Sony IMX500) per evidenziare i compromessi tra latenza, efficienza energetica e il crescente potenziale dell'elaborazione direttamente nel sensore.

Luigi Capogrosso, Pietro Bonazzi, Michele MagnoWed, 11 Ma🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Il paper presenta Granulon, un nuovo modello MLLM basato su DINOv3 che integra un controller di granularità testuale e un modulo di aggregazione adattiva per unificare il ragionamento visivo a più livelli di dettaglio, migliorando significativamente l'accuratezza e riducendo le allucinazioni.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming JinWed, 11 Ma💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Il paper presenta un framework nativo per la rappresentazione che implementa una filigrana robusta e impercettibile per il 3D Gaussian Splatting, garantendo un eccellente compromesso tra qualità visiva e resilienza ai disturbi grazie a moduli intelligenti per la selezione dei portatori e all'uso di decoupled finetuning per fornire spiegazioni auditabili.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan LiWed, 11 Ma💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Il paper presenta VisionCreator-R1, un agente nativo per la generazione visiva potenziato da meccanismi di riflessione e addestrato tramite un metodo di ottimizzazione congiunta (RPCO) che risolve l'asimmetria nell'apprendimento per rinforzo tra pianificazione e riflessione, superando le prestazioni di Gemini2.5Pro su benchmark per la generazione di immagini singole e multiple.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin LuWed, 11 Ma💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Questa ricerca presenta un sistema intelligente di assegnazione dei parcheggi basato sulla visione artificiale e sul modello YOLOv8, che utilizza la mappatura prospettica inversa per integrare viste multiple e simulare un ambiente 3D al fine di ottimizzare l'efficienza e la sostenibilità nei contesti urbani.

Prachi Nandi, Sonakshi Satapathy, Suchismita ChinaraWed, 11 Ma💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Il paper presenta MuCTaL, un framework di localizzazione tumorale leggero e addestrato su quattro tipi di cancro che, pur mostrando una buona generalizzazione su un quinto tipo non visto, dimostra come l'addestramento bilanciato su scala moderata possa ottenere prestazioni elevate per l'analisi digitale delle patologie.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue BaoWed, 11 Ma🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR è un nuovo pipeline generativo che supera i limiti dei modelli attuali consentendo un controllo compositivo fine-granularità sui video attraverso un'ibridazione di riferimenti statici e dinamici, permettendo agli utenti di definire esplicitamente le traiettorie, la posizione, la scala e la velocità di ciascun elemento per garantire coerenza spaziotemporale e alta fedeltà visiva.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang MaWed, 11 Ma💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Questo studio presenta un framework sistematico per valutare la vulnerabilità di tre architetture VLM per la guida autonoma agli attacchi fisici tramite patch, rivelando gravi difetti di robustezza e modelli di vulnerabilità specifici che ne compromettono l'affidabilità in scenari critici per la sicurezza.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. PeséWed, 11 Ma💻 cs

Towards Visual Query Segmentation in the Wild

Questo lavoro introduce la segmentazione delle query visive (VQS) come nuovo paradigma per localizzare tutte le occorrenze di un oggetto in video non tagliati, presentando il benchmark su larga scala VQS-4K e il metodo VQ-SAM, che estende SAM 2 per ottenere risultati superiori rispetto agli approcci esistenti.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng FanWed, 11 Ma💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Il paper propone gli adattatori Multi-Kernel Gated (MKGA) e ResMKGA, un'architettura leggera che combina le capacità geometriche dei ViT e quelle testurali delle CNN per migliorare la robustezza nella segmentazione e nella diagnosi di noduli tiroidei in ecografia attraverso diversi centri medici.

Maziar Sabouri, Nourhan Bayasi, Arman RahmimWed, 11 Ma🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Il paper presenta MedCBR, un nuovo framework di ragionamento basato su concetti che integra le linee guida cliniche nei modelli visione-linguaggio per migliorare l'interpretabilità e l'affidabilità delle diagnosi mediche attraverso la generazione di narrazioni cliniche strutturate.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin MousaviWed, 11 Ma🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Il documento presenta la MEGC 2026, una sfida internazionale che introduce due nuovi compiti di question answering su video (ME-VQA e ME-LVQA) basati sull'analisi delle micro-espressioni facciali tramite modelli linguistici e visivi multimodali.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

← Precedente Successivo →