cs.CV articoli | Gist.Science

MedQ-Engine: A Closed-Loop Data Engine for Evolving MLLMs in Medical Image Quality Assessment

Il paper presenta MedQ-Engine, un motore di dati a ciclo chiuso che, attraverso un processo iterativo di clustering, annotazione guidata dall'entropia e affinamento, permette a un modello linguistico multimodale di 8 miliardi di parametri di superare GPT-4o e ridurre il divario con gli esperti umani nella valutazione della qualità delle immagini mediche utilizzando solo 10.000 annotazioni.

Jiyao Liu, Junzhi Ning, Wanying Qu, Lihao Liu, Chenglong Ma, Junjun He, Ningsheng Xu2026-03-23💻 cs

SIMPLER: Efficient Foundation Model Adaptation via Similarity-Guided Layer Pruning for Earth Observation

Il paper introduce SIMPLER, un metodo efficiente che riduce i costi computazionali di adattamento dei modelli foundation per l'osservazione terrestre identificando e rimuovendo automaticamente gli strati ridondanti prima del fine-tuning, ottenendo significativi miglioramenti nella velocità di addestramento e inferenza senza compromettere le prestazioni.

Víctor Barreiro, Johannes Jakubik, Francisco Argüello, Dora B. Heras2026-03-23💻 cs

Learning Like Humans: Analogical Concept Learning for Generalized Category Discovery

Il paper introduce l'ATCG, un modulo plug-and-play che migliora la Scoperta Generalizzata di Categorie generando concetti testuali analogici dai dati etichettati per affinare la distinzione tra categorie note e nuove, specialmente in contesti di categorie fini e simili.

Jizhou Han, Chenhao Ding, Yuhang He, Qiang Wang, Shaokun Wang, SongLin Dong, Yihong Gong2026-03-23🤖 cs.AI

PanORama: Multiview Consistent Panoptic Segmentation in Operating Rooms

Il paper introduce PanORama, il primo sistema di segmentazione panottica multivista per sale operatorie che garantisce coerenza tra le viste tramite interazioni a livello di feature in un'unica passata, ottenendo prestazioni superiori e generalizzando senza necessità di calibrazione delle telecamere.

Tuna Gürbüz, Ege Özsoy, Tony Danjun Wang, Nassir Navab2026-03-23💻 cs

ReconMIL: Synergizing Latent Space Reconstruction with Bi-Stream Mamba for Whole Slide Image Analysis

Il paper presenta ReconMIL, un nuovo framework per l'analisi delle immagini di vetrini interi che combina un modulo di ricostruzione nello spazio latente e un'architettura a doppio flusso basata su Mamba e CNN per colmare il divario di dominio e bilanciare efficacemente l'aggregazione globale e locale delle caratteristiche, superando così gli attuali metodi dello stato dell'arte.

Lubin Gan, Jing Zhang, Heng Zhang, Xin Di, Zhifeng Wang, Wenke Huang, Xiaoyan Sun2026-03-23⚡ eess

SegVGGT: Joint 3D Reconstruction and Instance Segmentation from Multi-View Images

Il paper presenta SegVGGT, un framework end-to-end unificato che esegue simultaneamente la ricostruzione 3D e la segmentazione di istanze direttamente da immagini RGB multi-vista, superando i metodi esistenti grazie all'integrazione profonda delle query di istanza e alla strategia FADA per allineare la distribuzione dell'attenzione.

Jinyuan Qu, Hongyang Li, Lei Zhang2026-03-23💻 cs

RAM: Recover Any 3D Human Motion in-the-Wild

Il paper presenta RAM, un sistema innovativo che combina un tracciatore semantico sensibile al movimento, un modulo HMR temporale potenziato da memoria e un predittore di pose future per ottenere una ricostruzione robusta e coerente del movimento umano 3D in scenari reali complessi, superando lo stato dell'arte in termini di stabilità di tracciamento e accuratezza.

Sen Jia, Ning Zhu, Jinqin Zhong, Jiale Zhou, Huaping Zhang, Jenq-Neng Hwang, Lei Li2026-03-23🤖 cs.AI

LIORNet: Self-Supervised LiDAR Snow Removal Framework for Autonomous Driving under Adverse Weather Conditions

Il paper presenta LIORNet, un framework di rimozione della neve auto-supervisionato basato su LiDAR che integra principi fisici e statistici per migliorare la percezione 3D in condizioni meteorologiche avverse senza richiedere annotazioni manuali.

Ji-il Park, Inwook Shim2026-03-23💻 cs

Timestep-Aware Block Masking for Efficient Diffusion Model Inference

Il paper propone un framework innovativo che ottimizza l'inferenza dei modelli di diffusione apprendendo maschere specifiche per ogni timestep per riutilizzare dinamicamente le caratteristiche e bypassare i blocchi ridondanti, garantendo così un significativo miglioramento dell'efficienza computazionale senza compromettere la qualità generativa.

Haodong He, Yuan Gao, Weizhong Zhang, Gui-Song Xia2026-03-23💻 cs

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Il paper presenta HiPath, un framework leggero di visione-linguaggio che, sfruttando backbones congelati e moduli addestrabili specifici, supera gli approcci esistenti nella generazione di rapporti di patologia strutturati e multi-granulari, ottenendo elevate prestazioni di accuratezza e sicurezza su un vasto dataset clinico reale.

Ruicheng Yuan, Zhenxuan Zhang, Anbang Wang, Liwei Hu, Xiangqian Hua, Yaya Peng, Jiawei Luo, Guang Yang2026-03-23🤖 cs.AI

← Precedente Successivo →