cs.CV articoli | Gist.Science

PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models

Il paper presenta PointAlign, un metodo innovativo di regolarizzazione per l'allineamento a livello di feature che migliora l'efficienza e la preservazione delle informazioni geometriche nei modelli 3D Vision-Language supervisionando esplicitamente i token intermedi delle nuvole di punti, ottenendo risultati significativamente superiori su compiti di classificazione e descrizione 3D.

Yuanhao Su, Shaofeng Zhang, Xiaosong Jia + 1 more2026-03-03💻 cs

DiffTrans: Differentiable Geometry-Materials Decomposition for Reconstructing Transparent Objects

Il paper presenta DiffTrans, un framework di rendering differenziabile che scompone e ricostruisce con precisione la geometria e i materiali di oggetti trasparenti in scene complesse, superando le limitazioni dei metodi esistenti grazie a una rappresentazione basata su FlexiCubes e a un tracciatore di raggi ricorsivo ottimizzato.

Changpu Li, Shuang Wu, Songlin Tang + 3 more2026-03-03💻 cs

Station2Radar: query conditioned gaussian splatting for precipitation field

Il paper presenta Station2Radar, un framework innovativo che fonde osservazioni di stazioni meteorologiche e immagini satellitari tramite un'adattiva splatting gaussiana condizionata da query per generare campi di precipitazione in tempo reale con una precisione superiore del 50% rispetto ai prodotti grigliati convenzionali.

Doyi Kim, Minseok Seo, Changick Kim2026-03-03💻 cs

An Interpretable Local Editing Model for Counterfactual Medical Image Generation

Il paper presenta InstructX2X, un nuovo modello interpretabile per la generazione di immagini mediche controfattuali che, grazie a un'editing locale specifica per regione e a mappe di guida, risolve i problemi di modifiche indesiderate e mancanza di trasparenza, supportato dal nuovo dataset MIMIC-EDIT-INSTRUCTION.

Hyungi Min, Taeseung You, Hangyeul Lee + 2 more2026-03-03🤖 cs.AI

LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Il paper presenta Fact-Flow, un nuovo framework che migliora l'accuratezza fattuale nella generazione di referti medici tramite MLLM separando l'identificazione delle evidenze cliniche dalla stesura del testo e sfruttando un LLM per creare automaticamente dataset annotati, superando così le limitazioni dei metodi attuali.

Cunyuan Yang, Dejuan Song, Xiaotao Pang + 7 more2026-03-03💬 cs.CL

Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models

Il paper propone TARA, una strategia che allinea le rappresentazioni dei Large Multimodal Models con quelle di modelli fondazionali biologici per migliorare il riconoscimento visivo gerarchico, garantendo coerenza tassonomica e accuratezza sia per categorie note che per quelle nuove.

Hulingxiao He, Zhi Tan, Yuxin Peng2026-03-03🤖 cs.AI

TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis

Il paper propone TAP-SLF, un framework unificato che combina prompt soft specifici per il compito e un fine-tuning selettivo degli strati superiori per adattare in modo efficiente i modelli fondazione visivi all'analisi multi-task di immagini ecografiche, superando le sfide del sovradattamento e dei costi computazionali.

Hui Wan, Libin Lan2026-03-03🤖 cs.AI

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Questo articolo presenta ICLA, un meccanismo di auto-correzione interna che sfrutta l'attenzione tra i livelli per mitigare le allucinazioni nei modelli visione-linguaggio avanzati, migliorando l'ancoraggio visivo senza richiedere segnali di correzione esterni.

April Fu2026-03-03💻 cs

Mamba-CAD: State Space Model For 3D Computer-Aided Design Generative Modeling

Il paper introduce Mamba-CAD, un modello generativo auto-supervisionato basato sull'architettura Mamba che, sfruttando un nuovo dataset di oltre 77.000 modelli CAD industriali complessi, è in grado di gestire e generare sequenze parametriche più lunghe ed efficaci rispetto alle soluzioni esistenti.

Xueyang Li, Yunzhong Lou, Yu Song + 1 more2026-03-03🤖 cs.AI

SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

Il paper presenta SesaHand, un metodo che migliora la ricostruzione 3D della mano sfruttando la generazione controllata di immagini sintetiche allineate semanticamente e strutturalmente per superare i limiti dei dati sintetici tradizionali.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Questo lavoro propone un metodo di compressione avversariale migliorata per la super-risoluzione video reale, che distilla un efficiente modello Transformer 3D in una rete leggera basata su Stable Diffusion 2D con convoluzioni temporali e un nuovo schema di distillazione avversariale a doppio capo, riducendo i parametri del 95% e accelerando l'inferenza di 8 volte mantenendo alta qualità e coerenza temporale.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

Explainable Continuous-Time Mask Refinement with Local Self-Similarity Priors for Medical Image Segmentation

Il paper presenta LSS-LTCNet, un framework spiegabile per la segmentazione delle ulcere del piede che combina descrittori di auto-similarità locale e dinamiche neurali a tempo continuo per ottenere una precisione dei contorni superiore e un'efficienza computazionale ottimizzata rispetto ai modelli tradizionali.

Rajdeep Chatterjee, Sudip Chakrabarty, Trishaani Acharjee2026-03-03💻 cs

ReMoT: Reinforcement Learning with Motion Contrast Triplets

Il paper presenta ReMoT, un paradigma di addestramento unificato che combina un dataset di contrasto del movimento su larga scala (ReMoT-16K) e l'ottimizzazione della politica relativa di gruppo (GRPO) per risolvere le carenze di coerenza spaziotemporale dei modelli linguistici visivi, ottenendo un miglioramento del 25,1% nelle capacità di ragionamento.

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

Il paper presenta OPGAgent, un sistema multi-strumento basato su agenti che migliora l'interpretazione audibile delle radiografie panoramiche dentali (OPG) coordinando moduli specializzati con un meccanismo di consenso, superando le prestazioni dei modelli VLM esistenti e introducendo il nuovo benchmark OPG-Bench per una valutazione più completa.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

Il paper introduce DreamWorld, un framework unificato che supera i limiti dei modelli di generazione video esistenti adottando un paradigma di modellazione mondiale congiunta, regolato da tecniche di annealing e guida interna, per garantire coerenza temporale, spaziale e semantica nei video generati.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Il paper presenta un sistema di imaging HDR co-progettato a livello hardware e algoritmo che integra una camera SVE asimmetrica con un sensore a eventi, utilizzando un framework di allineamento cross-modale e una rete di ricostruzione per superare i limiti di sovraesposizione e migliorare la fedeltà dei dettagli in condizioni di illuminazione estrema.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Questo lavoro introduce FEWTRANS, un benchmark completo con un protocollo di valutazione rigoroso per il trasferimento few-shot, rivelando che la scelta del modello pre-addestrato è il fattore dominante e che il semplice fine-tuning completo spesso supera metodi più complessi grazie a micro-aggiustamenti distribuiti, mentre i modelli multimodali subiscono un crollo delle prestazioni in domini specializzati a causa della rarità linguistica.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

Il paper presenta U-VLM, un modello gerarchico di visione e linguaggio che, attraverso un addestramento progressivo e l'iniezione multi-livello delle caratteristiche visive, supera le prestazioni degli attuali modelli per la generazione automatica di referti radiologici da immagini 3D, dimostrando che un'adeguata pre-addestramento del codificatore visivo è più efficace dell'utilizzo di grandi modelli linguistici pre-addestrati.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Questo studio quantifica il rischio di manipolazione degli esiti elettorali statunitensi tramite esempi avversariali fisici, rivelando un divario tra gli attacchi più efficaci nel dominio digitale e quelli nel dominio fisico e fornendo un quadro probabilistico per determinare il numero di schede necessarie per ribaltare un'elezione.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

Il paper presenta TaiChi, un nuovo framework di modelli visione-linguaggio che utilizza un doppio tokenizzatore visivo, una rete di attenzione bilaterale e un proiettore basato su KAN per migliorare l'allineamento multimodale e abilitare un sistema di comunicazione a token efficiente per compiti multipli.

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

← Precedente Successivo →