cs.CV articoli | Gist.Science

A prior information informed learning architecture for flying trajectory prediction

Questo articolo presenta un nuovo framework hardware-efficiente basato su un'architettura Dual-Transformer-Cascaded (DTC) che integra informazioni prioritarie ambientali per prevedere con precisione i punti di atterraggio di palle da tennis, superando i limiti dei metodi tradizionali.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Il paper introduce PICS, un paradigma auto-supervisionato per la composizione di immagini che utilizza un Transformer di Interazione con esperti misti e un blending adattivo per gestire le interazioni spaziali e preservare la coerenza fisica durante la sovrapposizione di oggetti.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Il paper presenta OPTED, un dataset open-source di immagini preelaborate per la trachoma, creato utilizzando il modello di segmentazione zero-shot SAM 3 per estrarre automaticamente le regioni di interesse da fotografie cliniche e facilitare la ricerca sulla classificazione automatizzata della malattia.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Il paper presenta PaQ-DETR, un framework unificato che supera i limiti delle query fisse dei modelli DETR generando query dinamiche basate su pattern latenti condivisi e adottando una strategia di assegnazione uno-a-molti consapevole della qualità, ottenendo così miglioramenti significativi di mAP e una migliore interpretabilità semantica su diversi benchmark di rilevamento oggetti.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Il paper propone DLRMamba, un metodo che combina un modello a stato spaziale bidimensionale a basso rango con una distillazione consapevole della struttura per ottimizzare la fusione multispettrale e il rilevamento di oggetti su dispositivi edge a risorse limitate, riducendo la complessità computazionale senza compromettere l'accuratezza.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Il paper presenta ESM-YOLO+, una rete di fusione leggera per immagini visibili e infrarosse che, grazie al modulo di fusione dell'attenzione potenziata da maschere e al potenziamento strutturale durante l'addestramento, migliora significativamente il rilevamento di piccoli bersagli nelle immagini telerilevate riducendo al contempo la complessità del modello.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Il paper propone HIERAMP, un metodo di distillazione dei dataset che sfrutta il modello autoregressivo visivo (VAR) per amplificare le semantica gerarchiche a diverse scale, migliorando le prestazioni di sintesi guidando la generazione verso regioni discriminative senza ottimizzare esplicitamente la prossimità globale.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Questo studio presenta una pipeline analitica basata su segmentazione 3D e machine learning che dimostra come l'analisi tridimensionale delle caratteristiche istomorfometriche legate all'invasione perineurale e linfovascolare superi i metodi 2D tradizionali nel predire la recidiva biochimica del cancro alla prostata.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Questo studio presenta il Virtual Intraoperative CT (viCT), un metodo che utilizza ricostruzioni 3D derivate da video endoscopico monoculare per aggiornare sequenzialmente le immagini TC preoperatorie durante la chirurgia endoscopica dei seni paranasali, permettendo una visualizzazione in tempo reale dei confini di resezione tissutale con un'accuratezza submillimetrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Il paper presenta SurgCUT3R, un framework innovativo che supera le limitazioni dei modelli di ricostruzione 3D generici in ambito chirurgico generando dati di addestramento su larga scala e adottando una strategia di inferenza gerarchica per garantire ricostruzioni robuste e prive di deriva temporale da video endoscopici monoculari.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Il documento presenta CUOTM, un nuovo modello generativo condizionale basato su un framework di Trasporto Ottimo Non Bilanciato che, rilassando i vincoli di corrispondenza delle distribuzioni tramite penalità di divergenza di Csiszár, risolve efficacemente la sensibilità agli outlier tipica dei metodi tradizionali mantenendo un'elevata efficienza di campionamento.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Il paper presenta T2SGrid, un nuovo framework che risolve le limitazioni delle attuali Vision-LMM nel grounding temporale video trasformando le sequenze temporali in griglie spaziali bidimensionali tramite finestre scorrevoli sovrapposte, permettendo così di trattare la comprensione temporale come un compito di comprensione spaziale e ottenendo prestazioni superiori sui benchmark standard.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Questo lavoro dimostra che l'uso di encoder pre-allineati per immagini e nuvole di punti, combinato con una nuova perdita di contrasto hard multi-modale, permette di ottenere prestazioni state-of-the-art nel recupero di forme 3D da immagini, eliminando la necessità di sintesi di viste e consentendo il recupero zero-shot senza riaddestramento.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Il paper propone un framework di ragionamento multimodale consapevole della percezione che, rappresentando gli oggetti tramite token visivi di riferimento e utilizzando un dataset di pensiero concatenato multimodale, permette ai modelli visione-linguaggio di superare significativamente le prestazioni nello spazio di ragionamento spaziale da immagini monoculare per la guida autonoma.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Il paper presenta ADAS-TO, il primo dataset naturale su larga scala dedicato alle transizioni ADAS-manuale, che analizza oltre 15.000 eventi di takeover per caratterizzare le dinamiche di sicurezza e dimostrare la fattibilità di sistemi di allerta precoce basati su segnali visivi.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Il paper presenta MipSLAM, un sistema SLAM basato su Gaussian Splatting 3D che integra un algoritmo di anti-aliasing adattivo ellittico e un'ottimizzazione del grafo di pose consapevole dello spettro per ottenere sintesi di nuove viste ad alta fedeltà e una stima della posa robusta senza artefatti di aliasing.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

AdaGen: Learning Adaptive Policy for Image Synthesis

Il paper presenta AdaGen, un framework generalizzabile e adattivo basato sull'apprendimento per rinforzo che ottimizza il processo di sintesi iterativa delle immagini attraverso una politica adattiva e una ricompensa avversariale, superando le limitazioni degli scheduli statici e migliorando significativamente qualità ed efficienza in diversi paradigmi generativi.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Il paper presenta TrajPred, un nuovo framework basato su modelli visione-linguaggio che migliora il riconoscimento delle interazioni tra strumenti e tessuti in chirurgia robotica integrando le traiettorie degli strumenti per catturare meglio le informazioni temporali e i dettagli delle azioni.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Il paper presenta OV-DEIM, un rilevatore open-vocabulary basato su DETR che, grazie all'architettura DEIMv2, a una strategia di supplemento delle query e all'augmentazione dati GridSynthetic, raggiunge prestazioni all'avanguardia e una maggiore efficienza nel rilevamento di oggetti in tempo reale, superando i limiti attuali dei metodi basati su YOLO.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

← Precedente Successivo →