Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Il paper presenta PaQ-DETR, un framework unificato che supera i limiti delle query fisse dei modelli DETR generando query dinamiche basate su pattern latenti condivisi e adottando una strategia di assegnazione uno-a-molti consapevole della qualità, ottenendo così miglioramenti significativi di mAP e una migliore interpretabilità semantica su diversi benchmark di rilevamento oggetti.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Il paper presenta ESM-YOLO+, una rete di fusione leggera per immagini visibili e infrarosse che, grazie al modulo di fusione dell'attenzione potenziata da maschere e al potenziamento strutturale durante l'addestramento, migliora significativamente il rilevamento di piccoli bersagli nelle immagini telerilevate riducendo al contempo la complessità del modello.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Il paper propone HIERAMP, un metodo di distillazione dei dataset che sfrutta il modello autoregressivo visivo (VAR) per amplificare le semantica gerarchiche a diverse scale, migliorando le prestazioni di sintesi guidando la generazione verso regioni discriminative senza ottimizzare esplicitamente la prossimità globale.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Questo studio presenta una pipeline analitica basata su segmentazione 3D e machine learning che dimostra come l'analisi tridimensionale delle caratteristiche istomorfometriche legate all'invasione perineurale e linfovascolare superi i metodi 2D tradizionali nel predire la recidiva biochimica del cancro alla prostata.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Questo studio presenta il Virtual Intraoperative CT (viCT), un metodo che utilizza ricostruzioni 3D derivate da video endoscopico monoculare per aggiornare sequenzialmente le immagini TC preoperatorie durante la chirurgia endoscopica dei seni paranasali, permettendo una visualizzazione in tempo reale dei confini di resezione tissutale con un'accuratezza submillimetrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Il documento presenta CUOTM, un nuovo modello generativo condizionale basato su un framework di Trasporto Ottimo Non Bilanciato che, rilassando i vincoli di corrispondenza delle distribuzioni tramite penalità di divergenza di Csiszár, risolve efficacemente la sensibilità agli outlier tipica dei metodi tradizionali mantenendo un'elevata efficienza di campionamento.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Il paper presenta T2SGrid, un nuovo framework che risolve le limitazioni delle attuali Vision-LMM nel grounding temporale video trasformando le sequenze temporali in griglie spaziali bidimensionali tramite finestre scorrevoli sovrapposte, permettendo così di trattare la comprensione temporale come un compito di comprensione spaziale e ottenendo prestazioni superiori sui benchmark standard.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Questo lavoro dimostra che l'uso di encoder pre-allineati per immagini e nuvole di punti, combinato con una nuova perdita di contrasto hard multi-modale, permette di ottenere prestazioni state-of-the-art nel recupero di forme 3D da immagini, eliminando la necessità di sintesi di viste e consentendo il recupero zero-shot senza riaddestramento.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Il paper propone un framework di ragionamento multimodale consapevole della percezione che, rappresentando gli oggetti tramite token visivi di riferimento e utilizzando un dataset di pensiero concatenato multimodale, permette ai modelli visione-linguaggio di superare significativamente le prestazioni nello spazio di ragionamento spaziale da immagini monoculare per la guida autonoma.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

AdaGen: Learning Adaptive Policy for Image Synthesis

Il paper presenta AdaGen, un framework generalizzabile e adattivo basato sull'apprendimento per rinforzo che ottimizza il processo di sintesi iterativa delle immagini attraverso una politica adattiva e una ricompensa avversariale, superando le limitazioni degli scheduli statici e migliorando significativamente qualità ed efficienza in diversi paradigmi generativi.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Il paper presenta TrajPred, un nuovo framework basato su modelli visione-linguaggio che migliora il riconoscimento delle interazioni tra strumenti e tessuti in chirurgia robotica integrando le traiettorie degli strumenti per catturare meglio le informazioni temporali e i dettagli delle azioni.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Il paper presenta OV-DEIM, un rilevatore open-vocabulary basato su DETR che, grazie all'architettura DEIMv2, a una strategia di supplemento delle query e all'augmentazione dati GridSynthetic, raggiunge prestazioni all'avanguardia e una maggiore efficienza nel rilevamento di oggetti in tempo reale, superando i limiti attuali dei metodi basati su YOLO.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs