IGLU: The Integrated Gaussian Linear Unit Activation Function

Ce papier présente IGLU, une nouvelle fonction d'activation paramétrique dérivée d'un mélange d'échelles de portes GELU avec une distribution mi-normale, qui offre une expression fermée basée sur la fonction de répartition de Cauchy pour garantir des gradients non nuls et une robustesse accrue, ainsi qu'une approximation rationnelle efficace (IGLU-Approx) qui démontre des performances compétitives ou supérieures sur des tâches de vision et de langage.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Cet article propose une nouvelle méthode d'augmentation de données qui utilise les grands modèles de langage pour générer des programmes CAO plus diversifiés et complexes, inspirés des procédures de conception industrielle, afin d'améliorer l'entraînement des modèles d'apprentissage profond pour la création de formes organiques.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

L'article propose PaQ-DETR, un cadre unifié qui améliore la détection d'objets en apprenant des motifs latents partagés pour générer dynamiquement des requêtes spécifiques à l'image et en adoptant une stratégie d'affectation consciente de la qualité pour équilibrer la supervision, ce qui se traduit par des gains significatifs de précision sur plusieurs benchmarks.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Ce papier propose DLRMamba, une méthode de distillation combinant un modèle d'espace d'états sélectif bidimensionnel à faible rang et une stratégie de distillation consciente de la structure, pour optimiser l'efficacité et la précision de la détection d'objets par fusion multispectrale sur des plateformes embarquées aux ressources limitées.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Ce papier présente ESM-YOLO+, un réseau léger de fusion d'images visibles et infrarouges intégrant un module de fusion d'attention amélioré par masque et un renforcement de la représentation structurelle, qui améliore significativement la détection de petites cibles dans les images de télédétection tout en réduisant drastiquement la complexité du modèle.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Le papier présente HIERAMP, une méthode d'amplification sémantique de la distillation de données générative qui exploite la génération hiérarchique des modèles VAR pour améliorer les performances de validation en guidant la synthèse vers des structures et détails discriminatifs à différentes échelles.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Cette étude développe une pipeline d'analyse 3D utilisant l'nnU-Net et la microscopie à feuille de lumière pour extraire des caractéristiques d'invasion périneurale et lymphovasculaire dans le cancer de la prostate, démontrant que ces indicateurs 3D surpassent leurs équivalents 2D pour prédire la récidive biochimique à 5 ans.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Cette étude présente le viCT, une méthode innovante qui met à jour dynamiquement les scanners CT préopératoires en temps réel lors de la chirurgie endoscopique des sinus en utilisant des reconstructions 3D issues de vidéos endoscopiques monoculars, permettant ainsi de visualiser l'anatomie évolutive avec une précision submillimétrique sans matériel supplémentaire.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Le papier présente SurgCUT3R, un cadre systématique qui surmonte le manque de données supervisées et la dérive de pose dans les vidéos endoscopiques chirurgicales en générant des données d'entraînement métriques, en utilisant une stratégie d'hybridation de supervision et en adoptant une inférence hiérarchique pour une reconstruction 3D robuste et efficace.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Cet article propose une approche de récupération de formes 3D à partir d'images basée sur des encodeurs pré-alignés et un apprentissage contrastif dur, éliminant ainsi le besoin de synthèse de vues et permettant une récupération zero-shot avec des performances de pointe.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Ce papier propose un cadre de raisonnement multimodal conscient de la perception qui améliore considérablement la compréhension spatiale des modèles vision-langage dans des scénarios de conduite monoculars en représentant les objets via des jetons de référence visuelle et en introduisant une chaîne de pensée multimodale, surpassant ainsi les méthodes précédentes sur le benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Ce papier présente ADAS-TO, le premier jeu de données naturel à grande échelle dédié aux reprises de contrôle des systèmes ADAS, qui analyse les dynamiques d'intervention humaine et révèle que la majorité des cas critiques sont précédés de signaux visuels actionnables trois secondes avant la prise de contrôle.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs