cs.CV articles | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Cet article propose un modèle topologique étendu basé sur des fibrés de cercles pour expliquer la structure des flux optiques à fort contraste dans le jeu de données Sintel, révélant que les patchs les plus contrastés se concentrent près de cercles correspondant à des bords d'étapes binaires plutôt que sur le tore précédemment suggéré.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Ce papier présente ColonSplat, un cadre de splatting gaussien dynamique conçu pour reconstruire avec précision les mouvements péristaltiques lors de la coloscopie, accompagné de l'introduction du jeu de données synthétique DynamicColon pour évaluer rigoureusement la qualité géométrique globale.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Ce papier présente IGLU, une nouvelle fonction d'activation paramétrique dérivée d'un mélange d'échelles de portes GELU avec une distribution mi-normale, qui offre une expression fermée basée sur la fonction de répartition de Cauchy pour garantir des gradients non nuls et une robustesse accrue, ainsi qu'une approximation rationnelle efficace (IGLU-Approx) qui démontre des performances compétitives ou supérieures sur des tâches de vision et de langage.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Cet article présente une architecture d'apprentissage novatrice et économe en ressources, intégrant des informations a priori environnementales dans un modèle à double Transformer (DTC) pour prédire avec précision les points d'atterrissage de balles de tennis en utilisant une simple caméra industrielle.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Le papier présente PICS, une méthode auto-supervisée qui améliore la cohérence spatiale et la stabilité du compositing d'images par paires en modélisant les interactions spatiales via un Transformer d'interaction et une fusion adaptative des zones de chevauchement.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Cet article présente OPTED, un jeu de données open source prétraité pour la classification automatisée du trachome, construit à partir d'images cliniques éthiopiennes en utilisant une pipeline de segmentation zero-shot basée sur le modèle SAM 3 pour extraire et nettoyer les régions d'intérêt.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Cet article propose une nouvelle méthode d'augmentation de données qui utilise les grands modèles de langage pour générer des programmes CAO plus diversifiés et complexes, inspirés des procédures de conception industrielle, afin d'améliorer l'entraînement des modèles d'apprentissage profond pour la création de formes organiques.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

L'article propose PaQ-DETR, un cadre unifié qui améliore la détection d'objets en apprenant des motifs latents partagés pour générer dynamiquement des requêtes spécifiques à l'image et en adoptant une stratégie d'affectation consciente de la qualité pour équilibrer la supervision, ce qui se traduit par des gains significatifs de précision sur plusieurs benchmarks.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Ce papier propose DLRMamba, une méthode de distillation combinant un modèle d'espace d'états sélectif bidimensionnel à faible rang et une stratégie de distillation consciente de la structure, pour optimiser l'efficacité et la précision de la détection d'objets par fusion multispectrale sur des plateformes embarquées aux ressources limitées.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Ce papier présente ESM-YOLO+, un réseau léger de fusion d'images visibles et infrarouges intégrant un module de fusion d'attention amélioré par masque et un renforcement de la représentation structurelle, qui améliore significativement la détection de petites cibles dans les images de télédétection tout en réduisant drastiquement la complexité du modèle.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Le papier présente HIERAMP, une méthode d'amplification sémantique de la distillation de données générative qui exploite la génération hiérarchique des modèles VAR pour améliorer les performances de validation en guidant la synthèse vers des structures et détails discriminatifs à différentes échelles.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Cette étude développe une pipeline d'analyse 3D utilisant l'nnU-Net et la microscopie à feuille de lumière pour extraire des caractéristiques d'invasion périneurale et lymphovasculaire dans le cancer de la prostate, démontrant que ces indicateurs 3D surpassent leurs équivalents 2D pour prédire la récidive biochimique à 5 ans.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Cette étude présente le viCT, une méthode innovante qui met à jour dynamiquement les scanners CT préopératoires en temps réel lors de la chirurgie endoscopique des sinus en utilisant des reconstructions 3D issues de vidéos endoscopiques monoculars, permettant ainsi de visualiser l'anatomie évolutive avec une précision submillimétrique sans matériel supplémentaire.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Le papier présente SurgCUT3R, un cadre systématique qui surmonte le manque de données supervisées et la dérive de pose dans les vidéos endoscopiques chirurgicales en générant des données d'entraînement métriques, en utilisant une stratégie d'hybridation de supervision et en adoptant une inférence hiérarchique pour une reconstruction 3D robuste et efficace.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Ce papier propose le cadre CUOT et le modèle CUOTM pour surmonter la sensibilité aux outliers des cartes de transport optimal conditionnel classique en assouplissant les contraintes d'appariement des distributions via des pénalités de divergence de Csiszár, tout en préservant rigoureusement les marginales conditionnelles.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Le papier propose T2SGrid, un cadre novateur qui transforme la compréhension temporelle des vidéos en une tâche de compréhension spatiale en réorganisant les séquences temporelles en grilles d'images composites pour améliorer la localisation temporelle sans surcharge computationnelle.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Cet article propose une approche de récupération de formes 3D à partir d'images basée sur des encodeurs pré-alignés et un apprentissage contrastif dur, éliminant ainsi le besoin de synthèse de vues et permettant une récupération zero-shot avec des performances de pointe.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Ce papier propose un cadre de raisonnement multimodal conscient de la perception qui améliore considérablement la compréhension spatiale des modèles vision-langage dans des scénarios de conduite monoculars en représentant les objets via des jetons de référence visuelle et en introduisant une chaîne de pensée multimodale, surpassant ainsi les méthodes précédentes sur le benchmark SURDS.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Ce papier présente ADAS-TO, le premier jeu de données naturel à grande échelle dédié aux reprises de contrôle des systèmes ADAS, qui analyse les dynamiques d'intervention humaine et révèle que la majorité des cas critiques sont précédés de signaux visuels actionnables trois secondes avant la prise de contrôle.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Le papier présente MipSLAM, un cadre de SLAM basé sur le splatting gaussien 3D qui surpasse les méthodes existantes en éliminant les artefacts de repliement spectral grâce à un algorithme d'anti-repliement adaptatif elliptique et en améliorant la précision de l'estimation de trajectoire via une optimisation de graphe de pose sensible au spectre.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Précédent Suivant →