cs.CV articles | Gist.Science

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

Le papier présente FreeOcc, une méthode d'occurrence panoptique sans entraînement qui exploite des modèles de fondation pré-entraînés pour reconstruire la géométrie et la sémantique 3D à partir d'images multi-vues, atteignant des performances comparables aux méthodes supervisées faiblement sur le jeu de données Occ3D-nuScenes.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Cet article propose un cadre d'apprentissage semi-supervisé pour la segmentation des ultrasons mammaires qui génère des pseudo-étiquettes sans entraînement grâce à des modèles vision-langage, les affine par des mécanismes d'apprentissage contrastif et atteint des performances comparables aux modèles entièrement supervisés avec seulement 2,5 % de données annotées.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

Ce papier présente JOPP-3D, un cadre de segmentation sémantique à vocabulaire ouvert qui fusionne des données panoramiques et des nuages de points 3D pour permettre une compréhension de scène pilotée par le langage et surpasser les méthodes actuelles sur les deux modalités.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Cet article présente une méthode optimisant les modèles de diffusion 3D pour l'imagerie médicale en utilisant un apprentissage par renforcement avec des récompenses multi-échelles, améliorant ainsi la qualité des images synthétiques et leur utilité pour les tâches de classification des tumeurs.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Ce papier propose deux techniques, l'agrégation automatique et le recalage par pixel, pour surmonter les limitations d'échelle des segmenteurs de diffusion sans entraînement et mieux exploiter la puissance générative des modèles.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Cet article propose un cadre en deux étapes pour l'apprentissage de similarités entre écritures, combinant un apprentissage contrastif supervisé sur des alphabets inventés et une distillation non supervisée vers des scripts historiques afin de découvrir des similarités latentes sans dépendre de relations évolutives certifiées.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Cet article propose le « Motion Turing Test » et le jeu de données HHMotion pour évaluer la ressemblance humaine des mouvements de robots humanoïdes, révélant que les modèles de langage actuels sont insuffisants pour cette tâche et introduisant une nouvelle méthode de base plus performante.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Ce papier présente CRIMSON, un cadre d'évaluation cliniquement fondé pour les rapports de radiologie générés par IA, qui intègre le contexte complet du patient et une pondération basée sur la gravité clinique pour mieux s'aligner sur le jugement des radiologues que les métriques précédentes.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Le papier présente SpaCRD, une méthode d'apprentissage par transfert qui fusionne profondément l'histologie et la transcriptomique spatiale via un réseau d'attention croisée bidirectionnelle pour détecter avec précision les régions cancéreuses et généraliser les résultats à travers différents échantillons, plateformes et lots, surpassant ainsi les méthodes existantes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

Ce papier propose ALANet, un réseau adaptatif qui élimine les réflexions complexes dans les images en utilisant des descriptions textuelles, même imprécises, grâce à des stratégies de filtrage et d'optimisation, tout en introduisant le nouveau jeu de données CRLAV pour évaluer ces performances.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Cet article présente un cadre novateur pour la segmentation d'actions humaines basé sur le squelette et supervisé par points, qui atteint des performances compétitives, parfois supérieures aux méthodes entièrement supervisées, tout en réduisant considérablement l'effort d'annotation grâce à l'utilisation de données multimodales et à des techniques avancées de génération de pseudo-étiquettes.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

Le papier présente VG3S, un cadre novateur qui améliore la prédiction d'occupation sémantique 3D en intégrant des repères géométriques robustes issus de modèles de fondation visuels via un adaptateur hiérarchique, permettant d'obtenir des performances significativement supérieures sur le benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

L'article présente CoE, un cadre de résumé multimodal sans entraînement qui surpasse les méthodes actuelles en utilisant un graphe d'événements hiérarchique pour structurer le raisonnement temporel et l'alignement intermodal.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

L'article présente EntON, une nouvelle stratégie de densification de voisinage optimisée par l'entropie des valeurs propres pour le splatting gaussien 3D, qui améliore la précision géométrique et la qualité de rendu tout en réduisant le nombre de gaussiennes et le temps d'entraînement grâce à une alternance entre densification par gradient et densification guidée par la structure locale.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

Word-Anchored Temporal Forgery Localization

Cet article présente WAFL, une nouvelle approche de localisation des falsifications temporelles qui remplace la régression temporelle par une classification binaire au niveau des mots, en utilisant un module d'alignement des caractéristiques forensiques et une perte asymétrique pour améliorer la précision et l'efficacité computationnelle.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Cet article propose SSLA-Det, un modèle de détection d'objets basé sur des caméras événementielles qui utilise une attention linéaire spatialement parcimonieuse pour surmonter les compromis entre précision et latence, atteignant ainsi des performances de pointe avec une réduction significative des calculs par événement.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Le papier propose TaPD, un cadre unifié de distillation progressive adaptative au temps qui améliore la prédiction de trajectoire pour la conduite autonome en reconstruisant explicitement les historiques manquants et en transférant des connaissances de modèles à long terme, permettant ainsi des performances robustes même avec des observations très courtes.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

Le papier propose HCF-RES, un cadre multimodal innovant qui améliore la segmentation 3D par expression de référence grâce à une décomposition hiérarchique des sémantiques visuelles et une fusion collaborative progressive, atteignant ainsi des performances de pointe sur les benchmarks ScanRefer et Multi3DRefer.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Le papier présente NOVA, une approche innovante de suivi multi-objets 3D qui utilise l'autorégression de modèles de langage pour généraliser la détection à des cibles inconnues en reformulant les trajectoires comme des séquences sémantiques spatio-temporelles, permettant ainsi d'atteindre des performances supérieures sur des catégories nouvelles grâce à un raisonnement sémantique de haut niveau.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

← Précédent Suivant →