cs.CV articles | Gist.Science

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

L'article présente EntON, une nouvelle stratégie de densification de voisinage optimisée par l'entropie des valeurs propres pour le splatting gaussien 3D, qui améliore la précision géométrique et la qualité de rendu tout en réduisant le nombre de gaussiennes et le temps d'entraînement grâce à une alternance entre densification par gradient et densification guidée par la structure locale.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

Word-Anchored Temporal Forgery Localization

Cet article présente WAFL, une nouvelle approche de localisation des falsifications temporelles qui remplace la régression temporelle par une classification binaire au niveau des mots, en utilisant un module d'alignement des caractéristiques forensiques et une perte asymétrique pour améliorer la précision et l'efficacité computationnelle.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Cet article propose SSLA-Det, un modèle de détection d'objets basé sur des caméras événementielles qui utilise une attention linéaire spatialement parcimonieuse pour surmonter les compromis entre précision et latence, atteignant ainsi des performances de pointe avec une réduction significative des calculs par événement.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Le papier propose TaPD, un cadre unifié de distillation progressive adaptative au temps qui améliore la prédiction de trajectoire pour la conduite autonome en reconstruisant explicitement les historiques manquants et en transférant des connaissances de modèles à long terme, permettant ainsi des performances robustes même avec des observations très courtes.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

Le papier présente DC-Merge, une méthode de fusion de modèles qui améliore la rétention des connaissances en équilibrant la distribution d'énergie des vecteurs de tâches et en alignant leur géométrie directionnelle dans un sous-espace orthogonal commun, permettant ainsi d'atteindre des performances de pointe sur divers benchmarks.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

Le papier propose HCF-RES, un cadre multimodal innovant qui améliore la segmentation 3D par expression de référence grâce à une décomposition hiérarchique des sémantiques visuelles et une fusion collaborative progressive, atteignant ainsi des performances de pointe sur les benchmarks ScanRefer et Multi3DRefer.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Le papier présente NOVA, une approche innovante de suivi multi-objets 3D qui utilise l'autorégression de modèles de langage pour généraliser la détection à des cibles inconnues en reformulant les trajectoires comme des séquences sémantiques spatio-temporelles, permettant ainsi d'atteindre des performances supérieures sur des catégories nouvelles grâce à un raisonnement sémantique de haut niveau.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

Le papier présente GazeMoE, un cadre novateur basé sur des mélanges d'experts qui exploite de manière sélective les indices visuels d'un modèle fondamental figé pour atteindre des performances de pointe dans l'estimation des cibles de regard, tout en surmontant les déséquilibres de classes grâce à des techniques d'augmentation de données et de perte auxiliaire.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

Ce papier présente ODD-SEC, un système de détection de drones en temps réel conçu pour des plateformes mobiles, qui utilise une caméra événementielle rotative à 360 degrés et une nouvelle représentation d'événements sans compensation de mouvement pour assurer une surveillance fiable même dans des conditions difficiles.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

Le papier présente HiPP-Prune, un cadre de pruning structuré hiérarchique conditionné par les préférences qui optimise l'allocation des ressources de compression dans les modèles vision-langage pour équilibrer l'utilité des tâches et la robustesse aux hallucinations via une stratégie d'apprentissage par renforcement multi-objectifs.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Ce papier présente StrSR, un cadre de distillation adversaire en une étape intégrant une régularisation spectrale et de trajectoire pour surmonter les limitations des méthodes existantes et atteindre des performances de pointe en super-résolution d'images réelles avec les transformateurs de diffusion.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Ce papier présente OccNL, le premier benchmark pour la prédiction d'occupation sémantique 3D sous bruit de labels, et propose DPR-Occ, un cadre robuste qui surpasse les méthodes existantes en maintenant la précision géométrique et sémantique malgré des niveaux de corruption extrêmes.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

Cet article propose ADiVA, une nouvelle approche pour l'apprentissage zéro-shot génératif qui surpasse les méthodes actuelles en modélisant la distribution des attributs pour combler l'écart classe-instance et en alignant explicitement les représentations sémantiques et visuelles pour réduire l'écart de domaine.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

Le papier présente FlowMotion, un cadre novateur sans entraînement qui réalise un transfert de mouvement vidéo efficace et flexible en exploitant directement les prédictions latentes des modèles T2V basés sur le flux pour aligner les motifs temporels tout en assurant une régularisation de la vitesse.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Cet article propose une méthode d'inpainting 3D basée sur des modèles de diffusion à score perpendiculaires pour éliminer les artefacts causés par les implants dentaires dans les images CBCT en modélisant les corrélations entre les projections, contrairement aux approches 2D existantes.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Ce papier présente DEX-AR, une nouvelle méthode d'explicabilité dynamique conçue pour interpréter les modèles vision-langage autoregressifs en générant des cartes thermiques 2D qui identifient les régions d'image cruciales pour les réponses textuelles, grâce à un filtrage dynamique des têtes d'attention et une agrégation séquentielle distinguant les tokens visuels des tokens linguistiques.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

Les auteurs proposent LTA, une attaque par transfert qui optimise des perturbations dans l'espace latent d'un VAE Stable Diffusion préentraîné plutôt qu'en espace pixel, générant ainsi des exemples adverses plus robustes, cohérents spatialement et efficaces contre divers modèles de vision.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Ce papier propose WMoE-CLIP, une méthode d'apprentissage de prompts pour la détection d'anomalies en zéro-shot qui améliore la généralisation en intégrant des représentations sémantiques globales via un auto-encodeur variationnel, en exploitant les décompositions en ondelettes pour affiner les embeddings textuels et en utilisant un module d'experts mixtes sensible au contexte.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

Le papier propose P-SLCR, une méthode d'apprentissage non supervisé pour la segmentation sémantique de nuages de points qui combine l'apprentissage de structures cohérentes et un raisonnement relationnel basé sur des prototypes, surpassant les méthodes supervisées classiques comme PointNet sur plusieurs jeux de données.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Cette étude évalue la capacité de ChatGPT à pasticher des œuvres d'art contemporaines, révélant un écart significatif entre les similarités visuelles et la perte de dimensionnalité, de contexte et d'intentionnalité perçue par les artistes originaux, ce qui plaide pour l'adoption d'un tableau de bord de métriques complémentaires plutôt que d'une mesure unique.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

← Précédent Suivant →