cs.CV articles | Gist.Science

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Le papier présente BiEvLight, un cadre d'apprentissage hiérarchique et orienté tâche qui résout le couplage bruit-signal dans l'amélioration d'images en faible luminosité en reformulant le débruitage des événements comme un problème d'optimisation bi-niveau contraint par la tâche d'amélioration, surpassant ainsi les méthodes de l'état de l'art.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

Ce papier présente 3D-RFT, un cadre pionnier d'affinement par renforcement qui étend l'apprentissage par renforcement avec récompenses vérifiables à la compréhension de scènes 3D vidéo en optimisant directement les modèles multimodaux selon des métriques d'évaluation spécifiques, surpassant ainsi les approches existantes et des modèles plus grands sur diverses tâches de perception et de raisonnement 3D.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Le papier présente VideoHV-Agent, un cadre multi-agents qui améliore la compréhension des vidéos longues en reformulant le raisonnement comme un processus structuré de formulation d'hypothèses et de vérification, surpassant ainsi les méthodes existantes en précision, en interprétabilité et en efficacité computationnelle.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

Le papier présente Wallaroo, un modèle autoregressif simple qui unifie la compréhension, la génération et l'édition multimodales grâce à la prédiction de jetons suivants, en supportant des résolutions multiples et le bilinguisme chinois-anglais.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Le papier présente TAPFormer, un cadre de suivi de points arbitraires robuste qui fusionne de manière asynchrone et adaptative des images et des flux d'événements pour surmonter les problèmes d'alignement temporel et de défaillance des modalités, tout en introduisant un nouveau jeu de données réel pour valider ses performances supérieures sur des benchmarks standards.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

Le papier présente MultiGO++, un cadre novateur de reconstruction 3D de humains vêtus à partir d'une seule image qui surpasse les méthodes existantes en surmontant leurs limitations texturales, géométriques et systémiques grâce à une collaboration efficace entre géométrie et texture.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Le papier présente Lens2Zernike, un cadre d'apprentissage profond physiquement cohérent qui récupère de manière aveugle les paramètres optiques à partir d'une seule image floue en intégrant une supervision multi-tâche sur trois domaines optiques distincts, permettant ainsi une déconvolution non aveugle stable et une restauration supérieure des détails sur les appareils mobiles.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Cette étude propose une évaluation à grande échelle des modèles de restauration d'images génératifs, révélant un changement de paradigme où le défi principal évolue de la pénurie de détails vers le contrôle de la qualité et de la sémantique pour éviter la sur-génération.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Le papier présente Tell2Adapt, un cadre unifié d'adaptation de domaine non supervisée sans source pour la segmentation d'images médicales qui exploite les connaissances d'un modèle de fondation visuel via des régularisations de prompts contextuels et un raffinement de plausibilité visuelle pour surpasser les méthodes existantes sur une large gamme de cibles anatomiques.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Cet article propose un cadre de segmentation sémantique généralisable et un nouveau jeu de données de référence, Semap, pour traiter efficacement la diversité des collections de cartes historiques, démontrant ainsi la viabilité d'une approche axée sur la diversité pour l'intégration de ces archives dans les études géohistoriques.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Cet article présente IRTTA, une méthode d'adaptation au test qui améliore la segmentation d'images médicales en exploitant les reconstructions intermédiaires de la tomographie par cohérence optique pour ajuster dynamiquement les paramètres d'un réseau de segmentation figé sans modifier le processus de reconstruction ni le modèle initial.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Le papier présente CoIn3D, un cadre généralisable pour la détection d'objets 3D multi-caméras qui améliore le transfert vers des configurations inédites en intégrant explicitement les disparités des priors spatiaux (intrinsèques, extrinsèques et agencement) via une modulation de caractéristiques spatiales et une augmentation de données par synthèse d'images.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

Cet article propose CLIP-PZSL, un cadre d'apprentissage zéro-shot piloté par CLIP qui gère les étiquettes ambiguës en fusionnant les caractéristiques d'instances et de labels via un bloc d'extraction sémantique et une fonction de perte partielle pour identifier progressivement les vérités terrain et améliorer l'alignement sémantique.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Cette étude présente un système de détection des gyrophares bleus utilisant quatre caméras grand angle et un modèle RT-DETR amélioré par une attention chromatique, qui atteint une précision de 94,7 % sur le jeu de données ABLDataset pour renforcer la sécurité routière via les systèmes ADAS.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

L'article propose MI-DETR, une méthode bio-inspirée pour la détection de petites cibles infrarouges en mouvement qui intègre explicitement l'information motrice via un automate cellulaire et des voies parvocellulaire et magnocellulaire, atteignant des performances de pointe sur plusieurs benchmarks sans nécessiter de supervision ou d'alignement supplémentaires.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Ce papier présente UniM, le premier benchmark unifié de 31 000 instances couvrant sept modalités pour évaluer les capacités des grands modèles multimodaux à comprendre et générer des entrées et sorties multimodales entrelacées de manière arbitraire, accompagné d'une suite d'évaluation et d'un modèle de référence nommé UniMA.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Le papier présente MoRe, un réseau de reconstruction 4D feed-forward efficace qui, grâce à une stratégie d'attention forcée et une attention causale groupée, permet de reconstruire des scènes dynamiques de haute qualité à partir de vidéos monoculaires tout en évitant les coûts computationnels élevés des méthodes d'optimisation existantes.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Cet article propose Orster, un cadre novateur qui transfère les priors spatiaux et temporels de modèles de diffusion 3D et vidéo vers un modèle de diffusion 4D désenchevêtré, surmontant ainsi le manque de données 4D massives pour générer du contenu 4D de haute qualité avec une cohérence spatio-temporelle supérieure.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Cet article propose une méthode d'attribution Shapley sur-manifold fondée sur des flots génératifs optimaux, qui résout les artefacts hors-manifold en définissant un attribut canonique unique via l'intégrale de ligne du gradient le long des géodésiques de Wasserstein minimisant l'énergie cinétique.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Le papier propose GEM-TFL, un cadre de localisation de falsification temporelle qui comble l'écart entre l'apprentissage faiblement et pleinement supervisé en combinant une optimisation EM pour enrichir les étiquettes binaires, un raffinement temporel sans entraînement et un module de raffinement basé sur des graphes pour améliorer la précision et la cohérence des détections.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

← Précédent Suivant →