cs.CV articles | Gist.Science

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

Ce papier présente DMTrack, une nouvelle architecture d'adaptateurs duaux pour le suivi multimodal spatio-temporel qui, grâce à des modules d'adaptation modale innovants, atteint des performances de pointe avec seulement 0,93 million de paramètres entraînables.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

Zero-shot CT Super-Resolution using Diffusion-based 2D Projection Priors and Signed 3D Gaussians

Cet article propose un cadre de super-résolution 3D en zéro-shot pour la tomodensitométrie (CT) qui intègre des priors de projection 2D générés par diffusion et une reconstruction volumique basée sur des gaussiennes signées avec un mélange d'opacité négatif, permettant de restaurer des détails fins sans données appariées.

Jeonghyun Noh, Hyun-Jic Oh, Won-Ki Jeong2026-03-04⚡ eess

MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs

Ce papier présente MMTok, une méthode qui améliore l'efficacité de l'inférence des modèles vision-langage en sélectionnant des jetons visuels informatifs grâce à un critère de couverture maximale exploitant simultanément les informations visuelles et textuelles.

Sixun Dong, Juhua Hu, Mian Zhang + 3 more2026-03-04💻 cs

ConEQsA: Concurrent and Asynchronous Embodied Questions Scheduling and Answering

Ce papier présente ConEQsA, un système agentique novateur et un benchmark associé (CAEQs) conçus pour résoudre le problème de la réponse simultanée et asynchrone à plusieurs questions dans des environnements 3D en optimisant l'exploration et la planification selon l'urgence des requêtes.

Haisheng Wang, Dong Liu, Weiming Zhi2026-03-04🤖 cs.AI

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Cette étude évalue systématiquement les capacités des modèles vision-langage à comprendre la topologie routière pour la conduite autonome, révélant que malgré des progrès certains, ils peinent encore à maîtriser le raisonnement spatial fondamental, en particulier les modèles open-source, ce qui souligne un goulot d'étranglement majeur pour leur déploiement sécurisé.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

SiNGER: A Clearer Voice Distills Vision Transformers Further

Le papier présente SiNGER, un cadre de distillation de connaissances innovant qui améliore les modèles Vision Transformers en supprimant les artefacts à forte norme tout en préservant les signaux informatifs grâce à une perturbation guidée par l'espace nul, permettant ainsi d'obtenir des performances de pointe et des représentations plus claires.

Geunhyeok Yu, Sunjae Jeong, Yoonyoung Choi + 2 more2026-03-04🤖 cs.AI

Earth-Agent: Unlocking the Full Landscape of Earth Observation with Agents

Ce papier présente Earth-Agent, un cadre agentique pionnier unifiant les données d'observation de la Terre RGB et spectrales au sein d'un écosystème d'outils MCP pour permettre un raisonnement spatio-temporel quantitatif complexe, accompagné de Earth-Bench, une nouvelle norme d'évaluation destinée à valider ces capacités avancées.

Peilin Feng, Zhutao Lv, Junyan Ye + 8 more2026-03-04💻 cs

PROFusion: Robust and Accurate Dense Reconstruction via Camera Pose Regression and Optimization

Le papier présente PROFusion, une méthode de reconstruction dense en temps réel qui combine une régression de pose par apprentissage profond et une optimisation stochastique pour surmonter les limitations des systèmes SLAM actuels face aux mouvements de caméra instables, tout en garantissant une précision élevée.

Siyan Dong, Zijun Wang, Lulu Cai + 2 more2026-03-04💻 cs

Proxy-GS: Unified Occlusion Priors for Training and Inference in Structured 3D Gaussian Splatting

L'article présente Proxy-GS, une méthode innovante qui utilise un système de proxy rapide pour introduire une conscience de l'occlusion dans le splatting gaussien 3D, permettant ainsi d'accélérer le rendu et d'améliorer la qualité visuelle en éliminant les redondances et en guidant la densification.

Yuanyuan Gao, Yuning Gong, Yifei Liu + 6 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Ce papier présente EchoGen, un cadre pionnier de génération pilotée par sujet basé sur des modèles auto-régressifs visuels (VAR) qui, grâce à une stratégie d'injection à double voie, surpasse les méthodes de diffusion en termes de rapidité d'inférence tout en maintenant une fidélité et une qualité d'image exceptionnelles.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

TTT3R: 3D Reconstruction as Test-Time Training

Le papier présente TTT3R, une méthode sans entraînement qui améliore la généralisation de longueur des modèles de reconstruction 3D en reformulant le problème comme un apprentissage en ligne et en calculant un taux d'apprentissage fermé basé sur la confiance d'alignement entre l'état de mémoire et les nouvelles observations.

Xingyu Chen, Yue Chen, Yuliang Xiu + 2 more2026-03-04💻 cs

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

Le papier présente BindWeave, un cadre unifié intégrant un modèle de langage multimodal (MLLM) et un transformateur de diffusion (DiT) pour générer des vidéos haute fidélité avec une cohérence de sujet exceptionnelle, même dans des scènes complexes à multiples entités, surpassant ainsi les modèles existants sur le benchmark OpenS2V.

Zhaoyang Li, Dongjun Qian, Kai Su + 6 more2026-03-04💻 cs

Arbitrary Generative Video Interpolation

L'article présente ArbInterp, un cadre d'interpolation vidéo générative novateur qui permet de synthétiser des trames intermédiaires à n'importe quel moment et de n'importe quelle durée grâce à l'utilisation d'un encodage de position rotatif sensible aux timestamps (TaRoPE) et d'une stratégie de conditionnement découplant l'apparence du mouvement.

Guozhen Zhang, Haiguang Wang, Chunyu Wang + 3 more2026-03-04💻 cs

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Le papier présente D2E, un cadre qui démontre que le pré-entraînement sur des données d'interactions de bureau à grande échelle permet d'acquérir des primitives sensorimotrices transférables vers des tâches d'IA incarnée physique, surpassant des modèles beaucoup plus grands avec des performances de pointe.

Suhwan Choi, Jaeyoon Jung, Haebin Seong + 7 more2026-03-04🤖 cs.AI

Human3R: Everyone Everywhere All at Once

Le papier présente Human3R, un cadre unifié et feed-forward capable de reconstruire en temps réel, à partir d'une seule vidéo monoculaire, les trajectoires de caméra, les scènes 3D denses et les corps humains multiples dans un seul passage, éliminant ainsi les dépendances lourdes et les étapes itératives des méthodes précédentes.

Yue Chen, Xingyu Chen, Yuxuan Xue + 3 more2026-03-04💻 cs

MIRAGE: Runtime Scheduling for Multi-Vector Image Retrieval with Hierarchical Decomposition

Le papier présente MIRAGE, un cadre de planification d'exécution efficace pour la recherche d'images par génération augmentée, qui améliore la précision et réduit les calculs grâce à une décomposition hiérarchique novatrice et à la minimisation des redondances.

Maoliang Li, Ke Li, Yaoyang Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Cet article présente « Self-Aug », une méthode de décodage sans entraînement pour les grands modèles vision-langage qui combine une augmentation sémantique adaptative à la requête et un seuillage basé sur l'entropie afin de réduire significativement les hallucinations et d'améliorer la cohérence factuelle.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Cet article propose une méthode de reconstruction des terrains martiens pour la réalité virtuelle utilisant un modèle de diffusion inconditionnel entraîné sur des données HiRISE, qui surpasse significativement les techniques d'interpolation traditionnelles en termes de précision géométrique et de similarité perceptuelle.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

← Précédent Suivant →