cs.CV articles | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

HeroGS est un cadre unifié qui améliore la reconstruction 3D par Splatting de Gaussiennes en conditions de vues éparses grâce à une guidance hiérarchique à trois niveaux (image, caractéristiques et paramètres) pour régulariser les distributions, affiner les détails et garantir la cohérence géométrique.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Cet article présente ET-Turb, un vaste ensemble de données synthétiques et un modèle de fonction de transfert de modulation dépendant du temps d'exposition (ET-MTF), conçus pour générer des effets de turbulence atmosphérique réalistes et améliorer la généralisation des modèles de restauration d'images.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack est un cadre de suivi d'objet unique unifié et efficace capable de traiter plusieurs modalités (RGB, profondeur, thermique, événementiel et langage) grâce à un mécanisme de mélange d'experts basé sur le regroupement de tokens et une stratégie de distillation adaptative, offrant ainsi un compromis optimal entre vitesse et précision sur diverses plateformes matérielles.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

Le papier présente FACE, un cadre d'autoencodeur autorégressif novateur qui génère des maillages 3D de haute fidélité et à faible coût en traitant chaque face triangulaire comme un token unique, réduisant ainsi drastiquement la longueur des séquences tout en surpassant l'état de l'art en matière de reconstruction et de génération à partir d'une seule image.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

L'article présente InterCoG, un cadre de raisonnement intercalé texte-vision qui améliore l'édition d'images complexes en déduisant d'abord la position des objets par le texte avant de les localiser visuellement, soutenu par un nouveau jeu de données et des modules d'entraînement pour garantir une précision spatiale supérieure.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Ce papier présente BiCAM, une méthode d'activation de classe bidirectionnelle pour les Vision Transformers qui capture à la fois les contributions positives et négatives afin d'améliorer l'interprétabilité et de détecter les exemples adverses sans réentraînement.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Le papier présente PromptStereo, une méthode de stéréo matching zero-shot qui améliore la généralisation en intégrant des indices de structure monoculaire et de mouvement stéréo dans un module de raffinement itératif (PRU) basé sur les décodeurs de modèles de profondeur monoculaire, surpassant ainsi les méthodes existantes tout en maintenant une vitesse d'inférence compétitive.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Le papier présente Nano-EmoX, un modèle de langage multimodal compact de 2,2 milliards de paramètres qui unifie six tâches affectives clés en intégrant une hiérarchie cognitive à trois niveaux et un cadre d'entraînement P2E pour combler le fossé entre la perception émotionnelle et l'empathie.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Le papier propose SimRecon, un cadre innovant qui améliore la reconstruction de scènes composées à partir de vidéos réelles en intégrant deux modules de liaison, l'optimisation active du point de vue et un synthétiseur de graphes de scène, pour garantir à la fois la fidélité visuelle et la plausibilité physique des assets générés.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Ce papier présente OnlineX, un cadre feed-forward qui résout le problème de la dérive dans la reconstruction 3D en ligne en introduisant une évolution d'état découplée « actif-vers-stable » pour fusionner efficacement la géométrie locale à haute fréquence avec la structure globale à long terme, tout en reconstruisant simultanément l'apparence visuelle et les champs sémantiques.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Le papier présente HiFi-Inpaint, un cadre novateur d'inpainting basé sur une référence qui, grâce à une nouvelle attention d'amélioration partagée, une perte consciente des détails et un jeu de données HP-Image-40K, permet de générer des images humain-produit haute fidélité avec une préservation exceptionnelle des détails.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

Le papier présente TimeGS, un cadre novateur qui transforme la prévision de séries temporelles en un problème de rendu génératif 2D via l'utilisation de splatting gaussien pour surmonter les limites des approches existantes en assurant la continuité chronologique et une résolution adaptative.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Le papier présente CamDirector, un cadre innovant pour l'édition de trajectoires vidéo qui assure une cohérence temporelle à long terme grâce à une fusion hybride de warping et à un modèle de diffusion autorégressif guidé par l'historique, surpassant les méthodes existantes sur le nouveau benchmark iPhone-PTZ.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

L'article présente Social-JEPA, une méthode où des agents apprenant indépendamment à partir de points de vue distincts développent spontanément des espaces latents isométriques, permettant une traduction transparente et un transfert de tâches sans ajustement supplémentaire.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Cette étude propose un cadre de vérification multimodal pour l'identification animale qui, grâce à un corpus massif de 1,9 million d'images et à l'intégration de descriptions textuelles synthétiques via un mécanisme de fusion adaptatif, améliore significativement la précision de réidentification des animaux par rapport aux méthodes unimodales.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Ce papier propose PDP, un cadre novateur pour la détection d'objets incrémentielle qui surpasse les méthodes existantes en utilisant un découplage de prompts à double pool pour séparer les connaissances générales et spécifiques, ainsi qu'un module de génération de pseudo-étiquettes prototypiques pour corriger la dérive des prompts et atteindre des performances de pointe sur les benchmarks MS-COCO et PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

L'article présente AutoFFS, un cadre novateur basé sur les données qui utilise des déformations adverses pour générer des morphologies crâniennes contrefactuelles et quantifier ainsi la planification chirurgicale de la féminisation faciale.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

Cet article présente une évaluation systématique des fonctions de perte et des architectures pour la classification multi-étiquettes de radiographies thoraciques à distribution déséquilibrée, démontrant que l'utilisation de LDAM-DRW avec ConvNeXt-Large permet d'atteindre le 5ᵉ rang sur le benchmark CXR-LT 2026.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Le papier présente HAMMER, un cadre innovant exploitant les grands modèles de langage multimodaux (MLLM) pour la localisation d'affordances 3D guidée par l'intention d'interaction, en agrégeant les indices contextuels visuels dans des embeddings de contact et en intégrant des mécanismes hiérarchiques pour affiner les représentations 3D sans dépendre de descriptions d'attributs explicites ou de segmenteurs 2D préexistants.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Cet article propose des cartes de préconditionnement réversibles pour améliorer la condition du covariance des distributions intermédiaires dans l'apprentissage par flux et score, permettant ainsi de surmonter les plateaux d'optimisation causés par un mauvais conditionnement et d'obtenir des modèles génératifs mieux entraînés.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

← Précédent Suivant →