cs.CV articles | Gist.Science

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Cet article présente MedMAP, un cadre de pré-entraînement modale pour les modèles vision-langage qui améliore la détection d'anomalies multi-organes dans les IRM 3D grâce à une nouvelle base de données et une alignement spécifique aux modalités médicales.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

Cet article présente APPO, un algorithme d'optimisation de politique guidé par l'attention qui améliore la perception fine des modèles de raisonnement vidéo en utilisant des récompenses denses au niveau des tokens, démontrant ainsi que l'optimisation de la perception est plus cruciale et rentable que l'augmentation de la capacité de raisonnement pure.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Cet article présente une approche innovante combinant le modèle de segmentation SAM2, les outils de génération de texte Florence2 et ChatGPT, ainsi qu'une ontologie spécialisée, pour segmenter et étiqueter automatiquement les traités de construction navale des XVIe et XVIIe siècles, afin de faciliter la curation et l'accessibilité de ces documents historiques précieux malgré le manque de données d'entraînement.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Cet article présente Lilium, une nouvelle méthode évolutive automatisée qui améliore la précision et la robustesse de la superposition crânio-faciale en modélisant explicitement la variabilité des tissus mous via une représentation conique 3D optimisée par un algorithme d'évolution différentielle.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

L'article présente GLIDE-Reg, une méthode d'enregistrement déformable global-à-local qui fusionne des caractéristiques sémantiques globales issues de modèles de fondation avec des descripteurs locaux MIND pour surpasser l'état de l'art en termes de robustesse et de précision sur des cohortes pulmonaires variées.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

Ce papier propose IDER, une méthode de réapprentissage continu novatrice basée sur la propriété d'idempotence qui améliore la fiabilité des prédictions, réduit l'oubli catastrophique et augmente la précision tout en étant compatible avec les méthodes de réentraînement existantes.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Ce papier présente BornoViT, un modèle Vision Transformer léger et efficace conçu pour classifier les caractères et chiffres manuscrits bengalis avec une grande précision tout en minimisant les besoins computationnels, le rendant idéal pour les environnements aux ressources limitées.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

Le papier présente ShiftLUT, un cadre novateur pour la restauration d'images qui combine un module de décalage spatial apprenable, une architecture asymétrique à double branche et une stratégie de compression de table de recherche pour atteindre un champ récepteur maximal et des performances supérieures tout en maintenant une efficacité computationnelle et un stockage réduits pour les dispositifs embarqués.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Cet article présente le cadre Multimodal Weight Predictor (MWP) et le jeu de données Waste-Weight-10K, qui combinent des images RGB et des métadonnées physiques via une fusion multimodale pour estimer avec précision le poids des déchets industriels et commerciaux tout en fournissant des explications interprétables.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

Le papier présente PreciseCache, un cadre plug-and-play qui accélère la génération vidéo sans compromettre la qualité en détectant et en sautant précisément les calculs redondants à l'aide de deux composants : LFCache pour la mise en cache par étape et BlockCache pour la mise en cache par bloc.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

Le papier présente FlowReg, une méthode d'enregistrement d'images cardiaques IRM non supervisée basée sur l'appariement de flux et l'entraînement par reflu, qui permet un raffinement à l'inférence en quelques étapes avec des performances supérieures à l'état de l'art et une réduction de l'erreur d'estimation de la fraction d'éjection ventriculaire gauche.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

HeroGS est un cadre unifié qui améliore la reconstruction 3D par Splatting de Gaussiennes en conditions de vues éparses grâce à une guidance hiérarchique à trois niveaux (image, caractéristiques et paramètres) pour régulariser les distributions, affiner les détails et garantir la cohérence géométrique.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Cet article présente ET-Turb, un vaste ensemble de données synthétiques et un modèle de fonction de transfert de modulation dépendant du temps d'exposition (ET-MTF), conçus pour générer des effets de turbulence atmosphérique réalistes et améliorer la généralisation des modèles de restauration d'images.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack est un cadre de suivi d'objet unique unifié et efficace capable de traiter plusieurs modalités (RGB, profondeur, thermique, événementiel et langage) grâce à un mécanisme de mélange d'experts basé sur le regroupement de tokens et une stratégie de distillation adaptative, offrant ainsi un compromis optimal entre vitesse et précision sur diverses plateformes matérielles.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

Le papier présente FACE, un cadre d'autoencodeur autorégressif novateur qui génère des maillages 3D de haute fidélité et à faible coût en traitant chaque face triangulaire comme un token unique, réduisant ainsi drastiquement la longueur des séquences tout en surpassant l'état de l'art en matière de reconstruction et de génération à partir d'une seule image.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

L'article présente InterCoG, un cadre de raisonnement intercalé texte-vision qui améliore l'édition d'images complexes en déduisant d'abord la position des objets par le texte avant de les localiser visuellement, soutenu par un nouveau jeu de données et des modules d'entraînement pour garantir une précision spatiale supérieure.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Ce papier présente BiCAM, une méthode d'activation de classe bidirectionnelle pour les Vision Transformers qui capture à la fois les contributions positives et négatives afin d'améliorer l'interprétabilité et de détecter les exemples adverses sans réentraînement.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Le papier présente PromptStereo, une méthode de stéréo matching zero-shot qui améliore la généralisation en intégrant des indices de structure monoculaire et de mouvement stéréo dans un module de raffinement itératif (PRU) basé sur les décodeurs de modèles de profondeur monoculaire, surpassant ainsi les méthodes existantes tout en maintenant une vitesse d'inférence compétitive.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Le papier présente Nano-EmoX, un modèle de langage multimodal compact de 2,2 milliards de paramètres qui unifie six tâches affectives clés en intégrant une hiérarchie cognitive à trois niveaux et un cadre d'entraînement P2E pour combler le fossé entre la perception émotionnelle et l'empathie.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Le papier propose SimRecon, un cadre innovant qui améliore la reconstruction de scènes composées à partir de vidéos réelles en intégrant deux modules de liaison, l'optimisation active du point de vue et un synthétiseur de graphes de scène, pour garantir à la fois la fidélité visuelle et la plausibilité physique des assets générés.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

← Précédent Suivant →