Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Cet article propose une méthode de reconstruction des terrains martiens pour la réalité virtuelle utilisant un modèle de diffusion inconditionnel entraîné sur des données HiRISE, qui surpasse significativement les techniques d'interpolation traditionnelles en termes de précision géométrique et de similarité perceptuelle.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Cet article présente le CASR-Net, un réseau d'apprentissage profond innovant en trois étapes intégrant un prétraitement avancé et une architecture UNet-DenseNet121 avec décodeur Self-ONN, conçu pour améliorer la précision de la segmentation et du raffinement des artères coronaires sur des angiogrammes X-ray afin de soutenir le diagnostic clinique.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Ce papier présente DetGain, une méthode de curation de données en ligne pour la détection d'objets qui sélectionne dynamiquement les images les plus informatives en estimant leur contribution marginale à la précision moyenne (AP) du jeu de données, améliorant ainsi la performance et la robustesse des modèles de détection.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Le papier présente PrismAudio, un cadre novateur pour la génération vidéo-à-audio qui intègre l'apprentissage par renforcement avec une décomposition en chaînes de pensée spécialisées et des récompenses multidimensionnelles, résolvant ainsi les problèmes d'entrelacement des objectifs et atteignant des performances de pointe grâce à une méthode d'optimisation efficace et un nouveau benchmark rigoureux.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

WristMIR est un cadre d'extraction de radiographies du poignet pédiatrique qui exploite des rapports radiologiques structurés et une localisation spécifique aux os pour améliorer la précision du diagnostic des fractures et l'aide à la décision clinique grâce à une recherche d'images guidée par les régions anatomiques.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs