SIQA: Toward Reliable Scientific Image Quality Assessment

Ce papier introduit le cadre SIQA pour évaluer la qualité des images scientifiques selon des dimensions de connaissance et de perception, en révélant grâce à un nouveau benchmark que les modèles multimodaux actuels présentent un décalage significatif entre leur capacité à noter ces images et leur compréhension scientifique réelle.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Ce papier présente HERO, un cadre unifié pour l'ancrage temporel de phrases dans les vidéos en vocabulaire ouvert, accompagné de la création des premiers benchmarks dédiés (Charades-OV et ActivityNet-OV) et démontrant une capacité de généralisation supérieure grâce à un raffinement hiérarchique des embeddings et une alignement multimodal amélioré.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Ce papier présente XMACNet, un réseau de neurones convolutifs léger et explicable qui fusionne des images visibles et des indices de végétation pour détecter les maladies du piment avec une grande précision, grâce à une architecture basée sur l'attention et un jeu de données enrichi par génération synthétique.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Le papier propose HiDE, un cadre de modélisation d'entropie hiérarchique pour la compression d'images apprise qui améliore l'efficacité du codage en exploitant des priors externes structurés via des dictionnaires globaux et locaux, ainsi qu'un estimateur de paramètres adaptatif, permettant des économies de débit significatives par rapport aux méthodes existantes.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Cette étude révèle que la qualité de l'ancrage visuel étape par étape dans les modèles vision-langage à long terme est un indicateur prédictif majeur de leur capacité à généraliser hors distribution, surpassant la simple précision finale ou l'échelle du modèle.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Ce papier présente MotionBits, une nouvelle approche d'analyse de mouvement basée sur l'équivalence des twists spatiaux cinématiques pour segmenter les corps rigides sans dépendre de la sémantique, accompagnée d'un benchmark nommé MoRiBo et d'une méthode de segmentation sans apprentissage qui surpassent les méthodes existantes et améliorent les tâches de raisonnement et de manipulation incarnée.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Cet article propose un cadre d'acquisition active de vues nommé Perturbed Gaussian Ensemble, qui intègre la modélisation de l'incertitude et la prise de décision séquentielle pour sélectionner les projections optimales dans la reconstruction tomographique par Gaussian Splatting, surpassant ainsi les méthodes existantes en réduisant les artefacts géométriques et en améliorant la fidélité de reconstruction à partir de données éparses.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Ce papier présente IGLU, une nouvelle fonction d'activation paramétrique dérivée d'un mélange d'échelles de portes GELU avec une distribution mi-normale, qui offre une expression fermée basée sur la fonction de répartition de Cauchy pour garantir des gradients non nuls et une robustesse accrue, ainsi qu'une approximation rationnelle efficace (IGLU-Approx) qui démontre des performances compétitives ou supérieures sur des tâches de vision et de langage.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG