EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Le papier présente EarthScape, un jeu de données multimodal prêt pour l'IA conçu pour automatiser la cartographie géologique de surface en intégrant des modèles numériques de terrain, des images aériennes et des données vectorielles, tout en démontrant que les caractéristiques topographiques constituent le signal prédictif le plus fiable pour ce type de tâche.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Cet article propose un ensemble de tests fondés sur des mesures psychophysiques de la vision de bas niveau pour évaluer la capacité de 34 métriques de qualité d'image et de vidéo à modéliser des mécanismes perceptuels clés tels que la sensibilité au contraste, le masquage et l'adaptation, révélant ainsi des limites et des comportements spécifiques non détectables par les protocoles d'évaluation standards.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Le papier présente FindAnything, un cadre de cartographie open-vocabulary qui intègre des informations vision-langage dans des sous-cartes volumétriques centrées sur les objets pour permettre une compréhension sémantique précise et économe en ressources, facilitant ainsi l'exploration autonome de grands environnements inconnus par des robots.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

Instance Data Condensation for Image Super-Resolution

Cet article propose un cadre novateur de condensation de données par instance (IDC) spécifiquement conçu pour la super-résolution d'images, qui utilise l'extraction de caractéristiques de Fourier locale aléatoire et l'adaptation de distributions de caractéristiques multi-niveaux pour générer un jeu de données synthétique compact (10 % de DIV2K) offrant des performances comparables à l'ensemble de données original.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Le papier propose SPoT, une nouvelle stratégie de tokenisation pour les Vision Transformers qui positionne continuellement les tokens au niveau subpixel grâce à une recherche guidée par oracle, permettant ainsi de réduire considérablement le nombre de tokens nécessaires pour des prédictions précises tout en transformant la sparsité en un avantage stratégique.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Ce papier présente ExDD, un cadre novateur pour la détection de défauts industriels qui surpasse les limites des approches unilatérales en modélisant explicitement des distributions doubles via des banques de mémoire parallèles et en palliant la rareté des données grâce à une synthèse de défauts par des modèles de diffusion conditionnés textuellement.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Cet article présente un système multi-agents basé sur un modèle de langage multimodal qui améliore considérablement l'extraction automatisée d'informations chimiques à partir de la littérature, surpassant l'état de l'art avec un score F1 de 76,27 % et démontrant une grande polyvalence pour divers types de tâches d'extraction.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Ce papier présente MAP, une méthode de décodage sans entraînement qui atténue les hallucinations des modèles vision-langage en traitant leurs états cachés comme une carte sémantique 2D et en utilisant des opérations d'attention à l'échelle de la carte pour améliorer la cohérence factuelle.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI