Remote Sensing Image Classification Using Deep Ensemble Learning

Cet article propose une méthode de classification d'images de télédétection par apprentissage profond ensembliste qui fusionne les forces des CNN et des Transformers pour surmonter les limitations des architectures individuelles et atteindre des taux de précision supérieurs sur plusieurs jeux de données.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Le papier présente TumorChain, un cadre de raisonnement multimodal entrelacé couplé à un vaste ensemble de données TumorCoT, conçu pour améliorer la traçabilité et la fiabilité de l'analyse clinique des tumeurs en intégrant des scans CT 3D et un raisonnement textuel étape par étape.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

Le papier présente PatchCue, une nouvelle approche qui améliore le raisonnement des modèles vision-langage en remplaçant les indices visuels textuels ou pixelisés par des indices au niveau des patches, alignés sur les habitudes perceptives humaines et l'architecture des modèles modernes, ce qui conduit à des performances supérieures sur diverses tâches de compréhension multimodale.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Ce papier présente MemSeg-Agent, un agent de segmentation médicale qui remplace l'adaptation des poids par une mise à jour de mémoires dynamiques, permettant un apprentissage efficace en peu d'exemples, une réduction des coûts de communication en apprentissage fédéré et une adaptation en temps réel sans fine-tuning.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Le papier présente InnoAds-Composer, un cadre unique et efficace qui améliore la génération d'affiches e-commerce en permettant un contrôle simultané précis du sujet, du texte et du style tout en optimisant l'inférence grâce à un routage conditionnel intelligent et un module d'amélioration des caractéristiques textuelles.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

Le papier présente CollabOD, un cadre de détection collaboratif et léger conçu pour améliorer la robustesse et la précision de la détection d'objets de petite taille dans les images de drones en préservant les détails structurels et en alignant les flux de caractéristiques hétérogènes.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

Ce papier propose Art3D, un nouveau paradigme de synthèse de disparité artistique qui, contrairement aux méthodes géométriques traditionnelles, vise à recréer l'immersion et l'intention émotionnelle du cinéma 3D professionnel en découplant les paramètres de profondeur globaux des effets locaux.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

Le papier présente Pano3DComposer, un cadre de génération feed-forward efficace qui transforme une seule image panoramique en une scène 3D complète et fidèle en environ 20 secondes, en découplant la génération d'objets de l'estimation de la mise en page grâce à un prédicteur de transformation plug-and-play et un mécanisme d'alignement de la grossière au fin.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Ce papier présente CORE-Seg, un cadre novateur intégrant le raisonnement et la segmentation via l'apprentissage par renforcement et un benchmark CoT dédié, qui surpasse les méthodes existantes pour la segmentation de lésions complexes grâce à une stratégie d'entraînement progressive et un mécanisme de récompense adaptatif.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Ce papier présente BlackMirror, un cadre de détection de backdoors sans entraînement pour les modèles de génération d'images à partir de texte en boîte noire, qui identifie les attaques en analysant les déviations sémantiques entre les instructions et les réponses générées plutôt que la simple similarité visuelle.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Ce papier présente TAR-ViTPose, une nouvelle architecture Transformer visionnelle qui améliore l'estimation de pose humaine 2D dans les vidéos en agrégeant et restaurant des informations temporelles via des mécanismes d'attention centrés sur les articulations et globaux, surpassant ainsi les méthodes existantes en précision et en vitesse.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs