cs.CV articles | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Cet article propose une méthode de classification d'images de télédétection par apprentissage profond ensembliste qui fusionne les forces des CNN et des Transformers pour surmonter les limitations des architectures individuelles et atteindre des taux de précision supérieurs sur plusieurs jeux de données.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

Le papier présente Cog2Gen3D, un cadre de diffusion guidé par la cognition 3D qui intègre des informations sémantiques et géométriques absolues pour générer des objets 3D physiquement plausibles et structurellement rationnels, surpassant ainsi les méthodes existantes en fidélité sémantique et en vraisemblance géométrique.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

Le papier présente VS3R, un cadre innovant qui combine la reconstruction 3D feed-forward et la diffusion vidéo générative pour réaliser une stabilisation vidéo robuste et complète, surmontant ainsi les compromis traditionnels entre robustesse géométrique et cohérence de l'image entière.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

Le papier présente MACRO, un agent médical auto-évoluant qui améliore l'interprétation d'images cliniques en découvrant et en synthétisant automatiquement de nouveaux outils composites à partir de son expérience, surpassant ainsi les méthodes statiques existantes en termes de précision et de généralisation.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

Le papier présente TumorChain, un cadre de raisonnement multimodal entrelacé couplé à un vaste ensemble de données TumorCoT, conçu pour améliorer la traçabilité et la fiabilité de l'analyse clinique des tumeurs en intégrant des scans CT 3D et un raisonnement textuel étape par étape.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

Le papier présente PatchCue, une nouvelle approche qui améliore le raisonnement des modèles vision-langage en remplaçant les indices visuels textuels ou pixelisés par des indices au niveau des patches, alignés sur les habitudes perceptives humaines et l'architecture des modèles modernes, ce qui conduit à des performances supérieures sur diverses tâches de compréhension multimodale.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

Ce papier présente MemSeg-Agent, un agent de segmentation médicale qui remplace l'adaptation des poids par une mise à jour de mémoires dynamiques, permettant un apprentissage efficace en peu d'exemples, une réduction des coûts de communication en apprentissage fédéré et une adaptation en temps réel sans fine-tuning.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Cet article présente une évaluation systématique de l'impact des vues synthétiques nouvelles sur la reconnaissance de lieux vidéo (VPR), démontrant que l'ajout de vues améliore les statistiques de reconnaissance, où le nombre de vues et le type d'imagerie priment sur l'ampleur du changement de point de vue pour les ajouts plus importants.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

Le papier présente CylinderSplat, une méthode de synthèse de vues nouvelles panoramiques en feed-forward qui améliore la précision géométrique et réduit les distorsions grâce à une représentation par triplans cylindriques mieux adaptée aux scènes à 360°.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh est une méthode qui reconstruit de manière autorégressive des maillages 3D complets et prêts pour les artistes d'une scène intérieure à partir d'une seule image RGB, en prédisant conjointement la disposition et la géométrie des objets dans un modèle unifié sans nécessiter d'optimisation postérieure.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

Le papier présente InnoAds-Composer, un cadre unique et efficace qui améliore la génération d'affiches e-commerce en permettant un contrôle simultané précis du sujet, du texte et du style tout en optimisant l'inférence grâce à un routage conditionnel intelligent et un module d'amélioration des caractéristiques textuelles.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Cet article propose trois techniques de mitigation de biais pour améliorer l'équité des modèles à goulot d'entité conceptuelle (CBM) en réduisant les fuites d'informations, en supprimant les concepts biaisés et en appliquant un débiasage adversarial, surpassant ainsi les travaux antérieurs en matière de compromis entre équité et performance.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

Le papier présente CollabOD, un cadre de détection collaboratif et léger conçu pour améliorer la robustesse et la précision de la détection d'objets de petite taille dans les images de drones en préservant les détails structurels et en alignant les flux de caractéristiques hétérogènes.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

Ce papier propose Art3D, un nouveau paradigme de synthèse de disparité artistique qui, contrairement aux méthodes géométriques traditionnelles, vise à recréer l'immersion et l'intention émotionnelle du cinéma 3D professionnel en découplant les paramètres de profondeur globaux des effets locaux.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

Le papier présente Pano3DComposer, un cadre de génération feed-forward efficace qui transforme une seule image panoramique en une scène 3D complète et fidèle en environ 20 secondes, en découplant la génération d'objets de l'estimation de la mise en page grâce à un prédicteur de transformation plug-and-play et un mécanisme d'alignement de la grossière au fin.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

Ce papier présente CORE-Seg, un cadre novateur intégrant le raisonnement et la segmentation via l'apprentissage par renforcement et un benchmark CoT dédié, qui surpasse les méthodes existantes pour la segmentation de lésions complexes grâce à une stratégie d'entraînement progressive et un mécanisme de récompense adaptatif.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Ce papier présente BlackMirror, un cadre de détection de backdoors sans entraînement pour les modèles de génération d'images à partir de texte en boîte noire, qui identifie les attaques en analysant les déviations sémantiques entre les instructions et les réponses générées plutôt que la simple similarité visuelle.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

Le papier propose le Rectified Flow Auto Coder (RAC), une architecture inspirée du Rectified Flow qui remplace les VAE traditionnels en offrant un décodage itératif rectifiable et une inférence bidirectionnelle, permettant d'améliorer la qualité de reconstruction et de génération tout en réduisant les coûts computationnels d'environ 70 %.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Cet article présente RAID, un vaste ensemble de données annotées pour l'évaluation des risques en conduite, et propose un cadre faiblement supervisé qui améliore significativement la détection des sources de risque en modélisant la relation entre les intentions et les réactions du conducteur.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

Ce papier présente TAR-ViTPose, une nouvelle architecture Transformer visionnelle qui améliore l'estimation de pose humaine 2D dans les vidéos en agrégeant et restaurant des informations temporelles via des mécanismes d'attention centrés sur les articulations et globaux, surpassant ainsi les méthodes existantes en précision et en vitesse.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← Précédent Suivant →