Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Cette étude présente un cadre automatisé utilisant l'architecture SegFormer pour segmenter l'os et les tissus mous dans les images HR-pQCT, démontrant que les caractéristiques radiomiques des tissus mous surpassent les paramètres osseux traditionnels pour la détection de l'ostéoporose.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

Cet article propose une architecture d'IA agentique agissant comme couche d'intelligence pour le plan de contrôle des réseaux 6G, afin d'optimiser l'apprentissage fédéré en traduisant les objectifs de haut niveau en actions adaptatives tenant compte des conditions réseau et des capacités des appareils.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Cet article présente une amélioration du cadre d'apprentissage profond POLISH pour la reconstruction d'images en interférométrie radio, permettant une imagerie grand champ et à haut contraste dynamique qui améliore considérablement la détection des lentilles gravitationnelles fortes par rapport aux méthodes traditionnelles.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Le papier présente MM-Zero, un cadre d'apprentissage par renforcement innovant qui permet pour la première fois l'auto-évolution sans aucune donnée d'entrée de modèles de vision-langage en orchestrant trois rôles spécialisés (Propositeur, Codeur et Résolveur) générant et raisonnant sur du contenu visuel synthétique.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Ce papier propose un cadre d'apprentissage métrique géométrique utilisant des descripteurs d'angles inter-articulaires invariants pour améliorer la reconnaissance de la langue des signes en contexte few-shot et cross-lingual, surpassant les méthodes basées sur les coordonnées normalisées grâce à une robustesse accrue face aux variations de vue et d'échelle.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Le papier présente TubeMLLM, un modèle fondamental unifié qui améliore la perception et la génération d'anatomies vasculaires en intégrant des prières topologiques via des prompts naturels, démontrant ainsi des performances supérieures en généralisation hors distribution et en transfert cross-modalité sur le benchmark multimodal TubeMData.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

Le papier présente BridgeDiff, un cadre basé sur la diffusion qui améliore la synthèse de vêtements plats pour les essais virtuels en comblant le fossé entre les observations humaines et les représentations canoniques grâce à un module de conditionnement des vêtements et un module de contrainte structurelle.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs