Interactive World Simulator for Robot Policy Training and Evaluation

Les auteurs présentent l'Interactive World Simulator, un cadre utilisant des modèles de cohérence pour générer des simulations robotiques interactives, rapides et physiquement cohérentes, permettant d'entraîner et d'évaluer des politiques d'imitation avec des performances comparables à celles obtenues avec des données réelles.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Le papier présente DualFlexKAN, une architecture innovante de réseaux de Kolmogorov-Arnold à double étage qui, en découplant les transformations d'entrée et les activations de sortie, permet de combiner expressivité et efficacité computationnelle pour surpasser les MLP et les KAN classiques avec une fraction du nombre de paramètres.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM est un modèle fondamental unique qui révolutionne la génération de mouvements humains en streaming grâce à un espace latent factorisé par articulation et une injection de condition sans bruit, permettant ainsi de maîtriser simultanément la génération texte-vers-mouvement, la synthèse conditionnée par la pose et la composition narrative sur de longues séquences avec une qualité d'état de l'art.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Cette étude propose un cadre d'apprentissage faiblement supervisé combinant un réseau enseignant-élève et un raffinement progressif de masques pseudo-étiquetés pour réaliser une segmentation précise et généralisable des glandes dans l'histopathologie du cancer colorectal, réduisant ainsi la dépendance aux annotations pixel par pixel.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Ce papier présente RAF, une méthode d'augmentation par récupération qui améliore la généralisation des expressions des avatars de tête sans modèle en exposant le champ de déformation à un large éventail d'expressions extraites d'une banque non étiquetée, renforçant ainsi la robustesse et la fidélité sans nécessiter de données appariées ni d'annotations supplémentaires.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Cet article propose un modèle de détection d'objets RGB-D en temps réel intégrant une hyper-involution pondérée par une fonction de base radiale dynamique et une couche de fusion rééchantillonnée pour surmonter les défis de l'extraction simultanée de caractéristiques photométriques et de profondeur, obtenant ainsi les meilleures performances sur le jeu de données NYU Depth V2.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Cet article propose un système de détection d'hallucinations visuelles dans les images de personnages de dessins animés générés par IA, utilisant un modèle vision-langage enrichi par des informations de pose et l'apprentissage en contexte pour améliorer significativement la précision par rapport aux méthodes basées uniquement sur les images RVB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Le papier propose Fuse4Seg, un cadre novateur qui reformule la fusion d'images médicales multimodales comme un problème d'optimisation bi-niveau coopératif guidé par des gradients sémantiques de segmentation, permettant ainsi de préserver la fidélité physique et d'améliorer les performances de segmentation tout en offrant une interprétabilité clinique transparente.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Le papier présente FALCON, une méthode d'apprentissage auto-supervisé unifiée pour la reconnaissance d'actions par drone, qui surmonte les déséquilibres spatiaux des vidéos aériennes en intégrant un masquage centré sur les objets et une reconstruction du futur à double horizon pour améliorer la précision et la vitesse d'inférence.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

L'article présente AuthFace, un cadre innovant qui améliore la restauration aveugle des visages en affinant un modèle de diffusion préentraîné sur un jeu de données photographiques de haute qualité et en introduisant une perte de caractéristiques faciales latentes temporelles pour générer des résultats plus authentiques et détaillés.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Le papier présente PPLLaVA, un modèle qui surmonte les goulots d'étranglement computationnels des LLM vidéo en utilisant une stratégie de regroupement guidée par les instructions pour compresser de manière agressive les tokens visuels tout en préservant les sémantiques pertinentes, permettant ainsi de traiter efficacement des vidéos longues avec des performances de pointe.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Ce papier présente LEO, une architecture simple et efficace qui améliore la compréhension visuelle des modèles multimodaux en intégrant un mélange d'encodeurs de vision via une fusion légère et un intercalage de tuiles, surpassant les approches existantes sur divers benchmarks et s'adaptant bien au domaine de la conduite autonome.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS améliore la reconstruction 3D en intégrant une fonction de perte géométrique basée sur des caractéristiques d'auto-valeurs, ce qui permet d'obtenir une précision géométrique supérieure, de réduire considérablement les artefacts flottants et le nombre de gaussiennes, tout en conservant une qualité de rendu photométrique équivalente.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Ce rapport de synthèse présente une vue d'ensemble structurée des techniques, des ensembles de données et des enjeux éthiques liés à l'utilisation des grands modèles de langage pour assister les chercheurs dans l'ensemble du cycle scientifique, de la découverte et l'expérimentation à la génération de contenu multimodal et à l'évaluation.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI