cs.CV articles | Gist.Science

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Ce papier présente OccTrack360, un nouveau benchmark pour le suivi d'occupation 4D panoptique à partir de caméras grand-angle, ainsi que la méthode FoSOcc qui améliore la localisation spatiale et la projection sphérique pour établir une référence solide dans ce domaine.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Les auteurs présentent l'Interactive World Simulator, un cadre utilisant des modèles de cohérence pour générer des simulations robotiques interactives, rapides et physiquement cohérentes, permettant d'entraîner et d'évaluer des politiques d'imitation avec des performances comparables à celles obtenues avec des données réelles.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Cet article propose l'algorithme Online FISTA, une méthode de reconstruction en ligne par codage parcimonieux qui permet l'imagerie SAR avec des contraintes de mémoire et de calcul réduites, facilitant ainsi des tâches de reconnaissance de cibles en temps réel sur des drones autonomes.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Le papier présente DualFlexKAN, une architecture innovante de réseaux de Kolmogorov-Arnold à double étage qui, en découplant les transformations d'entrée et les activations de sortie, permet de combiner expressivité et efficacité computationnelle pour surpasser les MLP et les KAN classiques avec une fraction du nombre de paramètres.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

PRISM est un modèle fondamental unique qui révolutionne la génération de mouvements humains en streaming grâce à un espace latent factorisé par articulation et une injection de condition sans bruit, permettant ainsi de maîtriser simultanément la génération texte-vers-mouvement, la synthèse conditionnée par la pose et la composition narrative sur de longues séquences avec une qualité d'état de l'art.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Cette étude propose un cadre d'apprentissage faiblement supervisé combinant un réseau enseignant-élève et un raffinement progressif de masques pseudo-étiquetés pour réaliser une segmentation précise et généralisable des glandes dans l'histopathologie du cancer colorectal, réduisant ainsi la dépendance aux annotations pixel par pixel.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Ce papier présente RAF, une méthode d'augmentation par récupération qui améliore la généralisation des expressions des avatars de tête sans modèle en exposant le champ de déformation à un large éventail d'expressions extraites d'une banque non étiquetée, renforçant ainsi la robustesse et la fidélité sans nécessiter de données appariées ni d'annotations supplémentaires.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Cet article propose un modèle de détection d'objets RGB-D en temps réel intégrant une hyper-involution pondérée par une fonction de base radiale dynamique et une couche de fusion rééchantillonnée pour surmonter les défis de l'extraction simultanée de caractéristiques photométriques et de profondeur, obtenant ainsi les meilleures performances sur le jeu de données NYU Depth V2.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Cet article propose un système de détection d'hallucinations visuelles dans les images de personnages de dessins animés générés par IA, utilisant un modèle vision-langage enrichi par des informations de pose et l'apprentissage en contexte pour améliorer significativement la précision par rapport aux méthodes basées uniquement sur les images RVB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

Le papier propose Fuse4Seg, un cadre novateur qui reformule la fusion d'images médicales multimodales comme un problème d'optimisation bi-niveau coopératif guidé par des gradients sémantiques de segmentation, permettant ainsi de préserver la fidélité physique et d'améliorer les performances de segmentation tout en offrant une interprétabilité clinique transparente.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

Le papier présente PACE, une méthode de fine-tuning efficace en paramètres qui améliore la généralisation des modèles en réduisant les normes des gradients et en assurant la cohérence des modèles via une régularisation par bruit multiplicatif, surpassant ainsi les approches existantes sur diverses tâches visuelles et textuelles.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Le papier présente FALCON, une méthode d'apprentissage auto-supervisé unifiée pour la reconnaissance d'actions par drone, qui surmonte les déséquilibres spatiaux des vidéos aériennes en intégrant un masquage centré sur les objets et une reconstruction du futur à double horizon pour améliorer la précision et la vitesse d'inférence.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

L'article présente AuthFace, un cadre innovant qui améliore la restauration aveugle des visages en affinant un modèle de diffusion préentraîné sur un jeu de données photographiques de haute qualité et en introduisant une perte de caractéristiques faciales latentes temporelles pour générer des résultats plus authentiques et détaillés.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Cet article propose une méthode d'apprentissage auto-supervisé basée sur l'auto-cohérence et un réseau léger pour reconstruire efficacement des données sismiques irrégulières sans nécessiter de jeux de données supplémentaires.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

Le papier présente PPLLaVA, un modèle qui surmonte les goulots d'étranglement computationnels des LLM vidéo en utilisant une stratégie de regroupement guidée par les instructions pour compresser de manière agressive les tokens visuels tout en préservant les sémantiques pertinentes, permettant ainsi de traiter efficacement des vidéos longues avec des performances de pointe.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

Le papier présente Ditto, un cadre de synthèse de têtes parlantes basé sur la diffusion qui permet un contrôle fin et une inférence en temps réel en générant des représentations dans un espace de mouvement spécifique tout en optimisant l'architecture pour résoudre les problèmes de désentanglement et de latence.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Ce papier présente LEO, une architecture simple et efficace qui améliore la compréhension visuelle des modèles multimodaux en intégrant un mélange d'encodeurs de vision via une fusion légère et un intercalage de tuiles, surpassant les approches existantes sur divers benchmarks et s'adaptant bien au domaine de la conduite autonome.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS améliore la reconstruction 3D en intégrant une fonction de perte géométrique basée sur des caractéristiques d'auto-valeurs, ce qui permet d'obtenir une précision géométrique supérieure, de réduire considérablement les artefacts flottants et le nombre de gaussiennes, tout en conservant une qualité de rendu photométrique équivalente.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Ce papier présente PoI, un cadre qui améliore la régression des coordonnées de scène en combinant la synthèse de nouvelles vues par 3DGS et un modèle de diffusion avec une stratégie de filtrage progressif des pixels basée sur l'erreur de reprojection pour garantir la fiabilité des données d'entraînement.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Ce rapport de synthèse présente une vue d'ensemble structurée des techniques, des ensembles de données et des enjeux éthiques liés à l'utilisation des grands modèles de langage pour assister les chercheurs dans l'ensemble du cycle scientifique, de la découverte et l'expérimentation à la génération de contenu multimodal et à l'évaluation.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

← Précédent Suivant →