cs.CV articles | Gist.Science

Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Cet article propose un cadre efficace pour la détection d'anomalies non supervisée en utilisant un modèle autorégressif spatial 2D sur les embeddings DINOv3, permettant d'apprendre la distribution normative de manière compacte sans mémoire excessive tout en réduisant considérablement le temps et les coûts d'inférence.

Ertunc Erdil, Nico Schulthess, Guney Tombak + 1 more2026-03-04💻 cs

The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

Le papier présente le jeu de données Dresden (D4D), une ressource complète de plus de 300 000 images et 369 nuages de points issue de cadavres porcins, conçue pour évaluer et développer des méthodes de reconstruction 4D, de SLAM non rigide et d'estimation de profondeur dans des scènes chirurgicales abdominales réalistes.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

VIRGi est une méthode novatrice qui permet de recolorer rapidement et de manière photoréaliste des scènes modélisées par l'éclaboussure de gaussiennes 3D (3DGS) tout en préservant les effets dépendants de la vue, en utilisant une architecture séparant les composantes de couleur et un processus de fine-tuning nécessitant uniquement une image éditée manuellement.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Les auteurs proposent l'Ultra Resolution Geometry Transformer (URGT), un modèle transformeur unifié multi-patches qui améliore l'estimation conjointe de la profondeur et des normales en haute résolution en combinant des priors grossiers, une attention inter-patches pour la cohérence globale et une stratégie d'échantillonnage GridMix, atteignant ainsi des performances état de l'art sur UnrealStereo4K avec une excellente généralisation.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

Cette étude présente BRIGHT, le premier modèle fondationnel collaboratif généraliste-spécialiste conçu spécifiquement pour la pathologie mammaire et entraîné sur une vaste base de données multi-institutionnelle, démontrant des performances supérieures aux modèles généralistes existants sur un large éventail de tâches cliniques tout en validant une nouvelle approche évolutive pour le développement de modèles spécialisés par organe.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Cet article présente EduVQA, un cadre d'évaluation et un jeu de données pionnier nommé EduAIGV-1k conçus pour mesurer la qualité perceptive et l'alignement pédagogique des vidéos générées par l'IA destinées à l'enseignement des mathématiques aux jeunes apprenants.

Baoliang Chen, Xinlong Bu, Lingyu Zhu + 2 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Le papier présente TikZilla, une famille de modèles de langage open-source entraînés sur le nouveau jeu de données DaTikZ-V4 et optimisés par apprentissage par renforcement avec des récompenses sémantiques, permettant de générer des figures scientifiques TikZ de haute qualité qui surpassent GPT-4o et rivalisent avec GPT-5.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

Cet article présente TinyIceNet, un réseau de segmentation sémantique compact et économe en énergie, conçu pour fonctionner sur FPGA à bord de satellites afin de cartographier la glace de mer en temps réel à partir d'images SAR Sentinel-1.

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis + 2 more2026-03-04🤖 cs.AI

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

Le papier présente AWDiff, un cadre d'augmentation basé sur la diffusion qui intègre une transformée en ondelettes *a trous* et le conditionnement sémantique de BioMedCLIP pour générer des images d'échographie pulmonaire de haute fidélité tout en préservant les structures diagnostiques fines.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Le papier présente RL3DEdit, un cadre d'apprentissage par renforcement qui utilise les récompenses dérivées du modèle fondamental 3D VGGT pour surmonter le manque de données d'entraînement et garantir une cohérence multi-vue efficace dans l'édition de scènes 3D guidée par des modèles de diffusion 2D.

Jiyuan Wang, Chunyu Lin, Lei Sun + 8 more2026-03-04🤖 cs.AI

Kling-MotionControl Technical Report

Le rapport technique présente Kling-MotionControl, un cadre unifié basé sur DiT qui génère des animations de personnages réalistes et expressives en combinant stabilité structurelle et expressivité fine, tout en assurant une généralisation robuste entre identités, une préservation fidèle de l'apparence et une accélération significative de l'inférence.

Kling Team, Jialu Chen, Yikang Ding + 21 more2026-03-04💻 cs

Conditioned Activation Transport for T2I Safety Steering

Cet article propose CAT (Conditioned Activation Transport), un cadre innovant qui utilise des cartes de transport non linéaires conditionnées pour réduire les contenus toxiques dans les modèles de génération d'images tout en préservant la qualité des images générées à partir de requêtes bénignes.

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński + 3 more2026-03-04🤖 cs.AI

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Cette présentation propose MoD-DPO, un cadre d'optimisation des préférences découplé par modalité qui atténue les hallucinations intermodales dans les modèles de langage omni-modaux en renforçant l'ancrage des modalités et en réduisant la dépendance aux priors textuels.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

Chain of World: World Model Thinking in Latent Motion

L'article présente CoWVLA, une nouvelle approche unifiant le raisonnement temporel des modèles de monde et une représentation latente de mouvement déségréguée pour améliorer l'apprentissage visuomoteur des modèles Vision-Language-Action.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Le papier présente COP-GEN, un transformateur de diffusion latent multimodal conçu pour générer de manière stochastique des données d'observation de la Terre Copernicus, permettant ainsi une traduction entre capteurs et une complétion de données diversifiée et physiquement cohérente tout en modélisant correctement les incertitudes inhérentes aux relations non injectives entre modalités.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Ce papier présente UniG2U-Bench, une nouvelle évaluation systématique révélant que, bien que les modèles unifiés multimodaux sous-performent généralement leurs homologues vision-langage directs, l'inférence générative améliore spécifiquement les tâches d'intelligence spatiale, d'illusions visuelles et de raisonnement multi-étapes, tout en soulignant la nécessité de données d'entraînement plus diversifiées pour pleinement exploiter ce potentiel.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Le papier présente DuoMo, une méthode générative innovante qui utilise deux modèles de diffusion pour reconstruire avec précision le mouvement humain dans l'espace mondial à partir de vidéos non contraintes et bruitées, en surclassant les performances actuelles sur des jeux de données de référence.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR est une architecture innovante qui permet la reconstruction géométrique 3D dense sur des vidéos extrêmement longues en combinant un traitement par blocs avec une mémoire hybride apprenante, surmontant ainsi les limitations de complexité et de cohérence des modèles existants pour atteindre des performances record sur des séquences de plusieurs milliers de trames.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Cet article présente une étude empirique du préentraînement multimodal natif utilisant le cadre Transfusion, révélant que l'association d'un autoencodeur de représentation visuel optimal, de données complémentaires et d'une architecture à mélange d'experts permet de surmonter l'asymétrie de mise à l'échelle entre le langage et la vision pour créer des modèles unifiés capables de modélisation du monde.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

← Précédent Suivant →