ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Le papier présente ReCoSplat, un modèle de Splatting de Gaussienne feed-forward et autoregressif qui surmonte les défis de la synthèse de vues nouvelles en ligne grâce à un module « Render-and-Compare » pour corriger les erreurs de pose et une stratégie de compression de cache KV pour traiter efficacement de longues séquences.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

En introduisant le cadre contrôlé de la superposition de type « sac de mots » (BOWS), cette étude démontre que les corrélations entre caractéristiques permettent d'organiser géométriquement les interférences de manière constructive dans les réseaux de neurones, expliquant ainsi la formation de clusters sémantiques et de structures cycliques observées dans les modèles de langage réels, ce que la vision traditionnelle de la superposition basée sur des caractéristiques non corrélées ne parvenait pas à prédire.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Cet article présente une approche de conception ascendante appelée « microscopie différentiable » (μ\partial\mu) qui, en s'appuyant sur des données, permet de concevoir automatiquement des systèmes de microscopie optique pour la récupération de phase, surpassant les méthodes existantes et validée expérimentalement.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Cet article propose une méthode d'adaptation de domaine pour des cibles mélangées qui, en alignant mutuellement les distributions conditionnelles des catégories et des classes via un discriminateur guidé par l'incertitude et l'augmentation de caractéristiques, surpasse les méthodes actuelles même en l'absence d'étiquettes de domaine et face à des décalages de distribution.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Cet article présente PD-REAL, un nouveau jeu de données à grande échelle pour la détection d'anomalies en 3D basé sur des modèles Play-Doh, ainsi qu'une méthode de distillation multi-échelle par apprentissage enseignant-élève qui améliore la précision de détection en exploitant efficacement les informations RGB-D.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Le papier présente DivCon, une approche « diviser pour régner » qui améliore la génération d'images à partir de texte en décomposant la prédiction de mise en page et la synthèse d'images en sous-tâches gérables, permettant ainsi aux modèles légers de surpasser les méthodes précédentes dans la gestion de relations spatiales et numériques complexes.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Ce document de recherche propose une revue complète et un benchmark des dernières avancées en matière de génération et de détection de deepfakes, en couvrant les définitions des tâches, les ensembles de données, les méthodes de pointe dans quatre domaines clés (échange de visages, réanimation, génération de visage parlant et édition d'attributs faciaux) ainsi que les défis futurs.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Cet article propose trois nouveaux jeux de données d'évaluation dits « Goldilocks » (Hadrian, Eclipse et ND-Twins) pour tester la robustesse des algorithmes de reconnaissance faciale face à des variations d'attributs et à des jumeaux, sans recourir à une dégradation artificielle de la qualité des images.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Cet article identifie et modélise théoriquement une phase de « corruption » lors du fine-tuning à peu d'exemples de modèles de diffusion, puis propose une solution basée sur les réseaux de neurones bayésiens qui atténue ce phénomène et améliore la fidélité et la diversité des images générées sans coût d'inférence supplémentaire.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Cette étude propose un système neurosymbolique capable de reconstruire des images médicales à partir de primitives visuelles pour générer des explications structurelles, surpassant les architectures d'apprentissage profond classiques en précision de classification et en transparence pour le diagnostic des anomalies histologiques.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Le papier présente Prithvi-EO-2.0, un modèle fondamental géospatial open-source amélioré entraîné sur 4,2 millions d'échantillons temporels qui surpasse les modèles existants dans diverses tâches de télédétection et intègre une approche de science ouverte avec des experts du domaine pour des applications allant de la gestion des catastrophes à la surveillance des écosystèmes.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Le papier présente iLLaVA, une méthode novatrice qui accélère de manière end-to-end les modèles multimodaux en optimisant conjointement l'encodeur d'images et le LLM grâce à une stratégie de fusion de tokens recyclant l'information, permettant ainsi d'obtenir des gains significatifs en vitesse et en efficacité tout en surpassant les modèles plus petits.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs