cs.CV articles | Gist.Science

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

FeatureGS améliore la reconstruction 3D en intégrant une fonction de perte géométrique basée sur des caractéristiques d'auto-valeurs, ce qui permet d'obtenir une précision géométrique supérieure, de réduire considérablement les artefacts flottants et le nombre de gaussiennes, tout en conservant une qualité de rendu photométrique équivalente.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Ce papier présente PoI, un cadre qui améliore la régression des coordonnées de scène en combinant la synthèse de nouvelles vues par 3DGS et un modèle de diffusion avec une stratégie de filtrage progressif des pixels basée sur l'erreur de reprojection pour garantir la fiabilité des données d'entraînement.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Ce rapport de synthèse présente une vue d'ensemble structurée des techniques, des ensembles de données et des enjeux éthiques liés à l'utilisation des grands modèles de langage pour assister les chercheurs dans l'ensemble du cycle scientifique, de la découverte et l'expérimentation à la génération de contenu multimodal et à l'évaluation.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Ce papier présente SCOTT, une architecture de tokenisation convolutive combinée à un cadre MIM-JEPA, qui permet d'entraîner des Vision Transformers à partir de zéro sur de petits ensembles de données avec des performances compétitives, démontrant ainsi qu'il est possible de s'affranchir du paradigme du Big Data pour l'apprentissage de représentations en vision par ordinateur.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

Le papier présente NAMI, une architecture de transformateurs à flux rectifié progressif et ponté qui améliore l'efficacité de la génération d'images en décomposant le processus sur plusieurs résolutions, réduisant ainsi le temps d'inférence de 64 % pour des images de 1024 pixels tout en maintenant une qualité compétitive.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

Le papier présente ECLARE, une méthode d'apprentissage croisé planaire efficace qui améliore la résolution anisotrope des volumes IRM cliniques en estimant le profil de coupe et en apprenant directement à partir des données d'acquisition pour surmonter les limitations des méthodes précédentes, notamment le décalage de domaine et les facteurs de suréchantillonnage arbitraires.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

Le papier présente EarthScape, un jeu de données multimodal prêt pour l'IA conçu pour automatiser la cartographie géologique de surface en intégrant des modèles numériques de terrain, des images aériennes et des données vectorielles, tout en démontrant que les caractéristiques topographiques constituent le signal prédictif le plus fiable pour ce type de tâche.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Cet article propose un ensemble de tests fondés sur des mesures psychophysiques de la vision de bas niveau pour évaluer la capacité de 34 métriques de qualité d'image et de vidéo à modéliser des mécanismes perceptuels clés tels que la sensibilité au contraste, le masquage et l'adaptation, révélant ainsi des limites et des comportements spécifiques non détectables par les protocoles d'évaluation standards.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Le papier présente FindAnything, un cadre de cartographie open-vocabulary qui intègre des informations vision-langage dans des sous-cartes volumétriques centrées sur les objets pour permettre une compréhension sémantique précise et économe en ressources, facilitant ainsi l'exploration autonome de grands environnements inconnus par des robots.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

Le papier présente GenCLIP, un cadre innovant qui améliore la détection d'anomalies en zéro-shot en apprenant des prompts généraux stables grâce à une incitation multi-couches et une inférence à double branche pour équilibrer spécificité et généralisation.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

Ce papier présente EVA, un nouveau cadre d'apprentissage de caractéristiques asynchrones inspiré du langage qui surpasse les méthodes existantes en reconnaissance et devient le premier à réussir des tâches de détection exigeantes pour les caméras d'événements.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

Ce papier présente BusterX, un modèle MLLM entraîné par renforcement qui transforme la détection de falsifications vidéo en un tâche de raisonnement visuel, accompagné du jeu de données GenBuster-200K et du benchmark GenBuster-Bench pour évaluer la précision et l'explicabilité des systèmes face aux évolutions des générateurs d'IA.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

DVD-Quant est un cadre de quantification sans données innovant pour les Transformers de diffusion vidéo qui, grâce à trois techniques clés, permet une accélération d'environ deux fois et une quantification W4A4 sans compromettre la qualité visuelle.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Ce papier présente Alchemist, une nouvelle méthodologie et un jeu de données de fine-tuning supervisé compact mais performant, conçu pour améliorer significativement la qualité esthétique et l'alignement des modèles de génération d'images texte-à-image publics sans sacrifier la diversité.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Cet article propose un cadre novateur de condensation de données par instance (IDC) spécifiquement conçu pour la super-résolution d'images, qui utilise l'extraction de caractéristiques de Fourier locale aléatoire et l'adaptation de distributions de caractéristiques multi-niveaux pour générer un jeu de données synthétique compact (10 % de DIV2K) offrant des performances comparables à l'ensemble de données original.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Ce papier présente VisioMath, un nouveau benchmark de 1 800 problèmes mathématiques K-12 basé sur des diagrammes visuellement similaires, qui révèle les limites actuelles des modèles multimodaux dans le raisonnement comparatif fin et propose des stratégies d'alignement pour améliorer leur précision.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

Le papier présente VisualPrompter, un cadre d'ingénierie de prompts sans entraînement qui améliore l'alignement sémantique entre les descriptions utilisateurs et les images générées en utilisant un module d'autoréflexion visuelle pour identifier et intégrer des concepts manquants au niveau atomique.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

Le papier propose SPoT, une nouvelle stratégie de tokenisation pour les Vision Transformers qui positionne continuellement les tokens au niveau subpixel grâce à une recherche guidée par oracle, permettant ainsi de réduire considérablement le nombre de tokens nécessaires pour des prédictions précises tout en transformant la sparsité en un avantage stratégique.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Le papier présente SPARC, un cadre innovant utilisant des autoencodeurs clairsemés alignés pour créer un espace latent unifié et compatible entre différents modèles et modalités, permettant ainsi une interprétabilité croisée directe et des applications pratiques comme la localisation guidée par le texte.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Ce papier présente ToBo, une méthode d'apprentissage auto-supervisé qui condense les scènes dynamiques en un jeton unique pour capturer efficacement les dépendances temporelles et améliorer les tâches de compréhension séquentielle comme le suivi vidéo et la manipulation robotique.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

← Précédent Suivant →