cs.CV articles | Gist.Science

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Cette étude démontre que la progression radiologique de la fibroélastose pleuroparenchymateuse (PPFE) sur les scanners thoraciques à faible dose est un facteur prédictif indépendant de mortalité et d'admissions respiratoires dans deux grandes cohortes de dépistage du cancer du poumon.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Cet article propose une stratégie d'entraînement par renforcement basée sur l'optimisation de politique relative de groupe (GRPO) étendue au domaine multimodal, permettant aux modèles unifiés d'acquérir la capacité de générer des sorties intercalées texte-image cohérentes sans dépendre de vastes jeux de données spécialisés.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Cette étude présente une analyse comparative approfondie de diverses méthodes d'imagerie non-ligne-de-vue par temps de vol, en les unifiant sous un modèle commun pour évaluer leurs performances, limites et similitudes dans des conditions expérimentales standardisées.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Le papier présente GeoSolver, un cadre innovant qui améliore le raisonnement étape par étape dans l'interprétation de l'imagerie satellitaire en utilisant une supervision de processus granulaire et un apprentissage par renforcement pour garantir la fidélité visuelle et permettre une mise à l'échelle efficace du temps de test.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Le papier présente GeoAlignCLIP, un cadre unifié qui améliore l'alignement vision-langage à granularité fine dans la télédétection grâce à l'apprentissage de cohérence multi-granulaire et à un nouveau jeu de données nommé RSFG-100k, surpassant ainsi les méthodes existantes sur divers benchmarks.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Cet article présente le paradigme de modélisation langage-panorama (PLM) et le jeu de données PanoVQA pour des scènes omni-environnementales défavorables, démontrant qu'une compréhension holistique des panoramas dépasse la simple somme des perceptions par vues étroites.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Ce papier présente BinaryAttention, une méthode innovante qui remplace les produits scalaires flottants par des opérations binaires sur les signes des requêtes et des clés pour accélérer les Transformers de vision et de diffusion d'un facteur supérieur à deux tout en préservant, voire en surpassant, la précision du modèle complet grâce à un biais apprenable et à des techniques d'entraînement quantification-conscient.

Chaodong Xiao, Zhengqiang Zhang, Lei Zhang2026-03-11💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Le papier présente ParTY, un cadre novateur qui améliore l'expressivité des mouvements de synthèse texte-à-mouvement en alignant sémantiquement les descriptions textuelles sur des parties spécifiques du corps tout en assurant la cohérence du mouvement global grâce à un réseau guidé par les parties, un ancrage textuel adaptatif et une fusion holistique-partielle.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Cette étude propose une méthode de classification d'images inspirée des mouvements saccadiers humains, utilisant les cartes d'attention du modèle auto-supervisé DINO pour cibler sélectivement les régions pertinentes et ainsi atteindre, voire dépasser, les performances de l'analyse d'image complète tout en optimisant l'efficacité computationnelle.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Cet article propose un cadre de super-résolution IRM en zéro tirage utilisant une représentation explicite par gaussiennes et un rendu volumique guidé par la physique pour surmonter les compromis entre la dépendance aux données appariées et le coût computationnel des méthodes existantes.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Ce papier présente QDR, un cadre de distillation sans décodeur qui surmonte les défis de l'entraînement quantifié pour la restauration d'images en éliminant les incohérences de capacité et en stabilisant l'optimisation, permettant ainsi à un modèle Int8 de récupérer 96,5 % des performances FP32 tout en atteignant 442 images par seconde sur un périphérique embarqué.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Cet article propose un cadre fondé sur la vision et le langage pour générer et évaluer des données synthétiques interprétables en télédétection, introduisant le jeu de données ARAS400k qui démontre que l'entraînement combiné à des données réelles et synthétiques surpasse systématiquement les modèles basés uniquement sur des données réelles pour les tâches de segmentation sémantique et de légendage d'images.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Ce papier présente X-GS, un cadre open-source extensible qui unifie les techniques de 3DGS pour permettre une SLAM en ligne temps réel enrichie de sémantique et interconnectée avec des modèles multimodaux avancés.

Yueen Ma, Irwin King2026-03-11💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Cet article présente OTPL-VIO, un système de odométrie visuelle-inertielle stéréo robuste qui améliore la précision et la fiabilité dans des environnements à faible texture ou à éclairage variable en associant des segments de ligne via un transport optimal et des descripteurs profonds sans apprentissage, tout en adaptant dynamiquement le poids des contraintes de ligne pour atténuer le bruit de mesure.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

Le papier présente KV-Lock, un cadre sans entraînement pour les modèles de diffusion vidéo basés sur DiT, qui améliore la qualité du premier plan tout en préservant la cohérence de l'arrière-plan en ajustant dynamiquement le verrouillage des clés-valeurs et l'échelle de guidage en fonction de la détection d'hallucinations.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind est un cadre de modélisation différentiable guidé par la physique qui permet de reconstruire et de simuler avec précision la dynamique d'objets déformables sous l'effet du vent en unifiant l'interaction vent-objet, la reconstruction vidéo et la simulation, tout en garantissant la validité physique grâce à des contraintes de dynamique des fluides.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Le papier présente VarSplat, un système de SLAM RGB-D basé sur le splatting gaussien 3D qui améliore la robustesse en apprenant explicitement la variance d'apparence par gaussienne pour générer des cartes d'incertitude différentielles guidant l'estimation de pose et l'optimisation.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Ce papier présente FootMR, une méthode de raffinement du mouvement des pieds qui améliore la reconstruction 3D dans la capture de mouvement humaine sans marqueurs en levant des repères 2D vers la 3D grâce à des données de capture de mouvement à grande échelle et en introduisant le nouveau jeu de données MOOF pour l'évaluation.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

← Précédent Suivant →