cs.CV articles | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Ce papier présente OmniEarth, un nouveau benchmark complet évaluant les modèles vision-langage dans des scénarios d'observation de la Terre à travers 28 tâches de perception, de raisonnement et de robustesse, révélant ainsi les lacunes actuelles des modèles existants face à la complexité géospatiale.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Le papier présente PruneSID, une méthode sans entraînement pour la compression de tokens visuels dans les modèles vision-langage qui, en combinant une analyse des composantes sémantiques principales et une suppression non maximale intra-groupe, atteint des performances de pointe tout en réduisant drastiquement le nombre de tokens et en accélérant le préremplissage.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Cet article propose un cadre novateur de génération d'images à partir de croquis, basé sur une architecture en deux étapes intégrant un autoencodeur à auto-attention et une fusion préservant les coordonnées, qui surpasse les modèles actuels en fidélité et en cohérence spatiale sur divers domaines.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Ce papier propose la distillation diagonale, une méthode asymétrique qui optimise la génération de vidéos en flux continu via des modèles de diffusion en exploitant les dépendances temporelles et en alignant les prédictions de bruit pour réduire la latence tout en préservant la cohérence du mouvement.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

L'article présente EvoPrompt, un cadre novateur qui assure une adaptation stable et sans oubli des modèles vision-langage pré-entraînés vers des tâches à peu d'exemples en guidant l'évolution des prompts via un projecteur partagé, une stratégie de mise à jour hiérarchique et une régularisation géométrique des caractéristiques.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Le papier propose SurgFed, un cadre d'apprentissage fédéré multi-tâches guidé par le langage qui améliore la segmentation et l'estimation de profondeur dans les vidéos chirurgicales en surmontant les défis de la diversité tissulaire et des tâches grâce à la sélection de canaux et à une agrégation hyper-personnalisée.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Le papier présente Context-Nav, une méthode sans apprentissage spécifique qui améliore la navigation d'instances en utilisant des alignements texte-image denses pour guider l'exploration globale et une vérification 3D consciente du point de vue pour valider les candidats, atteignant ainsi des performances de pointe sur InstanceNav et CoIN-Bench.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Cet article examine la fiabilité des modèles vision-langage pour la conduite autonome en identifiant leurs limites en matière de cohérence et de raisonnement temporel, puis propose le benchmark FutureVQA et une méthode d'ajustement auto-supervisé pour améliorer ces capacités sans nécessiter d'étiquettes temporelles.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Le papier présente RESBev, une méthode résiliente et plug-and-play qui améliore la robustesse des perceptions en vue aérienne (BEV) face aux dégradations de capteurs et aux attaques adverses en prédisant des caractéristiques saines via un modèle latent du monde.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Le papier présente DCAU-Net, un cadre de segmentation d'images médicales innovant qui améliore la précision et l'efficacité grâce à une nouvelle attention croisée différentielle pour capturer les structures discriminantes et une fusion de caractéristiques canal-spatial pour intégrer adaptativement les informations sémantiques et spatiales.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Cette étude démontre que la progression radiologique de la fibroélastose pleuroparenchymateuse (PPFE) sur les scanners thoraciques à faible dose est un facteur prédictif indépendant de mortalité et d'admissions respiratoires dans deux grandes cohortes de dépistage du cancer du poumon.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Cet article propose une stratégie d'entraînement par renforcement basée sur l'optimisation de politique relative de groupe (GRPO) étendue au domaine multimodal, permettant aux modèles unifiés d'acquérir la capacité de générer des sorties intercalées texte-image cohérentes sans dépendre de vastes jeux de données spécialisés.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Cette étude présente une analyse comparative approfondie de diverses méthodes d'imagerie non-ligne-de-vue par temps de vol, en les unifiant sous un modèle commun pour évaluer leurs performances, limites et similitudes dans des conditions expérimentales standardisées.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Le papier présente GeoSolver, un cadre innovant qui améliore le raisonnement étape par étape dans l'interprétation de l'imagerie satellitaire en utilisant une supervision de processus granulaire et un apprentissage par renforcement pour garantir la fidélité visuelle et permettre une mise à l'échelle efficace du temps de test.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Le papier présente GeoAlignCLIP, un cadre unifié qui améliore l'alignement vision-langage à granularité fine dans la télédétection grâce à l'apprentissage de cohérence multi-granulaire et à un nouveau jeu de données nommé RSFG-100k, surpassant ainsi les méthodes existantes sur divers benchmarks.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Cet article présente le paradigme de modélisation langage-panorama (PLM) et le jeu de données PanoVQA pour des scènes omni-environnementales défavorables, démontrant qu'une compréhension holistique des panoramas dépasse la simple somme des perceptions par vues étroites.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Ce papier présente BinaryAttention, une méthode innovante qui remplace les produits scalaires flottants par des opérations binaires sur les signes des requêtes et des clés pour accélérer les Transformers de vision et de diffusion d'un facteur supérieur à deux tout en préservant, voire en surpassant, la précision du modèle complet grâce à un biais apprenable et à des techniques d'entraînement quantification-conscient.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Le papier présente ParTY, un cadre novateur qui améliore l'expressivité des mouvements de synthèse texte-à-mouvement en alignant sémantiquement les descriptions textuelles sur des parties spécifiques du corps tout en assurant la cohérence du mouvement global grâce à un réseau guidé par les parties, un ancrage textuel adaptatif et une fusion holistique-partielle.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Cette étude propose une méthode de classification d'images inspirée des mouvements saccadiers humains, utilisant les cartes d'attention du modèle auto-supervisé DINO pour cibler sélectivement les régions pertinentes et ainsi atteindre, voire dépasser, les performances de l'analyse d'image complète tout en optimisant l'efficacité computationnelle.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Précédent Suivant →