cs articles | Gist.Science

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Ce papier présente WanderBench, le premier benchmark mondial de géolocalisation basé sur des panoramas navigables, et GeoAoT, un cadre d'inférence qui améliore la précision des modèles multimodaux en générant des plans d'action concrets plutôt que de simples chaînes de raisonnement textuelles.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

DepthCache est un cadre d'inférence sans entraînement qui accélère les modèles Vision-Language-Action en fusionnant de manière adaptative les tokens visuels guidés par la profondeur et la dynamique temporelle, réduisant ainsi la latence tout en préservant la précision des tâches robotiques.

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Le papier présente CIPHER, une méthode sans entraînement qui supprime les hallucinations visuelles des modèles de langage-vision en projetant leurs états cachés hors d'un sous-espace caractéristique identifié grâce à un jeu de données de contre-factuels visuels.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Cet article propose un changement de paradigme de la vérification logicielle vers l'« herding » (pilotage), exploitant la « sparsité de l'influence » via un nouvel algorithme stochastique nommé EZR pour atteindre des objectifs complexes avec un nombre minimal de tests.

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

En intégrant le secteur du calcul IA dans le modèle GCAM, cette étude démontre que la demande future d'électricité pour l'IA dépendra de l'équilibre entre les trajectoires d'efficacité et la croissance des revenus, révélant que les mécanismes de prix seuls sont insuffisants pour modérer la demande dans un scénario post-AGI.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

Cet article présente le BinWalker, une plateforme robotique quadrupède équipée d'un bras manipulateur et d'un conteneur, conçue pour détecter, saisir et collecter automatiquement les déchets dans des environnements extérieurs difficiles d'accès, offrant ainsi une solution prometteuse pour automatiser le nettoyage des espaces publics.

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs

Graphing Inline: Understanding Word-scale Graphics Use in Scientific Papers

Cette étude analyse un corpus de graphiques à l'échelle du mot dans des articles scientifiques pour proposer un cadre caractérisant leur positionnement, leur fonction communicative et leur représentation visuelle, tout en soulignant leur sous-utilisation actuelle et en explorant des pistes pour améliorer la communication scientifique.

Siyu Lu, Yanhan Liu, Shiyu Xu, Ruishi Zou, Chen Ye2026-03-12💻 cs

An Event-Driven E-Skin System with Dynamic Binary Scanning and real time SNN Classification

Cet article présente un système d'électronique cutanée (e-skin) entièrement intégré et piloté par les événements, combinant une stratégie de balayage binaire dynamique pour une acquisition de données ultra-économe et un réseau de neurones à impulsions (SNN) implémenté sur FPGA, permettant une reconnaissance de chiffres manuscrits en temps réel avec une grande efficacité énergétique et une précision de 92,11 %.

Gaishan Li, Zhengnan Fu, Anubhab Tripathi, Junyi Yang, Arindam Basu2026-03-12💻 cs

DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime

DSFlash est un modèle à faible latence capable de générer des graphes de scène panoramiques complets en temps réel (56 images par seconde) avec une efficacité des ressources exceptionnelle, comblant ainsi le fossé entre les performances avancées et les contraintes matérielles des dispositifs périphériques.

Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart2026-03-12💻 cs

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Ce papier présente la quantification K-moyennes à suppression de frontières (BS-KMQ), une méthode innovante qui atténue les biais d'activation dans le calcul en mémoire pour réduire les exigences de résolution des convertisseurs analogique-numérique, tout en améliorant significativement la précision, la surface et l'efficacité énergétique des réseaux de neurones profonds.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam Basu2026-03-12💻 cs

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Cet article présente P-GSVC, un cadre unifié de splatting gaussien 2D progressif et multicouche qui permet une reconstruction d'images et de vidéos évolutive grâce à une stratégie d'entraînement conjoint surpassant les méthodes séquentielles.

Longan Wang, Yuang Shi, Wei Tsang Ooi2026-03-12💻 cs

CD-Raft: Reducing the Latency of Distributed Consensus in Cross-Domain Sites

Ce papier présente CD-Raft, un protocole Raft optimisé pour les sites inter-domaines qui réduit significativement la latence de consensus grâce à une gestion améliorée du temps aller-retour et un positionnement stratégique du nœud leader, tout en garantissant une cohérence forte vérifiée formellement.

Yangyang Wang, Ziqian Cheng, Yucong Dong, Zichen Xu2026-03-12💻 cs

FP-Predictor - False Positive Prediction for Static Analysis Reports

Ce papier présente FP-Predictor, un modèle de réseau de convolution graphique entraîné sur des graphes de propriétés de code pour prédire avec une grande précision les faux positifs des rapports d'analyse statique de sécurité, tout en identifiant les limites liées à la représentation du flux de contrôle et en proposant des améliorations futures.

Tom Ohlmer, Michael Schlichtig, Eric Bodden2026-03-12💻 cs

← Précédent Suivant →