cs articles | Gist.Science

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Ce papier présente VLM-Loc, un cadre innovant qui exploite le raisonnement spatial des modèles vision-langage pour la localisation texte-nuage de points, en transformant les nuages en images et graphes de scène pour une meilleure précision, et introduit le benchmark CityLoc pour évaluer cette approche.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

Prompt-Driven Color Accessibility Evaluation in Diffusion-based Image Generation Models

Cette étude évalue systématiquement l'accessibilité chromatique des images générées par diffusion, introduisant une nouvelle métrique appelée « CVDLoss » pour quantifier les déficiences visuelles et mettre en évidence les limites actuelles des modèles à répondre efficacement aux consignes d'amélioration de l'accessibilité.

Xinyao Zhuang, Jose Echevarria, Kaan Aksit2026-03-11💻 cs

Gap-ETH-Tight Algorithms for Hyperbolic TSP and Steiner Tree

Cet article présente un schéma d'approximation Gap-ETH-optimal pour les problèmes du voyageur de commerce et de l'arbre de Steiner dans les espaces hyperboliques, reposant sur une nouvelle décomposition hiérarchique appelée « quadtree hyperbolique hybride » et une analyse de traversée pondérée.

Sándor Kisfaludi-Bak, Saeed Odak, Satyam Singh, Geert van Wordragen2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Le papier présente RecThinker, un cadre agentique novateur qui améliore les systèmes de recommandation en passant d'une acquisition passive d'informations à une investigation autonome via un paradigme « Analyser-Planifier-Agir », l'utilisation dynamique d'outils pour combler les lacunes informationnelles et un pipeline d'entraînement combinant affinage supervisé et apprentissage par renforcement.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Ce papier améliore le temps d'exécution des algorithmes d'approximation $(1+\varepsilon)$ pour les problèmes de $k$ -médiane et $k$ -means en espaces euclidiens de faible dimension et établit une borne inférieure presque correspondante sous l'hypothèse du temps exponentiel.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Le papier présente MissBench, un nouveau cadre et benchmark pour l'analyse affective multimodale qui standardise les protocoles de données manquantes déséquilibrées et introduit deux métriques diagnostiques (MEI et MLI) pour révéler les inégalités modales et les déséquilibres d'optimisation souvent masqués par les évaluations traditionnelles.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation

Cet article propose un système de cohérence des capacités (CCS) qui établit une équivalence structurelle entre les modèles de cohérence mémoire et la révocation d'autorisations multi-agents, démontrant que la stratégie RCC réduit drastiquement les opérations non autorisées par rapport aux méthodes basées sur le temps, indépendamment de la vitesse d'exécution des agents.

Vladyslav Parakhin2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Ce rapport présente InternVL-U, un modèle multimodal unifié léger de 4 milliards de paramètres qui démocratise les capacités de compréhension, de raisonnement, de génération et d'édition en surpassant des modèles plus volumineux grâce à une architecture modulaire et un pipeline de données axé sur le raisonnement.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

Le papier présente DISPLAY, un cadre de génération vidéo d'interactions humain-objet qui utilise une guidance de mouvement épars (coordonnées du poignet et boîte englobante) et une attention focalisée sur l'objet pour produire des vidéos réalistes et contrôlables sans dépendre de signaux de contrôle denses ou de vidéos modèles.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Cette étude comparative évalue cinq approches de localisation coopérative en environnements sans caractéristiques, révélant que la méthode CI offre le meilleur équilibre entre précision et cohérence, tandis que les méthodes StCL et Standard-CL, bien que plus précises, souffrent d'incohérences critiques pour les applications de sécurité.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

La deuxième édition de la piste RAG de TREC 2025 fait progresser la recherche sur les systèmes intégrant recherche et génération en introduisant des requêtes narratives complexes et une évaluation rigoureuse pour favoriser le développement de systèmes fiables et bien étayés.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Cet article présente CourtSI, le premier jeu de données à grande échelle et le benchmark CourtSI-Bench dédiés à l'évaluation et à l'amélioration de l'intelligence spatiale des modèles vision-langage dans les sports de raquette, démontrant ainsi leur potentiel pour combler l'écart de performance entre l'IA et l'humain dans des scénarios dynamiques complexes.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

The 802.11 MAC protocol leads to inefficient equilibria

Cette étude démontre, à l'aide d'une modélisation théorique des jeux et de simulations, que le protocole MAC 802.11 actuel conduit des nœuds non coopératifs à des équilibres de Nash inefficaces, et propose qu'un protocole idéal dissociant l'allocation des ressources des stratégies de transmission permettrait d'atteindre des équilibres offrant un débit supérieur à tous les nœuds.

Godfrey Tan, John Guttag2026-03-11💻 cs

Role Classification of Hosts within Enterprise Networks Based on Connection Patterns

Cet article présente deux algorithmes pratiques qui classent les hôtes des réseaux d'entreprise en rôles distincts basés sur leurs modèles de connexion, permettant ainsi de réduire considérablement la complexité de la gestion réseau et d'améliorer la précision des analyses de sécurité.

Godfrey Tan, Massimiliano Poletto, John Guttag, Frans Kaashoek2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Le papier présente WikiCLIP, un cadre efficace et performant pour la reconnaissance d'entités visuelles en domaine ouvert qui, en exploitant des embeddings de modèles de langage et un adaptateur guidé par la vision, surpasse les méthodes génératives existantes tout en réduisant considérablement la latence d'inférence.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Cet article démontre que l'optimisation directe de la distance de Chamfer conduit inévitablement à un effondrement structurel dû à l'absence de couplage non local, et propose que l'introduction de contraintes de couplage global, telles qu'un prior MPM différentiable, est la condition nécessaire pour supprimer ce phénomène et améliorer la reconstruction de formes 3D.

Chang-Yong Song, David Hyde2026-03-11💻 cs

How to Write to SSDs

Cette étude démontre que l'adoption d'écritures hors lieu dans les systèmes de bases de données, illustrée par la refonte de LeanStore, est essentielle pour réduire l'amplification d'écriture, améliorer les performances et prolonger la durée de vie des SSD, tout en supportant des interfaces modernes comme ZNS et FDP.

Bohyun Lee, Tobias Ziegler, Viktor Leis2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Cet article propose une méthode de récupération de mouvement textuel interprétable qui utilise une représentation d'images de mouvements basée sur les angles articulaires et une interaction tardive token-patch pour surpasser les approches existantes en préservant les correspondances locales fines.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Cet article propose un cadre d'adaptation de domaine non supervisé innovant basé sur une reformulation de la divergence de disparité des marges (MDD) pour améliorer la segmentation du foie en imagerie CBCT interventionnelle en exploitant des données CT annotées, comblant ainsi le manque de données étiquetées spécifiques à cette modalité.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Ce papier propose une méthode de réduction de tokens fondée sur la géométrie de l'espace des vecteurs et l'estimation des cellules de Voronoi pour diminuer l'encombrement des index des modèles de récupération à interaction tardive tout en préservant leur qualité.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

← Précédent Suivant →