cs articles | Gist.Science

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

L'article présente AmphiKey, un protocole hybride post-quantique et classique conçu pour sécuriser les communications des réseaux intelligents grâce à deux modes opérationnels distincts offrant soit une authentification forte et non-répudiable, soit une authentification déniable, le tout validé par des performances optimisées sur des infrastructures hétérogènes allant des serveurs puissants aux appareils contraints comme le Raspberry Pi.

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Cet article propose un nouveau cadre d'apprentissage fédéré mixte appelé MDM-MixMFL, qui utilise des stratégies de découplage et de mémorisation des modalités pour surmonter les hétérogénéités de données et de modalités dans la segmentation d'images IRM médicales distribuées.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Le papier présente UltraUPConvNet, un cadre universel et économe en calcul basé sur UPerNet et ConvNeXt, conçu pour réaliser simultanément la segmentation des tissus et la prédiction de maladies dans les images échographiques avec des performances de pointe.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Le papier présente Traffic-MLLM, un cadre d'apprentissage supervisé régulé par la curiosité qui remplace la recherche explicite de cas par un espace de cas structuré appris directement à partir de données multimodales, améliorant ainsi la robustesse et le raisonnement des systèmes de conduite autonome dans des scénarios de circulation complexes et à longue traîne.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

L'article présente ActivePose, une approche active de l'estimation et du suivi de pose 6D qui combine un modèle vision-langage avec une « imagination robotique » et une politique de diffusion pour détecter et résoudre dynamiquement les ambiguïtés visuelles en temps réel, permettant ainsi une manipulation robotique plus fiable.

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

Inspiré par le périopode, ce papier démontre que l'oscillation active d'une queue sur un robot permet d'accélérer sa progression de 67 % sur des terrains granulaires déformables en fluidifiant le substrat et en réduisant la traînée, offrant ainsi de nouvelles directives pour la conception de robots destinés à l'agriculture, au sauvetage et à l'exploration environnementale.

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Le papier propose SAGA, une méthode d'attention linéaire qui utilise des portes adaptatives sélectives et une décomposition de produit de Hadamard pour surmonter les limitations de redondance et de rang faible des approches existantes, offrant ainsi une efficacité computationnelle et une précision accrues sur des images haute résolution.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Cet article présente le Cumulative Consensus Score (CCS), une métrique d'évaluation sans étiquette et indépendante du modèle qui mesure la cohérence spatiale des détections d'objets via l'augmentation de données pour surveiller la fiabilité des modèles en déploiement réel.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Ce papier présente WHU-STree, un nouveau jeu de données multimodal et richement annoté collecté dans deux villes distinctes, conçu pour surmonter les limites des inventaires d'arbres urbains existants en permettant l'exécution de plus de dix tâches d'inventaire grâce à la fusion de nuages de points et d'images haute résolution.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

Cet article présente un cadre d'apprentissage par renforcement asynchrone qui découple la perception et le contrôle pour permettre aux véhicules aériens autonomes de naviguer de manière agile et robuste à 100 Hz dans des environnements complexes, en surmontant les délais de perception grâce à un module d'encodage temporel et une stratégie de transfert sim-to-real réussie.

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

Le papier présente GeoAware-VLA, une approche qui améliore la généralisation des modèles Vision-Language-Action à de nouveaux points de vue en intégrant des priors géométriques via un modèle de vision pré-entraîné et gelé, permettant ainsi d'obtenir des gains significatifs en généralisation zéro-shot sur des benchmarks simulés et réels sans nécessiter de données 3D explicites.

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

Cette étude présente le prédicteur OIPP, un système adaptatif aux objets qui, grâce à un nouveau jeu de données de 8 000 trajectoires, permet à un robot quadrupède de prédire avec précision le point d'impact d'objets divers en vol pour réussir leur capture.

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Cet article présente LibriTTS-VI, le premier corpus public pour le contrôle des impressions vocales, ainsi que de nouvelles méthodes de désentanglement et sans référence qui améliorent significativement la précision du contrôle numérique de ces impressions en atténuant les fuites d'identité du locuteur.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

Cet article propose un cadre d'apprentissage de compétences robotiques basé sur des graphes de scène et l'apprentissage par imitation, qui améliore la robustesse et la généralisation compositionnelle des robots généralistes en se concentrant sur les objets et relations pertinents pour la tâche.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

Cet article présente DroFiT, un réseau léger d'amélioration de la parole conçu pour les UAV qui combine une attention fréquentielle de type Transformer et une architecture hybride pour supprimer efficacement le bruit des drones en temps réel sur des plateformes aux ressources limitées.

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Cet article présente un système de navigation visuelle « teach-and-repeat » basé sur une caméra événementielle qui utilise la corrélation croisée dans le domaine fréquentiel pour atteindre une latence de traitement ultra-faible de 2,88 ms, permettant une navigation autonome précise de plus de 3000 mètres dans diverses conditions lumineuses.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Cette étude démontre que les benchmarks actuels de compréhension vidéo sous-estiment l'importance de l'audio en ne testant que des indices visuels, et propose une architecture évolutive intégrant un encodeur de parole qui améliore significativement les performances sur les tâches nécessitant une véritable compréhension multimodale.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Le papier présente RetoVLA, une architecture qui réutilise des jetons d'inscription (Register Tokens) pour injecter un contexte spatial global dans les modèles Vision-Language-Action, permettant ainsi d'améliorer significativement les performances de manipulation robotique sans augmenter le nombre de paramètres.

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Ce papier présente QuantVGGT, le premier cadre de quantisation post-entraînement pour les transformers VGGT, qui surmonte les défis de distribution à queue lourde et d'instabilité d'échantillonnage grâce à une quantification fine lissée en double et un échantillonnage diversifié filtré par bruit, permettant une réduction significative de la mémoire et une accélération matérielle tout en préservant une précision de reconstruction supérieure à 98 %.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

← Précédent Suivant →