cs articles | Gist.Science

Vectorized Online POMDP Planning

Ce papier présente VOPP, un nouveau planificateur en ligne POMDP vectorisé qui exploite le parallélisme massif via des calculs tensoriels pour éliminer les goulots d'étranglement de synchronisation, surpassant ainsi les solveurs parallèles et séquentiels de l'état de l'art avec une efficacité et une économie de budget de calcul considérables.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Cet article propose une nouvelle méthode de détection des images générées par l'IA, appelée « reconstruction par rebond de diffusion », qui analyse la manière dont une image se réorganise sous l'effet d'une perturbation contrôlée par un modèle de diffusion, atteignant une précision exceptionnelle (AUROC de 0,993) pour distinguer les photographies authentiques des synthèses artificielles.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

PhantomFetch est la première défense logicielle agnostique au matériel qui protège les préchargeurs IP-stride contre les attaques par canal latéral en brouillant les effets des charges sensibles sans sacrifier les performances ni nécessiter de modifications matérielles.

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Cet article présente MUGSQA, une nouvelle méthode d'évaluation de la qualité basée sur l'incertitude multiple, accompagnée d'un jeu de données et de benchmarks conçus pour mesurer la robustesse des méthodes de Gaussian Splatting et la performance des métriques d'évaluation existantes face aux variations des données d'entrée.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Le papier présente CountOCC, un cadre de comptage amodal qui surpasse les méthodes actuelles en reconstruisant les caractéristiques des objets occlus grâce à une guidance multimodale hiérarchique et une nouvelle tâche d'équivalence visuelle, validé par des performances record sur des jeux de données augmentés avec occlusion.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Cet article présente LAMP, un cadre d'apprentissage par renforcement multi-agent enrichi par le langage qui intègre un pipeline de réflexion, d'expression et de décision pour optimiser les stratégies économiques en fusionnant données chiffrées et analyse sémantique, surpassant ainsi les méthodes existantes en termes de rentabilité, de robustesse et d'interprétabilité.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Le papier présente Video2Layout, un cadre qui améliore le raisonnement spatial des modèles multimodaux en reconstruisant des cartes cognitives métriques basées sur des coordonnées continues plutôt que sur des grilles discrétisées, permettant ainsi des calculs quantitatifs plus précis et une réduction de l'ambiguïté dans la description des relations spatiales.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Cet article présente MOMNet, un cadre novateur de super-résolution de profondeur sans alignement qui utilise un mécanisme de correspondance multi-ordre pour récupérer et agréger de manière adaptative les informations RGB pertinentes, surmontant ainsi les limitations des méthodes existantes face aux désalignements inhérents aux scénarios réels.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Ce papier présente DualMindVLM, un modèle de langage visuel qui imite le double système de pensée humain en adaptant dynamiquement la longueur de son raisonnement à la complexité de la tâche, offrant ainsi des performances de pointe avec une efficacité de tokens supérieure.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Cet article propose le Radiative-Structured Neural Operator (RSNO), une nouvelle méthode d'apprentissage profond qui génère des images hyperspectrales continues et physiquement cohérentes à partir d'observations multispectrales en intégrant des contraintes radiatives et une projection angulaire cohérente pour éliminer les distorsions de couleur.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

L'article présente UnfoldLDM, une méthode novatrice qui combine les réseaux de déroulement profond et les modèles de diffusion latents pour surmonter les limites des approches existantes en restauration d'images aveugle, grâce à un module d'estimation de dégradation multi-granulaire et un transformateur de correction des sur-lissages.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Cette étude examine comment les utilisateurs de Reddit négocient collectivement les préoccupations liées à la vie privée de ChatGPT en identifiant des pratiques d'information telles que l'alerte aux risques, l'établissement de normes et la recherche de solutions alternatives.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Cet article présente un système de suivi GNSS stable pour les robots marins utilisant une flotte de drones équipés de détection visuelle, d'un filtre de Kalman étendu pondéré par la confiance et d'un algorithme d'alignement d'identifiants pour assurer un suivi précis et robuste en temps réel.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Le papier présente Yo'City, un cadre agentique innovant qui génère des scènes urbaines 3D réalistes, personnalisables et infiniment extensibles en combinant une planification hiérarchique, une synthèse d'images guidée par l'auto-critique et une expansion relationnelle, surpassant ainsi les méthodes existantes sur tous les aspects de la qualité de génération.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

Le papier propose DOPD, une architecture d'inférence LLM dynamique qui ajuste en temps réel l'allocation des instances de préremplissage et de décodage pour résoudre les déséquilibres de charge et maximiser le bon débit tout en respectant les objectifs de niveau de service.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Cet article initie l'étude des spanneurs tolérants aux pannes dans les hypergraphes en proposant un algorithme rapide qui construit des spanneurs de taille sous-linéaire par rapport au nombre de pannes, comblant ainsi un vide théorique majeur par rapport aux méthodes classiques.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Cet article présente un cadre multi-agents assisté par un grand modèle de langage (LLM) qui automatise la conception et l'adaptation des systèmes de contrôle pour la fabrication en continu (roll-to-roll), garantissant la sécurité et réduisant l'effort de réglage manuel grâce à une validation expérimentale réussie.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

RadDiff: Retrieval-Augmented Denoising Diffusion for Protein Inverse Folding

Le papier présente RadDiff, une nouvelle méthode de repliement inverse de protéines qui améliore significativement les taux de récupération de séquences en combinant un modèle de diffusion débruité avec un mécanisme d'augmentation par récupération pour intégrer dynamiquement des connaissances protéiques externes.

Jin Han, Tianfan Fu, Wu-Jun Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Cet article propose l'intégration d'un modèle fondamental causal dans un cadre de maintenance prescriptive pour simuler des interventions et optimiser l'efficacité globale des équipements (OEE) en identifiant les causes racines des défaillances plutôt que de se limiter à des prédictions statistiques.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Le papier présente S2AM3D, une méthode innovante qui combine des priors de segmentation 2D avec une supervision 3D cohérente et un nouveau jeu de données à grande échelle pour réaliser une segmentation de parties de nuages de points 3D robuste, généralisable et contrôlable en termes d'échelle.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

← Précédent Suivant →