cs articles | Gist.Science

A saccade-inspired approach to image classification using visiontransformer attention maps

Cette étude propose une méthode de classification d'images inspirée des mouvements saccadiers humains, utilisant les cartes d'attention du modèle auto-supervisé DINO pour cibler sélectivement les régions pertinentes et ainsi atteindre, voire dépasser, les performances de l'analyse d'image complète tout en optimisant l'efficacité computationnelle.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

Cet article propose un cadre de super-résolution IRM en zéro tirage utilisant une représentation explicite par gaussiennes et un rendu volumique guidé par la physique pour surmonter les compromis entre la dépendance aux données appariées et le coût computationnel des méthodes existantes.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou Wang2026-03-11💻 cs

Decoder-Free Distillation for Quantized Image Restoration

Ce papier présente QDR, un cadre de distillation sans décodeur qui surmonte les défis de l'entraînement quantifié pour la restauration d'images en éliminant les incohérences de capacité et en stabilisant l'optimisation, permettant ainsi à un modèle Int8 de récupérer 96,5 % des performances FP32 tout en atteignant 442 images par seconde sur un périphérique embarqué.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho Lee2026-03-11💻 cs

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

Cet article présente OTPL-VIO, un système de odométrie visuelle-inertielle stéréo robuste qui améliore la précision et la fiabilité dans des environnements à faible texture ou à éclairage variable en associant des segments de ligne via un transport optimal et des descripteurs profonds sans apprentissage, tout en adaptant dynamiquement le poids des contraintes de ligne pour atténuer le bruit de mesure.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan Wang2026-03-11💻 cs

Proportionality Degree in Participatory Budgeting

Cette étude initie l'analyse du degré de proportionnalité dans le budget participatif en démontrant que, malgré des garanties axiomatiques différentes, les règles de la Méthode des Parts Égales et de Phragmen offrent un degré de proportionnalité quantitativement équivalent, une conclusion validée par des expérimentations sur des données réelles.

Aris Filos-Ratsikas, Sreedurga Gogulapati, Georgios Kalantzis2026-03-11💻 cs

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

DiffWind est un cadre de modélisation différentiable guidé par la physique qui permet de reconstruire et de simuler avec précision la dynamique d'objets déformables sous l'effet du vent en unifiant l'interaction vent-objet, la reconstruction vidéo et la simulation, tout en garantissant la validité physique grâce à des contraintes de dynamique des fluides.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng Cui2026-03-11💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

Le papier présente VarSplat, un système de SLAM RGB-D basé sur le splatting gaussien 3D qui améliore la robustesse en apprenant explicitement la variance d'apparence par gaussienne pour générer des cartes d'incertitude différentielles guidant l'estimation de pose et l'optimisation.

Anh Thuan Tran, Jana Kosecka2026-03-11💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

Ce papier présente FootMR, une méthode de raffinement du mouvement des pieds qui améliore la reconstruction 3D dans la capture de mouvement humaine sans marqueurs en levant des repères 2D vers la 3D grâce à des données de capture de mouvement à grande échelle et en introduisant le nouveau jeu de données MOOF pour l'évaluation.

Tom Wehrbein, Bodo Rosenhahn2026-03-11💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Le papier présente DRIFT, une architecture Transformer à double représentation qui fusionne des caractéristiques locales et globales pour améliorer la détection d'objets et l'estimation de la route libre à partir de nuages de points radar 4D, surpassant ainsi les méthodes existantes sur des ensembles de données publics et internes.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Le papier présente TemporalDoRA, une méthode d'adaptation efficace des paramètres intégrant une attention temporelle au sein du goulot d'étranglement d'apprentissage pour améliorer la robustesse et la précision de la réponse aux questions sur des vidéos chirurgicales, validée sur le nouveau jeu de données REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Cette étude empirique propose une première taxonomie des « Interaction Smells » dans la génération de code collaborative multi-tours avec les LLM, analyse leur distribution sur plusieurs modèles et introduit le cadre InCE pour améliorer la qualité des interactions grâce à l'extraction d'invariants globaux et à des audits pré-génération.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Le papier propose TriFusion-SR, un cadre de diffusion conditionnelle guidé par les ondelettes qui réalise une fusion et une super-résolution conjointes d'images médicales tri-modales en décomposant les caractéristiques en bandes de fréquence pour améliorer la qualité diagnostique et réduire les artefacts.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

Le papier présente ProGS, un nouveau codec de streaming qui organise les données de 3D Gaussian Splatting dans une structure d'octree pour permettre un codage progressif, réduisant ainsi la taille de stockage de 45 fois tout en améliorant la fidélité visuelle de plus de 10 %.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

Ce papier propose Robotic Scene Cloning (RSC), une nouvelle méthode qui améliore l'adaptation zéro-shot des robots en modifiant les trajectoires d'opérations existantes via une édition visuelle, permettant ainsi une généralisation efficace des tâches dans divers environnements simulés et réels.

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong Chen2026-03-11💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

Ce papier présente GSStream, un système innovant de diffusion de scènes volumétriques en 3D Gaussian Splatting qui combine une prédiction collaborative de la vue et une adaptation du débit par apprentissage par renforcement profond pour surmonter les défis de bande passante et offrir une expérience immersive de haute qualité.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu Wang2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Le papier présente FrameDiT, une architecture de transformateur de diffusion qui introduit l'attention matricielle au niveau des images pour concilier efficacité et cohérence temporelle dans la génération vidéo, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

Local Stability of Rankings

Cet article propose une nouvelle mesure de stabilité locale pour les classements, capable de tenir compte des régions denses d'items similaires, et présente des algorithmes efficaces pour approximer cette métrique et détecter ces régions, tout en fournissant des garanties théoriques et des validations expérimentales.

Felix S. Campbell, Yuval Moskovitch2026-03-11💻 cs

Idempotent Slices with Applications to Code-Size Reduction

Cet article formalise la notion de tranches arrière idempotentes et propose un algorithme efficace pour les extraire sous forme GSA, permettant ainsi une réduction significative de la taille du code par fusion d'instructions non contiguës.

Rafael Alvarenga de Azevedo, Daniel Augusto Costa de Sa, Rodrigo Caetano Rocha, Fernando Magno Quintão Pereira2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Cet article présente une méthode d'inférence bayésienne utilisant un filtre de Kalman ensembliste régularisé pour mettre à jour l'état d'un modèle de champ de phase de rupture fragile (déplacements et champ de phase) en intégrant des données de capteurs, permettant ainsi de corriger les incertitudes matérielles tout en respectant les contraintes physiques du modèle.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

Ce papier présente WVA, un plan de contrôle d'optimisation globale co-conçu avec \texttt{llmd} qui améliore le débit effectif de 37 % et réduit les échecs de requêtes de 10 fois par rapport au HPA traditionnel en couplant étroitement les décisions de mise à l'échelle à l'état de saturation interne du serveur d'inférence et à l'hétérogénéité du matériel.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

← Précédent Suivant →