cs articles | Gist.Science

Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

Cet article propose FlexHook, un nouveau cadre de suivi d'objets référé en deux étapes qui surpasse les méthodes actuelles de l'état de l'art en résolvant les limitations des constructions de caractéristiques heuristiques et de la modélisation fragile des correspondances grâce à une stratégie d'injection de repères conditionnés par le langage et à un décodeur de correspondance par paires.

Weize Li, Yunhao Du, Qixiang Yin, Zhicheng Zhao, Fei Su2026-03-12💻 cs

Enhanced Continual Learning of Vision-Language Models with Model Fusion

Ce papier propose ConDU, une nouvelle approche de découplage et d'unification par fusion de modèles qui permet aux modèles vision-langage d'apprendre continuellement sans oublier les tâches précédentes tout en améliorant leurs capacités zéro-shot.

Haoyuan Gao, Zicong Zhang, Yuqi Wei, Linglan Zhao, Guilin Li, Yexin Li, Bo Wang, Linghe Kong, Weiran Huang2026-03-12💻 cs

A Chain-Driven, Sandwich-Legged Quadruped Robot: Design and Experimental Analysis

Ce papier présente la conception et l'analyse expérimentale d'un robot quadrupède de taille moyenne à entraînement par chaîne et jambes en sandwich, conçu comme une plateforme de recherche accessible, fiable et peu coûteuse (environ 8000 $) dont les plans sont open-source.

Aman Singh, Bhavya Giri Goswami, Ketan Nehete, Shishir N. Y. Kolathaya2026-03-12💻 cs

On the Solvability of Byzantine-tolerant Reliable Communication in Dynamic Networks

Cet article établit les conditions nécessaires et suffisantes pour assurer une communication fiable dans des réseaux dynamiques soumis à des pannes byzantines, tout en étendant son analyse aux pertes de messages, aux délais de calcul locaux et aux messages authentifiés.

Silvia Bonomi (DIAG UNIROMA), Giovanni Farina (UNICUSANO), Sébastien Tixeuil (NPA)2026-03-12💻 cs

Faster shortest-path algorithms using the acyclic-connected tree

Cet article propose une méthode de décomposition graphique appelée arbre acyclique-connecté (A-C), calculable en temps linéaire, qui permet d'améliorer la complexité temporelle des algorithmes de plus court chemin à source unique en exploitant la structure modulaire des graphes via un paramètre de largeur d'imbrication.

Elis Stefansson, Oliver Biggar, Karl H. Johansson2026-03-12💻 cs

Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models

Cet article présente TCBS-Attack, une nouvelle méthode d'attaque par boîte noire qui utilise une recherche de frontière de contraintes au niveau des tokens pour contourner efficacement les défenses en chaîne complète des modèles de génération d'images texte-à-image, surpassant ainsi les méthodes existantes.

Jiangtao Liu, Zhaoxin Wang, Handing Wang, Cong Tian, Yaochu Jin2026-03-12💻 cs

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Le papier présente SEGA, une méthode innovante permettant de créer des avatars de tête 3D photoréalistes et animables en temps réel à partir d'une seule image, en combinant des priors généralisés et un nouveau framework de splatting gaussien hiérarchique dans l'espace UV pour garantir une cohérence 3D et une fidélité d'identité supérieures.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi Huang2026-03-12💻 cs

Cluster-Aware Attacks on Graph Watermarks

Cet article présente la première évaluation systématique d'attaques sur les filigranes de graphes qui exploitent la structure communautaire, démontrant que ces attaques ciblées surpassent les perturbations aléatoires en réduisant l'efficacité de l'attribution tout en maintenant une distorsion structurelle comparable.

Alexander Nemecek, Emre Yilmaz, Erman Ayday2026-03-12💻 cs

Unsupervised training of keypoint-agnostic descriptors for flexible retinal image registration

Cet article propose une méthode d'apprentissage non supervisé de descripteurs agnostiques aux points d'intérêt pour l'enregistrement d'images rétiniennes, démontrant des performances précises et compétitives par rapport aux méthodes supervisées tout en s'affranchissant du besoin de données étiquetées.

David Rivas-Villar, Álvaro S. Hervella, José Rouco, Jorge Novo2026-03-12💻 cs

Average Calibration Losses for Reliable Uncertainty in Medical Image Segmentation

Cette étude propose une nouvelle fonction de perte différentiable basée sur l'erreur d'étalonnage moyenne (mL1-ACE) pour améliorer la fiabilité des réseaux de neurones en segmentation d'images médicales, permettant aux praticiens de mieux contrôler le compromis entre la précision de la segmentation et la fiabilité des incertitudes prédites.

Theodore Barfoot, Luis C. Garcia-Peraza-Herrera, Samet Akcay, Ben Glocker, Tom Vercauteren2026-03-12💻 cs

SOTA: Self-adaptive Optimal Transport for Zero-Shot Classification with Multiple Foundation Models

Ce papier présente SOTA, un cadre d'ensemble sans entraînement qui utilise le transport optimal auto-adaptatif pour combiner efficacement les forces complémentaires de multiples modèles fondation (visuels et vision-langage) et améliorer les performances de classification zéro-shot sur divers domaines.

Zhanxuan Hu, Qiyu Xu, Yu Duan, Yonghang Tai, Huafeng Li2026-03-12💻 cs

Community Notes undermoderate polarizing content by design creating risks in electoral processes

L'étude révèle que l'algorithme des Notes Communautaires de X, conçu pour privilégier le consensus bipartisan, sous-moderne systématiquement les contenus polarisants liés aux élections, créant ainsi des risques pour les processus démocratiques.

Paul Bouchaud, Pedro Ramaciotti2026-03-12💻 cs

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Cette étude présente Shiksha Copilot, un outil d'IA déployé dans les écoles gouvernementales du Karnataka, qui, en facilitant la co-création et la personnalisation de plans de leçons bilingues pour plus de 1 000 enseignants, réduit leur charge administrative et le stress tout en favorisant une transition vers des pédagogies actives, bien que des contraintes systémiques limitent l'ampleur du changement pédagogique.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya Vashistha2026-03-12💻 cs

A Survey on Interpretability in Visual Recognition

Ce papier propose une enquête systématique sur l'interprétabilité des modèles de reconnaissance visuelle, en établissant une taxonomie multidimensionnelle centrée sur l'humain, en évaluant les métriques et les applications, et en explorant l'avenir des grands modèles de langage multimodaux pour guider la recherche future.

Qiyang Wan, Chengzhi Gao, Ruiping Wang, Xilin Chen2026-03-12💻 cs

Getting Python Types Right with RightTyper

Le papier présente RightTyper, une nouvelle approche hybride pour Python qui génère des annotations de types précises en combinant l'analyse statique avec des observations d'exécution réelles via un échantillonnage adaptatif, offrant ainsi une qualité supérieure aux méthodes existantes avec une surcharge d'exécution limitée à environ 27 %.

Juan Altmayer Pizzorno, Emery D. Berger2026-03-12💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Cette étude psychosociale menée auprès d'auditeurs italiens révèle que, bien qu'ils routinisent leur usage des plateformes musicales, ils manquent de compréhension critique des algorithmes et ont une conscience limitée des biais de genre, soulignant ainsi la nécessité d'intégrer des perspectives psychosociales dans la conception de systèmes de recommandation musicaux plus fiables et culturellement sensibles.

Lorenzo Porcaro, Chiara Monaldi2026-03-12💻 cs

Content-Aware Mamba for Learned Image Compression

Cet article présente le CMIC, un modèle de compression d'images appris basé sur le Mamba adaptatif au contenu (CAM), qui surpasse les performances de l'état de l'art (VTM-21.0) en surmontant les limitations des scans rigides grâce à une permutation dynamique des tokens et à l'injection de priors globaux spécifiques à l'échantillon.

Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu2026-03-12💻 cs

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Cet article présente le premier jeu de données open-source à grande échelle et des modèles novateurs pour la conversion de la parole en LaTeX, couvrant des équations et des phrases mathématiques en anglais et en russe, et établissant de nouveaux benchmarks qui surpassent significativement les méthodes existantes.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs

What Do Agents Think One Another Want? Level-2 Inverse Games for Inferring Agents' Estimates of Others' Objectives

Cet article propose un cadre d'inférence de niveau 2 pour déduire les estimations que les agents ont des objectifs des autres, surmontant ainsi les limites des approches de niveau 1 qui supposent une connaissance complète et partagée des intentions dans les interactions stratégiques décentralisées.

Hamzah I. Khan, Jingqi Li, David Fridovich-Keil2026-03-12💻 cs

DSER: Spectral Epipolar Representation for Efficient Light Field Depth Estimation

Le papier propose DSER, un cadre géométrique innovant qui utilise une régularisation spectrale dans le domaine épipolaire pour réaliser une estimation de profondeur dense et précise sur des champs de lumière, en surmontant les défis liés aux occlusions et aux régions sans texture grâce à une inférence hybride efficace.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12💻 cs

← Précédent Suivant →