cs articles | Gist.Science

Privacy in ERP Systems: Behavioral Models of Developers and Consultants

Cette étude examine la sensibilisation à la vie privée des développeurs et des consultants ERP au sein d'une firme internationale en utilisant le modèle comportemental de Fogg pour identifier des leviers favorisant l'adoption de pratiques conformes au RGPD.

Alicia Pang, Katsiaryna Labunets, Olga Gadyatskaya2026-03-13💻 cs

Coalgebraic Path Constraints

Ce papier introduit les contraintes de chemin équationnelles, une classe de propriétés comportementales finitaires offrant une alternative algébrique aux coéquations pour axiomatiser les covariétés de coalgèbres et construire leurs coalgèbres finales.

Todd Schmid2026-03-13💻 cs

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

Le papier présente ForensicZip, un cadre sans entraînement qui reformule la compression de tokens comme un problème de transport optimal pour préserver les artefacts de falsification dans les modèles vision-langage, permettant une accélération significative sans compromettre les performances de détection.

Yingxin Lai, Zitong Yu, Jun Wang + 3 more2026-03-13💻 cs

Bounding the Fragmentation of B-Trees Subject to Batched Insertions

Cet article généralise l'analyse de Yao sur la fragmentation interne des B-trees pour traiter les insertions par lots, en proposant des stratégies alternatives qui garantissent une bonne utilisation de l'espace pour les charges de travail non couvertes par la méthode de division uniforme.

Michael A. Bender, Aaron Bernstein, Nairen Cao + 5 more2026-03-13💻 cs

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

Ce papier présente « Verifier », un méta-modèle qui évalue la fiabilité des prédictions de suivi de points pour générer des pseudo-étiquettes de haute qualité, permettant ainsi une adaptation efficace aux vidéos réelles et l'obtention de résultats state-of-the-art avec moins de données.

Görkay Aydemir, Fatma Güney, Weidi Xie2026-03-13💻 cs

UniMotion: Self-Supervised Learning for Cross-Domain IMU Motion Recognition

Ce papier présente UniMotion, un cadre d'apprentissage auto-supervisé qui permet la reconnaissance de gestes inertiels (IMU) généralisable à travers différents appareils et populations d'utilisateurs en pré-entraînant un modèle sur des données non étiquetées et en l'affinant avec un minimum de données étiquetées.

Prerna Khanna, Tanmay Srivastava, Shubham Jain + 1 more2026-03-13💻 cs

A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

Ce papier propose un modèle dual-modal à deux étapes, combinant un encodeur visuel DINOv2 enrichi par une stratégie d'augmentation et un mécanisme d'experts, avec des caractéristiques audio Wav2Vec 2.0 via une fusion gating, pour améliorer la reconnaissance des expressions faciales dans des vidéos non contraintes lors du workshop ABAW.

Jiajun Sun, Zhe Gao2026-03-13💻 cs

Language Model Teams as Distributed Systems

Ce papier propose d'utiliser les principes des systèmes distribués comme fondement théorique pour concevoir et évaluer les équipes de modèles de langage, afin de résoudre de manière systématique des questions clés sur leur efficacité, leur structure et leur avantage par rapport à un agent unique.

Elizabeth Mieczkowski, Katherine M. Collins, Ilia Sucholutsky + 2 more2026-03-13💻 cs

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Le papier présente SceneAssistant, un agent piloté par un retour visuel qui combine des modèles de génération d'objets 3D et des modèles vision-langage pour créer et modifier des scènes 3D ouvertes et de haute qualité à partir de descriptions textuelles naturelles.

Jun Luo, Jiaxiang Tang, Ruijie Lu + 1 more2026-03-13💻 cs

HandelBot: Real-World Piano Playing via Fast Adaptation of Dexterous Robot Policies

Le papier présente HandelBot, un cadre combinant une politique simulée et une adaptation rapide par affinage structuré et apprentissage par renforcement résiduel, permettant à un robot d'exécuter avec succès et précision des pièces de piano bimanuelles en seulement 30 minutes de données physiques.

Amber Xie, Haozhi Qi, Dorsa Sadigh2026-03-13💻 cs

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Le papier présente ELIT, un mécanisme compatible avec les transformateurs de diffusion (DiT) qui découple la taille de l'image de la charge de calcul en introduisant une interface latente élastique permettant d'ajuster dynamiquement la latence et la qualité de génération tout en priorisant les régions importantes de l'image.

Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov + 6 more2026-03-13💻 cs

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Ce papier présente FIRM, un cadre complet qui améliore la génération et l'édition d'images fidèles en développant des modèles de récompense robustes, des jeux de données de haute qualité et une nouvelle stratégie de récompense « Base-and-Bonus » pour surmonter les hallucinations et guider efficacement l'apprentissage par renforcement.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin + 7 more2026-03-13💻 cs

DVD: Deterministic Video Depth Estimation with Generative Priors

Le papier présente DVD, un cadre innovant qui adapte de manière déterministe des modèles de diffusion vidéo pré-entraînés en régresseurs de profondeur pour surmonter les compromis entre hallucinations géométriques et besoin de données massives, atteignant ainsi des performances de pointe en zéro-shot avec une fraction des données d'entraînement.

Hongfei Zhang, Harold Haodong Chen, Chenfei Liao + 12 more2026-03-13💻 cs

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Le papier présente AutoGaze, un module léger qui améliore l'efficacité et l'évolutivité de la compréhension vidéo des modèles multimodaux en sélectionnant de manière autoregressive uniquement les patches visuels essentiels, réduisant ainsi considérablement le nombre de jetons et permettant l'analyse de vidéos longues et haute résolution.

Baifeng Shi, Stephanie Fu, Long Lian + 10 more2026-03-13💻 cs

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Le papier présente DreamVideo-Omni, un cadre unifié qui permet une personnalisation vidéo multi-sujets avec un contrôle omni-mouvement grâce à un paradigme d'entraînement en deux étapes intégrant des mécanismes d'ancrage d'identité et un apprentissage par renforcement basé sur des récompenses d'identité latente pour garantir une préservation fidèle des identités et une précision du mouvement.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

Ce papier présente HumDex, un système de téléopération portable et précis pour la manipulation dextre des humanoïdes, qui combine un suivi corporel par IMU, un recalage d'hand learning-based et un cadre d'apprentissage par imitation en deux étapes pour collecter efficacement des données et améliorer la généralisation des tâches.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Le papier présente VST, un nouveau paradigme pour les modèles vidéo de langage qui permet un raisonnement simultané à la lecture en temps réel, surmontant ainsi les compromis entre latence et compréhension logique grâce à une méthode d'entraînement postérieur innovante et des données synthétiques de haute qualité.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

$Ψ_0$ : An Open Foundation Model Towards Universal Humanoid Loco-Manipulation

Ce papier présente $\Psi_0$ , un modèle fondamental open-source pour la loco-manipulation humanoïde qui, grâce à une approche d'apprentissage en deux étapes séparant la préformation sur des vidéos humaines et le post-entraînement sur des données robotiques, surpasse les méthodes existantes avec une fraction des données nécessaires.

Songlin Wei, Hongyi Jing, Boqian Li + 12 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Ce papier présente GRADE, le premier benchmark évaluant le raisonnement et les connaissances disciplinaires dans l'édition d'images à travers dix domaines académiques, révélant ainsi les limites actuelles des modèles multimodaux unifiés et définissant de nouvelles directions pour leur développement.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Ce papier présente OmniStream, un modèle visuel unifié et en flux continu capable de percevoir, reconstruire et agir grâce à une architecture causale et une pré-formation multi-tâches, démontrant ainsi la viabilité d'un seul backbone généraliste pour les agents interactifs et incarnés.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

← Précédent Suivant →

cs