MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Le papier présente G-STAR, un système de reconnaissance automatique de la parole attribué aux locuteurs de bout en bout qui couple un module de suivi temporel des locuteurs avec un modèle de langage pour assurer une cohérence des identités à l'échelle de la réunion tout en générant des transcriptions étiquetées et horodatées.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Ce papier présente CUAAudit, une méta-évaluation de cinq modèles vision-langage en tant qu'auditeurs autonomes des agents d'utilisation d'ordinateurs, révélant que bien que ces modèles affichent une bonne précision, ils souffrent de limitations significatives dans des environnements complexes et d'un manque de consensus, soulignant ainsi la nécessité de prendre en compte leur fiabilité et leur incertitude pour un déploiement réel.

Marta Sumyk, Oleksandr KosovanThu, 12 Ma🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Cet article présente un cadre de modélisation numérique d'humain (DHM) indépendant de la plateforme qui intègre le casque OpenBCI Galea pour le capteur multimodal et l'environnement SuperTux pour l'interaction, afin de fournir une infrastructure reproductible et éthique pour la recherche future en interaction homme-machine et en accessibilité.

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. BrownThu, 12 Ma🤖 cs.AI

Proceedings of CHIdeology 2026: CHI Workshop on Disentangling the fragmented politics, values and imaginaries of Human-Computer Interaction through ideologies

Ce document présente les actes du premier atelier CHIdeology de la conférence CHI 2026, tenu à Barcelone, qui vise à démêler les politiques, valeurs et imaginaires fragmentés de l'interaction humain-ordinateur à travers le prisme des idéologies.

Felix Anand Epp, Matti Nelimarkka, Jesse Haapoja, Pedro Ferreira, Os Keyes, Shaowen BardzellThu, 12 Ma💻 cs

Believing vs. Achieving -- The Disconnect between Efficacy Beliefs and Collaborative Outcomes

Cette étude révèle que les croyances d'efficacité agissent comme des ancres cognitives persistantes favorisant un optimisme excessif envers l'IA, influençant les décisions de délégation de manière asymétrique selon le contexte, mais ayant un impact plus faible sur les performances réelles de l'équipe humain-IA, ce qui remet en question les approches centrées sur la transparence.

Philipp Spitzer, Joshua HolsteinThu, 12 Ma💻 cs

AI-Generated Rubric Interfaces: K-12 Teachers' Perceptions and Practices

Cette étude examine les perceptions et pratiques de 25 enseignants du primaire et du secondaire lors d'un atelier sur la génération de grilles d'évaluation par l'IA, révélant que bien qu'ils apprécient les ébauches structurées offertes par l'outil, ils insistent sur la nécessité d'une révision humaine pour corriger les inexactitudes et maintenir le contrôle pédagogique.

Bahare Riahi, Sayali Patukale, Joy Niranjan, Yogya Koneru, Tiffany Barnes, Veronica CatetéThu, 12 Ma💻 cs

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

En adoptant une approche centrée sur les survivants, cette étude expose l'écosystème technique malveillant facilitant la création d'images intimes non consensuelles générées par l'IA et démontre l'inefficacité des cadres de gouvernance actuels, tels que le rapport NIST AI 100-4, pour réguler ce phénomène.

Michelle L. Ding, Harini SureshMon, 09 Ma🤖 cs.AI

Pre/Absence: Prompting Cultural Awareness and Understanding for Lost Architectural Heritage in Virtual Reality

L'étude présente « Pre/Absence », une expérience de réalité virtuelle conçue autour de la dialectique présence-absence pour interpréter le patrimoine architectural perdu, démontrant qu'elle favorise davantage la conscience culturelle, l'engagement émotionnel et la réflexion critique que les supports traditionnels.

Yaning Li, Ke Zhao, Shucheng Zheng, Xingyu Chen, Chenyi Chen, Wenxi Dai, Weile Jiang, Qi Dong, Yiqing Zhao, Meng Li, Lin-Ping YuanMon, 09 Ma💻 cs