DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

O artigo apresenta o PathBench, um benchmark unificado para avaliação automática da inteligibilidade da fala patológica que utiliza conjuntos de dados públicos para comparar diferentes métodos e estabelecer baselines sistemáticas, introduzindo também a métrica DArtP que alcança a maior correlação média entre os métodos sem referência.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki Toda2026-03-10💻 cs

''I don't want to break it'': An Exploration of Perceived Fragility in Shape-Changing Interfaces

Este artigo investiga como a percepção de fragilidade influencia a interação dos usuários com Interfaces que Mudam de Forma (SCIs), identificando fatores-chave por meio de estudos qualitativos e experimentais para desenvolver um framework que oriente o design de objetos mais robustos e confiáveis.

Eva Mackamul (IIHM), Tom Maillard (IIHM), Noé Marceaul (IIHM), Yelli Coulibaly (IIHM), Julien Pansiot (SED [Grenoble]), Laurence Boissieux (SED [Grenoble]), Dominique Vaufreydaz (LIG, M-PSI), Anne Roudaut (IIHM), Céline Coutrix (IIHM)2026-03-10💻 cs

DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport

O artigo apresenta o DeReCo, uma nova estrutura de aprendizado por reforço multiagente que decupla o aprendizado de representação e coordenação em três etapas para superar os desafios de generalização e eficiência amostral no transporte cooperativo descentralizado de objetos com formas e propriedades físicas diversas.

Kazuki Shibata, Ryosuke Sota, Shandil Dhiresh Bosch, Yuki Kadokawa, Tsurumine Yoshihisa, Takamitsu Matsubara2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

O artigo apresenta o SAMoE-VLA, um modelo de visão-linguagem-ação para direção autônoma que substitui os mecanismos de mistura de especialistas baseados em tokens por uma seleção adaptativa ao cenário baseada em representações de visão de pássaro, resultando em desempenho superior e maior estabilidade de segurança.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

Este artigo apresenta um quadro integrado que combina o assistente de teleoperação IMCopilot, baseado em aprendizado por reforço, com a arquitetura MoDE-VLA, que incorpora modalidades táteis e de força, para superar os desafios da manipulação destreza bimanual de contato rico e duplicar a taxa de sucesso em comparação com métodos anteriores.

Tutian Tang, Xingyu Ji, Wanli Xing, Ce Hao, Wenqiang Xu, Lin Shao, Cewu Lu, Qiaojun Yu, Jiangmiao Pang, Kaifeng Zhang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

O artigo apresenta o UniGround, um método de treinamento livre que supera as limitações dos modelos pré-treinados no Grounding Visual 3D ao utilizar raciocínio visual e geométrico em duas etapas para localizar objetos em qualquer cena, estabelecendo novos recordes de estado da arte em métodos zero-shot sem supervisão 3D.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Forgetting Event Order in Higher-Dimensional Automata

Este artigo resolve a incompatibilidade entre a estrutura combinatória e o comportamento observável dos Autômatos de Dimensões Superiores (HDAs) ao desenvolver uma semântica independente da ordem dos eventos baseada em ipomsets de intervalo, estabelecendo isomorfismos categóricos e unificando noções de bisimulação para fornecer uma fundação coerente que elimina artefatos representacionais e conecta HDAs a outros modelos de concorrência.

Safa Zouari2026-03-10💻 cs

POIROT: Investigating Direct Tangible vs. Digitally Mediated Interaction and Attitude Moderation in Multi-party Murder Mystery Games

Este estudo demonstra que, em jogos de mistério com múltiplos participantes, a interação tangível com um robô mestre de jogo não garante universalmente uma melhor experiência, pois usuários com altas atitudes negativas em relação a robôs (NARS) experimentam menor imersão narrativa nesse formato, beneficiando-se em vez disso de interfaces digitais que atuam como um amortecedor social.

Wen Chen, Rongxi Chen, Shankai Chen, Huiyang Gong, Minghui Guo, Yingri Xu, Xintong Wu, Xinyi Fu2026-03-10💻 cs

Toward Governing Perception in Safety-Critical Mediated Reality on the Move

Este artigo de posição argumenta que a Realidade Mediada em contextos móveis e críticos para a segurança deve ser governável, oferecendo aos usuários mecanismos para configurar, inspecionar e compreender a modificação perceptiva sem comprometer a segurança, ao mesmo tempo que delineia desafios de pesquisa relacionados à granularidade da governança, sinalização epistêmica e responsabilidade.

Pascal Jansen2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

O artigo apresenta o MV-Fashion, um grande conjunto de dados de vídeo multi-visão com anotações detalhadas e pares de imagens de roupas vestidas e planas, projetado para superar as limitações existentes em pesquisas de moda e permitir tarefas como provação virtual e estimativa de tamanho.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudo apresenta um método inovador baseado em espectrogramas e redes neurais convolucionais que supera as técnicas tradicionais de coeficientes cepstrais de frequência mel (MFCC) na classificação multilabel de sons ambientais complexos do sul da Ásia, demonstrando maior precisão tanto no conjunto de dados SAS-KIIT quanto no UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek Howlader2026-03-10💻 cs