cs artigos | Gist.Science

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

O artigo apresenta o DSH-Bench, um novo benchmark abrangente para geração de imagens de texto orientada a sujeitos que supera as limitações existentes através de uma taxonomia hierárquica, uma avaliação granular de dificuldade e cenários, e uma nova métrica de consistência de identidade, oferecendo insights diagnósticos cruciais para o aprimoramento de modelos.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

O TrianguLang é um novo framework de inferência direta para localização 3D guiada por texto que alcança estado da arte em precisão e consistência geométrica sem exigir calibração de câmera ou otimização por cena, permitindo aplicações práticas em robótica e realidade aumentada.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

O artigo apresenta o PathBench, um benchmark unificado para avaliação automática da inteligibilidade da fala patológica que utiliza conjuntos de dados públicos para comparar diferentes métodos e estabelecer baselines sistemáticas, introduzindo também a métrica DArtP que alcança a maior correlação média entre os métodos sem referência.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki Toda2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Este artigo propõe o método de Poda Adaptativa de MLP (AMP), que utiliza um critério de entropia de informação sem rótulos e uma busca binária para reduzir automaticamente cerca de 40% dos parâmetros e FLOPs de grandes Transformers de visão, como CLIP e DINOv2, mantendo o desempenho quase sem perdas.

Chengchao Shen2026-03-10💻 cs

''I don't want to break it'': An Exploration of Perceived Fragility in Shape-Changing Interfaces

Este artigo investiga como a percepção de fragilidade influencia a interação dos usuários com Interfaces que Mudam de Forma (SCIs), identificando fatores-chave por meio de estudos qualitativos e experimentais para desenvolver um framework que oriente o design de objetos mais robustos e confiáveis.

Eva Mackamul (IIHM), Tom Maillard (IIHM), Noé Marceaul (IIHM), Yelli Coulibaly (IIHM), Julien Pansiot (SED [Grenoble]), Laurence Boissieux (SED [Grenoble]), Dominique Vaufreydaz (LIG, M-PSI), Anne Roudaut (IIHM), Céline Coutrix (IIHM)2026-03-10💻 cs

Permutation Match Puzzles: How Young Tanvi Learned About Computational Complexity

Este artigo caracteriza a solvabilidade de um novo tipo de quebra-cabeça de ordenação em grades, fornecendo uma fórmula para contar soluções válidas, um algoritmo linear para corrigir configurações insolúveis e demonstrando que a generalização do problema para permutações arbitrárias é NP-completa.

Kshitij Gajjar, Neeldhara Misra2026-03-10💻 cs

DeReCo: Decoupling Representation and Coordination Learning for Object-Adaptive Decentralized Multi-Robot Cooperative Transport

O artigo apresenta o DeReCo, uma nova estrutura de aprendizado por reforço multiagente que decupla o aprendizado de representação e coordenação em três etapas para superar os desafios de generalização e eficiência amostral no transporte cooperativo descentralizado de objetos com formas e propriedades físicas diversas.

Kazuki Shibata, Ryosuke Sota, Shandil Dhiresh Bosch, Yuki Kadokawa, Tsurumine Yoshihisa, Takamitsu Matsubara2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

O artigo apresenta o SAMoE-VLA, um modelo de visão-linguagem-ação para direção autônoma que substitui os mecanismos de mistura de especialistas baseados em tokens por uma seleção adaptativa ao cenário baseada em representações de visão de pássaro, resultando em desempenho superior e maior estabilidade de segurança.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

O artigo apresenta o UIS-Digger, um novo framework de agentes multiagentes, e o benchmark UIS-QA para abordar o desafio crítico da busca por informações não indexadas, demonstrando que interações proativas com fontes não capturadas por motores de busca superam sistemas baseados em LLMs avançados nesse domínio.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng Shang2026-03-10💻 cs

Towards Human-Like Manipulation through RL-Augmented Teleoperation and Mixture-of-Dexterous-Experts VLA

Este artigo apresenta um quadro integrado que combina o assistente de teleoperação IMCopilot, baseado em aprendizado por reforço, com a arquitetura MoDE-VLA, que incorpora modalidades táteis e de força, para superar os desafios da manipulação destreza bimanual de contato rico e duplicar a taxa de sucesso em comparação com métodos anteriores.

Tutian Tang, Xingyu Ji, Wanli Xing, Ce Hao, Wenqiang Xu, Lin Shao, Cewu Lu, Qiaojun Yu, Jiangmiao Pang, Kaifeng Zhang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

O artigo apresenta o UniGround, um método de treinamento livre que supera as limitações dos modelos pré-treinados no Grounding Visual 3D ao utilizar raciocínio visual e geométrico em duas etapas para localizar objetos em qualquer cena, estabelecendo novos recordes de estado da arte em métodos zero-shot sem supervisão 3D.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

O artigo apresenta o FLED-GS, um framework rápido que reformata a restauração de cenas 3D escuras como um ciclo alternado de realce e reconstrução, superando os métodos atuais ao evitar a amplificação de ruído e alcançar velocidades de treinamento e renderização significativamente superiores.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

Forgetting Event Order in Higher-Dimensional Automata

Este artigo resolve a incompatibilidade entre a estrutura combinatória e o comportamento observável dos Autômatos de Dimensões Superiores (HDAs) ao desenvolver uma semântica independente da ordem dos eventos baseada em ipomsets de intervalo, estabelecendo isomorfismos categóricos e unificando noções de bisimulação para fornecer uma fundação coerente que elimina artefatos representacionais e conecta HDAs a outros modelos de concorrência.

Safa Zouari2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

O artigo apresenta o VesselFusion, um modelo de difusão que utiliza uma representação de centro de vaso do grosseiro ao fino e agregação baseada em votação para extrair com maior precisão e naturalidade as linhas centrais de vasos a partir de imagens de TC 3D, superando as abordagens determinísticas convencionais.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

POIROT: Investigating Direct Tangible vs. Digitally Mediated Interaction and Attitude Moderation in Multi-party Murder Mystery Games

Este estudo demonstra que, em jogos de mistério com múltiplos participantes, a interação tangível com um robô mestre de jogo não garante universalmente uma melhor experiência, pois usuários com altas atitudes negativas em relação a robôs (NARS) experimentam menor imersão narrativa nesse formato, beneficiando-se em vez disso de interfaces digitais que atuam como um amortecedor social.

Wen Chen, Rongxi Chen, Shankai Chen, Huiyang Gong, Minghui Guo, Yingri Xu, Xintong Wu, Xinyi Fu2026-03-10💻 cs

Toward Governing Perception in Safety-Critical Mediated Reality on the Move

Este artigo de posição argumenta que a Realidade Mediada em contextos móveis e críticos para a segurança deve ser governável, oferecendo aos usuários mecanismos para configurar, inspecionar e compreender a modificação perceptiva sem comprometer a segurança, ao mesmo tempo que delineia desafios de pesquisa relacionados à granularidade da governança, sinalização epistêmica e responsabilidade.

Pascal Jansen2026-03-10💻 cs

Multifingered force-aware control for humanoid robots

Este artigo apresenta um esquema de controle baseado em modelo para robôs humanoides com mãos multifingeradas que utiliza estimativas de força derivadas de sensores táteis para redistribuir forças e adaptar o movimento do corpo, mantendo o contato estável com objetos de diversas massas e configurações instáveis.

Pasquale Marra, Gabriele M. Caddeo, Ugo Pattacini, Lorenzo Natale2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

O artigo apresenta o MV-Fashion, um grande conjunto de dados de vídeo multi-visão com anotações detalhadas e pares de imagens de roupas vestidas e planas, projetado para superar as limitações existentes em pesquisas de moda e permitir tarefas como provação virtual e estimativa de tamanho.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

O artigo apresenta o Edged USLAM, um sistema híbrido visual-inercial que combina uma frente de borda consciente e um módulo de profundidade leve para superar as limitações de iluminação e movimento rápido das câmeras convencionais, oferecendo uma localização robusta e precisa em diversas condições de voo de UAV.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudo apresenta um método inovador baseado em espectrogramas e redes neurais convolucionais que supera as técnicas tradicionais de coeficientes cepstrais de frequência mel (MFCC) na classificação multilabel de sons ambientais complexos do sul da Ásia, demonstrando maior precisão tanto no conjunto de dados SAS-KIIT quanto no UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek Howlader2026-03-10💻 cs

← Anterior Próximo →