Beyond Semantic Similarity: Open Challenges for Embedding-Based Creative Process Analysis Across AI Design Tools

O artigo argumenta que a análise de processos criativos baseada apenas em similaridade semântica de embeddings é insuficiente para capturar dinâmicas criativas reais, identificando desafios na medição de significância criativa, no tratamento de traços multimodais e na avaliação de sistemas agênticos, propondo intervenções contextuais com modelos de linguagem para superar essas limitações.

Seung Won Lee, Semin Jin, Kyung Hoon Hyun2026-03-10💻 cs

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

O artigo propõe que a alucinação em Modelos de Linguagem Visuais resulta de um processo de "superpensamento" onde hipóteses incorretas se propagam através das camadas internas do modelo, e introduz uma nova métrica, o Escore de Superpensamento, que detecta essas instabilidades nas camadas intermediárias para melhorar significativamente a precisão na identificação de alucinações.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Performance Evaluation of Automated Multi-Service Deployment in Edge-Cloud Environments with the CODECO Toolkit

Este artigo avalia o toolkit CODECO, demonstrando que ele reduz significativamente o esforço manual na orquestração de microsserviços em ambientes Edge-Cloud heterogêneos, mantendo desempenho competitivo e sobrecarga aceitável em comparação com fluxos de trabalho Kubernetes padrão.

Georgios Koukis, Ioannis Dermentzis, Vassilis Tsaoussidis, Jan Lenke, Fabian Wolk, Daniel Uceda, Guillermo Sanchez, Miguel A. Puentes, Javier Serrano, Panagiotis Karamolegkos, Rute C. Sofia2026-03-10💻 cs

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

O artigo apresenta o GeoLoco, um framework de locomoção para humanoides que utiliza exclusivamente imagens RGB e aproveita os priores geométricos de um Modelo Visual Fundamental (VFM) congelado para superar as limitações de simulação-para-realidade, permitindo transferência zero-shot robusta para o robô Unitree G1 em terrenos desafiadores.

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu2026-03-10💻 cs

Task Breakpoint Generation using Origin-Centric Graph in Virtual Reality Recordings for Adaptive Playback

Este artigo propõe um método baseado em um Gráfico Centrado na Origem (OCG) para gerar automaticamente pontos de interrupção de tarefas em gravações de realidade virtual, permitindo uma reprodução adaptativa e superando as limitações dos métodos existentes que dependem de anotação manual ou são restritos a vídeos 2D.

Selin Choi, Dooyoung Kim, Taewook Ha, Seonji Kim, Woontack Woo2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

O artigo apresenta o Mobile GlottisNet, um framework de detecção de glote leve e eficiente projetado para inferência em tempo real em dispositivos de borda, utilizando mecanismos de aprendizado de características espacialmente desacopladas para superar as limitações de recursos e latência nos sistemas atuais de intubação nasal.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Registered Attribute-Based Encryption with Publicly Verifiable Certified Deletion, Everlasting Security, and More

Este artigo apresenta os primeiros esquemas de Criptografia Baseada em Atributos Registrada (RABE) que suportam exclusão certificada e segurança eterna certificada, oferecendo tanto verificações privadas quanto publicamente verificáveis para garantir a destruição irreversível de dados em ambientes descentralizados.

Shayeef Murshid, Ramprasad Sarkar, Mriganka Mandal2026-03-10💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

O artigo apresenta o TempoFit, uma solução de retrofit temporal sem treinamento que melhora a capacidade de manipulação de longo prazo de políticas VLA pré-treinadas ao reutilizar e recuperar memórias de chaves/valores de camadas anteriores, alcançando ganhos significativos de desempenho em tarefas complexas sem aumentar a latência ou exigir novos módulos treináveis.

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

O artigo apresenta o AtomicVLA, um framework unificado de planejamento e execução que utiliza uma biblioteca de habilidades atômicas escalável e um mecanismo de especialistas mistos orientados por habilidades para superar as limitações dos modelos VLA existentes em tarefas robóticas de longo horizonte e aprendizado contínuo.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

Este artigo propõe um quadro de planeamento de trajetória para exploração multiagente fora da Terra, baseado em mapeamento de crença Gaussiana e cobertura de dupla domínio, que supera as limitações das abordagens existentes ao equilibrar a descoberta de evidências esparsas com a segurança operacional em terrenos perigosos e comunicações restritas.

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

O artigo apresenta o GLASS, um framework não supervisionado que combina análise espectral geométrica com priores semânticos de modelos visão-linguagem para estabelecer correspondências densas e semanticamente consistentes entre formas 3D, superando significativamente os métodos existentes em cenários de deformações não isométricas e interclasses.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Este artigo propõe o framework de Inferência Auto-Crítica (SCI), que utiliza raciocínio contrafactual multimodal escalável para mitigar viés e sensibilidade linguística em Modelos Visuais-Linguísticos, além de introduzir o DRBench, uma avaliação dinâmica específica para cada modelo que supera as limitações dos benchmarks fixos.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

O artigo apresenta o Holi-Spatial, o primeiro conjunto de dados multimodal espacialmente consciente em grande escala, construído totalmente de forma automatizada a partir de vídeos brutos sem intervenção humana, que oferece anotações semânticas e geométricas de alta qualidade para superar as limitações de escalabilidade e viés de domínio dos métodos existentes e aprimorar significativamente o raciocínio espacial de modelos de visão e linguagem.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs