Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

O artigo apresenta o ContextMatters, um framework que combina modelos de linguagem (LLMs) e planejamento clássico para relaxar hierarquicamente objetivos em ambientes 3D complexos, permitindo que agentes robóticos adaptem tarefas inatingíveis a metas viáveis com base no contexto, resultando em um aumento de 52,45% na taxa de sucesso em comparação com métodos existentes.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudo apresenta um modelo de GAN com penalização de variância, baseado na arquitetura pyramid pix2pix, que traduz imagens de histologia H&E em imagens de imuno-histoquímica (IHC) de alta fidelidade para avaliar a superexpressão de HER2 no câncer de mama, superando os métodos existentes em precisão e oferecendo uma alternativa eficiente e acessível para a oncologia de precisão.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artigo apresenta um novo framework em cascata guiado por Modelos de Linguagem e Visão (VLM) para a Segmentação de Objetos Camuflados em Vocabulário Aberto, que utiliza características do VLM como prompts explícitos para o Segment Anything Model (SAM) a fim de melhorar a localização e emprega a saída de segmentação como um prior espacial suave para evitar lacunas de domínio na classificação, superando assim as limitações dos métodos existentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

O artigo apresenta o LD-RPS, uma abordagem unificada e sem dados para restauração de imagens que utiliza amostragem recorrente de posterior em um modelo de difusão latente pré-treinado, combinado com um modelo de compreensão multimodal e um módulo leve de alinhamento, superando os métodos atuais ao lidar com diversos tipos de degradação sem necessidade de treinamento supervisionado.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artigo apresenta a Agregação Adaptativa Baseada em Consultas (QAA), uma técnica inovadora que utiliza consultas aprendidas como códigos de referência para melhorar a capacidade de agregação de informações e superar os vieses específicos de conjuntos de dados, permitindo o treinamento conjunto eficaz de múltiplos conjuntos para reconhecimento visual universal de locais com generalização equilibrada e desempenho superior.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Este artigo apresenta o hPGA-DP, uma nova política de difusão híbrida que incorpora a Álgebra Geométrica Projetiva (PGA) na arquitetura da rede para melhorar a eficiência do treinamento e o desempenho em tarefas de manipulação robótica, superando métodos convencionais ao reduzir a redundância no aprendizado de conceitos espaciais fundamentais.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o π3π^3, uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

O artigo apresenta o BrownoutServe, um novo framework de inferência para modelos LLM baseados em MoE que otimiza a eficiência e mantém a confiabilidade sob cargas de trabalho explosivas, utilizando "expertos unidos" para reduzir a latência e um mecanismo de "brownout" dinâmico para ajustar o processamento de tokens, resultando em um aumento de até 2,07x no throughput e uma redução de 90,28% nas violações de objetivos de nível de serviço (SLO) em comparação com o vLLM.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Este artigo apresenta o C-Koordinator, uma plataforma de código aberto desenvolvida pela Alibaba que utiliza modelos de previsão de interferência baseados em CPI para gerenciar clusters de microsserviços em grande escala e co-localizados, reduzindo significativamente a latência e mitigando a competição por recursos em ambientes heterogêneos.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Este artigo apresenta um novo sensor tátil de rolagem de alta velocidade que integra uma câmera neuromórfica e uma estratégia de fusão bayesiana para realizar inspeção de superfícies grandes com reconstrução 3D de alta resolução, alcançando velocidades de varredura 11 vezes superiores aos métodos contínuos anteriores com erro médio absoluto inferior a 100 micrômetros.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs