cs artigos | Gist.Science

Unsupervised Discovery of Failure Taxonomies from Deployment Logs

Este trabalho apresenta uma abordagem não supervisionada para descobrir taxonomias de falhas a partir de grandes volumes de logs de implantação robótica, utilizando raciocínio visão-linguagem e agrupamento semântico para identificar modos de falha recorrentes e acionáveis que melhoram a coleta de dados e o monitoramento de segurança.

Aryaman Gupta, Yusuf Umut Ciftci, Somil Bansal2026-03-10💻 cs

Assigning Multi-Robot Tasks to Multitasking Robots

Este artigo apresenta um novo framework de alocação de tarefas para robôs multitarefa, que considera restrições físicas ignoradas por métodos anteriores, propondo soluções baseadas em MAX-SAT e heurísticas gananciosas validadas em simulações e experimentos físicos que demonstram ganhos significativos de eficiência.

Winston Smith, Yu Zhang2026-03-10💻 cs

Context Matters! Relaxing Goals with LLMs for Feasible 3D Scene Planning

O artigo apresenta o ContextMatters, um framework que combina modelos de linguagem (LLMs) e planejamento clássico para relaxar hierarquicamente objetivos em ambientes 3D complexos, permitindo que agentes robóticos adaptem tarefas inatingíveis a metas viáveis com base no contexto, resultando em um aumento de 52,45% na taxa de sucesso em comparação com métodos existentes.

Emanuele Musumeci, Michele Brienza, Francesco Argenziano, Abdel Hakim Drid, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi2026-03-10💻 cs

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Este estudo apresenta um modelo de GAN com penalização de variância, baseado na arquitetura pyramid pix2pix, que traduz imagens de histologia H&E em imagens de imuno-histoquímica (IHC) de alta fidelidade para avaliar a superexpressão de HER2 no câncer de mama, superando os métodos existentes em precisão e oferecendo uma alternativa eficiente e acessível para a oncologia de precisão.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

O artigo apresenta o LINO UniPS, um método de estereoscopia fotométrica universal que utiliza tokens de registro de luz e atenção intercalada para desacoplar iluminação e normais, além de uma arquitetura baseada em wavelets para preservar detalhes geométricos, alcançando resultados state-of-the-art no novo conjunto de dados PS-Verse.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Este artigo apresenta um novo framework em cascata guiado por Modelos de Linguagem e Visão (VLM) para a Segmentação de Objetos Camuflados em Vocabulário Aberto, que utiliza características do VLM como prompts explícitos para o Segment Anything Model (SAM) a fim de melhorar a localização e emprega a saída de segmentação como um prior espacial suave para evitar lacunas de domínio na classificação, superando assim as limitações dos métodos existentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

O artigo apresenta o WaLi, um ataque de privacidade que demonstra ser possível reconstruir fala inteligível a partir de dados de sensores de pressão em sistemas HVAC, utilizando uma arquitetura baseada em Conformer de valor complexo e blocos de atenção global para mitigar ruídos e aliasing, revelando uma vulnerabilidade de segurança previamente ignorada nesses dispositivos.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

O artigo apresenta o SUBARU, uma abordagem prática que reduz o consumo de energia em dispositivos auditivos ao utilizar amostragem sub-Nyquist e baixa resolução de bits, recuperando a qualidade do áudio por meio de um método de super-resolução que permite processamento eficiente em tempo real em ambientes ruidosos.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

Autonomous Vision-Aided UAV Positioning for Obstacle-Aware Wireless Connectivity

Este artigo apresenta o VTOPA, um algoritmo de posicionamento autônomo para UAVs que utiliza visão computacional para mapear obstáculos e usuários em tempo real, otimizando a localização das aeronaves para maximizar a conectividade sem fio e o desempenho da rede em ambientes urbanos densos.

Kamran Shafafi, Manuel Ricardo, Rui Campos2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

O artigo apresenta o LD-RPS, uma abordagem unificada e sem dados para restauração de imagens que utiliza amostragem recorrente de posterior em um modelo de difusão latente pré-treinado, combinado com um modelo de compreensão multimodal e um módulo leve de alinhamento, superando os métodos atuais ao lidar com diversos tipos de degradação sem necessidade de treinamento supervisionado.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Este artigo apresenta a Agregação Adaptativa Baseada em Consultas (QAA), uma técnica inovadora que utiliza consultas aprendidas como códigos de referência para melhorar a capacidade de agregação de informações e superar os vieses específicos de conjuntos de dados, permitindo o treinamento conjunto eficaz de múltiplos conjuntos para reconhecimento visual universal de locais com generalização equilibrada e desempenho superior.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning

Este artigo apresenta o hPGA-DP, uma nova política de difusão híbrida que incorpora a Álgebra Geométrica Projetiva (PGA) na arquitetura da rede para melhorar a eficiência do treinamento e o desempenho em tarefas de manipulação robótica, superando métodos convencionais ao reduzir a redundância no aprendizado de conceitos espaciais fundamentais.

Xiatao Sun, Yuxuan Wang, Shuo Yang, Yinxing Chen, Daniel Rakita2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Este artigo apresenta o MCULoRA, uma abordagem inovadora de adaptação de baixo rank que decopla informações compartilhadas e ajusta dinamicamente o treinamento para superar conflitos de gradientes e melhorar o reconhecimento de emoções em cenários multimodais incompletos.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

O artigo apresenta o Mamba Snake, um novo framework de "snake" profundo baseado em modelagem de espaço de estados que supera os métodos atuais na segmentação unificada de imagens médicas ao integrar modelagem topológica inter-orgânica, refinamento morfológico adaptativo e mecanismos de sinergia de classificação para melhorar a precisão em estruturas heterogêneas.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

O artigo apresenta o $π^3$ , uma rede neural feed-forward permutação-equivariante que realiza reconstrução geométrica visual de alta precisão sem depender de uma vista de referência fixa, alcançando desempenho superior em tarefas como estimativa de pose de câmera e reconstrução de mapas de pontos densos.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Este artigo propõe um framework de aprendizado profundo baseado em Vision Transformer (ViT) que utiliza análise de espaço de características e um índice de confiança para expandir anotações manuais limitadas, permitindo a segmentação precisa de áreas afetadas por desastres em imagens de satélite Sentinel-2 e Formosat-5 para aprimorar produtos de valor agregado emergenciais.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

Este artigo apresenta um levantamento e uma taxonomia abrangentes das abordagens de auto-escalabilidade para aplicações de microsserviços desde 2018, analisando cinco dimensões fundamentais para otimizar a eficiência de recursos e custos enquanto garante o cumprimento dos Acordos de Nível de Serviço (SLA).

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

O artigo apresenta o BrownoutServe, um novo framework de inferência para modelos LLM baseados em MoE que otimiza a eficiência e mantém a confiabilidade sob cargas de trabalho explosivas, utilizando "expertos unidos" para reduzir a latência e um mecanismo de "brownout" dinâmico para ajustar o processamento de tokens, resultando em um aumento de até 2,07x no throughput e uma redução de 90,28% nas violações de objetivos de nível de serviço (SLO) em comparação com o vLLM.

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Este artigo apresenta o C-Koordinator, uma plataforma de código aberto desenvolvida pela Alibaba que utiliza modelos de previsão de interferência baseados em CPI para gerenciar clusters de microsserviços em grande escala e co-localizados, reduzindo significativamente a latência e mitigando a competição por recursos em ambientes heterogêneos.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Este artigo apresenta um novo sensor tátil de rolagem de alta velocidade que integra uma câmera neuromórfica e uma estratégia de fusão bayesiana para realizar inspeção de superfícies grandes com reconstrução 3D de alta resolução, alcançando velocidades de varredura 11 vezes superiores aos métodos contínuos anteriores com erro médio absoluto inferior a 100 micrômetros.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

← Anterior Próximo →

cs