cs artigos | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

O artigo apresenta o CountFormer, um framework que substitui o codificador de imagem por um modelo de visão auto-supervisionado (DINOv2) para melhorar a consistência estrutural no contagem de objetos sem exemplares, demonstrando que representações de base podem reduzir erros de supercontagem em objetos complexos, embora os resultados quantitativos no benchmark FSC-147 permaneçam competitivos com abordagens anteriores.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

O artigo apresenta o LagMemo, um sistema de navegação visual que utiliza uma memória de Gaussiana 3D com linguagem para permitir a navegação em múltiplos objetivos com consultas de vocabulário aberto, superando os métodos mais avançados e introduzindo o conjunto de dados GOAT-Core para avaliação rigorosa.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

O artigo apresenta o SAGE, uma abordagem zero-shot que utiliza orientação estrutural e síntese generativa para criar transições de vídeo visualmente coerentes e consistentes entre clipes diversos, superando métodos clássicos e generativos existentes sem a necessidade de ajuste fino ou dados de treinamento específicos.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Este estudo apresenta o MobiDock, um manipulador móvel bimanual modular e auto-reconfigurável que utiliza uma estratégia de acoplamento autônomo baseada em visão computacional e um mecanismo de trava rosqueada para transformar dois robôs independentes em uma plataforma unificada, resultando em maior estabilidade dinâmica, precisão angular e eficiência operacional em comparação com a cooperação não acoplada.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Vectorized Online POMDP Planning

Este artigo apresenta o VOPP, um novo planejador online de POMDP totalmente vetorizado que elimina gargalos de sincronização ao representar os dados como tensores e realizar cálculos massivamente paralelos, alcançando uma eficiência 20 vezes superior a solvers paralelos existentes e superando solvers sequenciais com um orçamento de planejamento 1000 vezes menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Este artigo propõe uma abordagem forense para detectar imagens geradas por IA analisando o comportamento de "recuperação" (snap-back) das imagens quando submetidas a reconstrução por modelos de difusão, alcançando uma alta precisão na distinção entre fotografias autênticas e sintéticas mesmo sob distorções comuns.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

PhantomFetch: Obfuscating Loads against Prefetcher Side-Channel Attacks

O artigo apresenta o PhantomFetch, a primeira defesa agnóstica de hardware que protege contra ataques de canal lateral explorando o prefetcher IP-stride através da ofuscação de cargas sensíveis, garantindo segurança com sobrecarga negligenciável e sem exigir modificações no hardware.

Xingzhi Zhang, Buyi Lv, Yimin Lu, Kai Bu2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Este artigo apresenta o MUGSQA, um novo método de avaliação de qualidade baseado em múltiplas incertezas, juntamente com um dataset e benchmarks projetados para superar os desafios na avaliação perceptiva de objetos 3D reconstruídos por meio de Gaussian Splatting.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

O artigo apresenta o CountOCC, um novo framework de contagem amodal que supera as limitações de métodos atuais em cenários de oclusão ao reconstruir hierarquicamente as características de objetos ocultos através de orientação multimodal e de um objetivo de equivalência visual, alcançando desempenho superior de última geração em conjuntos de dados ocultos.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

O artigo apresenta o LAMP, um quadro de aprendizagem por reforço multiagente que integra raciocínio linguístico num pipeline "Pensar-Falar-Decidir" para otimizar a tomada de decisões económicas, superando significativamente as abordagens tradicionais em retorno, robustez e interpretabilidade.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

O artigo apresenta o Video2Layout, um framework que supera as limitações dos mapas cognitivos baseados em grades ao reconstruir layouts espaciais metricamente fundamentados a partir de coordenadas contínuas de limites de objetos, resultando em um modelo (V2LO-7B) que demonstra melhorias significativas no raciocínio espacial em comparação com métodos tradicionais.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Este artigo apresenta a MOMNet, uma rede inovadora de correspondência multi-ordem que supera as limitações de alinhamento espacial entre RGB e profundidade em cenários reais, utilizando mecanismos de correspondência e agregação multi-ordem para alcançar super-resolução de profundidade de alta qualidade e robustez.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

O artigo apresenta o DualMindVLM, um modelo de linguagem visual que implementa um mecanismo de pensamento dual (rápido e lento) adaptado via GRPO, permitindo a seleção automática ou manual do modo de raciocínio com base na complexidade da tarefa para alcançar desempenho de ponta com maior eficiência de tokens.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

O artigo propõe o Radiative-Structured Neural Operator (RSNO), uma nova abordagem que utiliza um operador neural para aprender um mapeamento contínuo no domínio espectral e impõe consistência física através de um prior radiativo e projeções de consistência angular, superando as limitações dos métodos baseados em vetores discretos na super-resolução espectral.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

O artigo apresenta o UnfoldLDM, uma nova arquitetura de redes de desdobramento profundo que integra um modelo de difusão latente para superar as limitações de dependência de degradação e viés de suavização excessiva, permitindo a restauração cega de imagens com recuperação eficaz de detalhes de alta frequência.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Privacy Concerns and ChatGPT: Exploring Online Discourse through the Lens of Information Practice on Reddit

Este estudo analisa como os usuários do Reddit negociam coletivamente as preocupações com a privacidade do ChatGPT, identificando práticas discursivas e adaptativas que servem para sinalizar riscos, estabelecer normas e promover alternativas que preservam a privacidade.

S M Mehedi Zaman, Saubhagya Joshi, Yiyi Wu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Este trabalho apresenta um sistema estável de rastreamento GNSS para robôs marinhos, utilizando múltiplos drones com detecção visual, triangulação baseada em GNSS e um filtro de Kalman estendido ponderado por confiança para fornecer estimativas precisas e em tempo real na superfície e perto dela.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

O artigo apresenta o Yo'City, um novo framework agêntico que utiliza modelos de linguagem grandes para gerar cenas de cidades 3D realistas, personalizadas e infinitamente expansíveis através de um planejamento hierárquico, síntese de imagens isométricas e um mecanismo de expansão guiado por relações espaciais e semânticas.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

O artigo apresenta o DOPD, uma arquitetura dinâmica de desagregação de pré-preenchimento e decodificação para inferência de LLMs que ajusta automaticamente a alocação de recursos com base na carga em tempo real, superando desequilíbrios de workloads heterogêneos e alcançando ganhos significativos em boa produção e cumprimento de SLOs em comparação com abordagens existentes.

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

Sublinear Edge Fault Tolerant Spanners for Hypergraphs

Este trabalho inicia o estudo de spanners tolerantes a falhas em hipergrafos, propondo um algoritmo baseado em agrupamento que constrói spanners de arestas tolerantes a falhas com tamanho sublinear e tempo de execução eficiente, além de estabelecer limites inferiores e métodos para spanners aditivos.

Jialin He, Nicholas Popescu, Chunjiang Zhu2026-03-10💻 cs

← Anterior Próximo →