Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Este artigo propõe uma abordagem geométrica semântica que recupera a escala métrica absoluta de imagens de UAV usando veículos pequenos como âncoras, permitindo o alinhamento preciso de características com imagens de satélite e melhorando significativamente a robustez da geo-localização cruzada em cenários de escala desconhecida.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

O artigo propõe o UniLongGen, uma estratégia de inferência sem treinamento que melhora a geração de imagens interleaved de longo horizonte ao curar dinamicamente o contexto e descartar sinais visuais interferentes, superando assim o colapso na qualidade causado pela acumulação de "poluição" visual.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

O artigo apresenta o CONSTANT, um modelo de difusão inovador para geração de escrita manuscrita em uma única amostra que utiliza Quantização Consciente de Estilo e Aprendizado Contrastivo de Patch para superar as limitações existentes na captura de características complexas e diversas da caligrafia humana.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

Este artigo avalia o equilíbrio entre privacidade e detecção de Parkinson em fala anonimizada, demonstrando que o método kNN-VC preserva características acústicas essenciais para manter a eficácia do diagnóstico com apenas uma leve redução no desempenho, ao contrário do método STT-TTS que degrada severamente a detecção ao eliminar informações prosódicas.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto Abad2026-03-10💻 cs

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Este artigo apresenta o SGSP, um novo quadro de trabalho para envenenamento de fala direcionado em sistemas de síntese de voz zero-shot, que modifica modelos treinados para impedir a clonagem de vozes específicas enquanto preserva a utilidade para outros falantes, identificando limites de escalabilidade ao lidar com um grande número de identidades esquecidas.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

O artigo apresenta o ReconDrive, um framework feed-forward inovador que adapta o modelo de fundação VGGT para gerar rapidamente representações 4D Gaussianas de alta fidelidade de cenas de direção autônoma, superando as limitações de qualidade dos métodos existentes e a lentidão das otimizações por cena, oferecendo assim uma solução escalável para simulação realista.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

O artigo apresenta o AgentRaft, um novo framework automatizado que combina análise de código e raciocínio semântico para detectar e mitigar o risco de "Data Over-Exposure" (exposição excessiva de dados) em agentes de LLM, demonstrando alta eficácia na identificação de violações de privacidade em ferramentas reais.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Este artigo apresenta um framework baseado em inferência ativa para reconhecimento de microgestos, que utiliza amostragem temporal guiada por Energia Livre Esperada (EFE) e aprendizado adaptativo orientado pela incerteza para superar desafios como baixa amplitude, ruído e variabilidade inter-subjetiva, demonstrando melhorias consistentes no conjunto de dados SMG.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

O artigo apresenta o PureCC, um método inovador de personalização de conceitos que utiliza um objetivo de aprendizado desacoplado e um pipeline de treinamento de dupla ramificação para alcançar alta fidelidade na geração de imagens personalizadas enquanto preserva significativamente o comportamento e as capacidades originais do modelo.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

O artigo apresenta o Brain-WM, um modelo de mundo pioneiro para glioblastoma que utiliza uma arquitetura inovadora de Mixture-of-Transformers em formato de Y para unificar a previsão de tratamentos e a geração de futuras ressonâncias magnéticas, capturando assim a dinâmica coevolutiva entre o tumor e as intervenções terapêuticas para otimizar os resultados clínicos.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

O artigo apresenta o SiamGM, uma rede Siamesa inovadora que combina atenção gráfica interquadro e orientação por vetores de movimento para rastrear objetos em vídeos de satélite em tempo real, superando desafios como alvos pequenos e oclusões com alta precisão e sem sobrecarga computacional.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Este artigo apresenta um modelo eficiente de compreensão de cenas RGB-D que utiliza aprendizado adaptativo multi-tarefa e orientação de características entre dimensões para superar limitações tradicionais, alcançando desempenho superior em precisão e velocidade em tarefas como segmentação semântica, de instâncias e classificação de cenas.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

Este artigo apresenta uma abordagem inovadora de Aprendizado por Imitação Aproximada que permite a um quadricóptero voar em alta velocidade (até 9,8 m/s) em ambientes cluttered utilizando apenas uma câmera de eventos, superando as limitações de simulação ao treinar uma rede neural end-to-end com dados de estado simulados leves em vez de renderizar eventos sintéticos caros.

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide Scaramuzza2026-03-10💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

O FeasibleCap é um sistema de coleta de dados em tempo real que fornece orientação visual e háptica sobre restrições de execução diretamente no dispositivo durante a captura de demonstrações, garantindo que os movimentos sejam viáveis para o robô-alvo sem a necessidade de hardware robótico, óculos de realidade aumentada ou modelos de dinâmica aprendidos.

Zi Yin, Fanhong Li, Yun Gui, Jia Liu2026-03-10💻 cs

AiRWeb: Using AR to Extend Web Browsing Beyond Handheld Screens

O artigo apresenta o AiRWeb, um sistema que utiliza realidade aumentada para superar as limitações de tela dos dispositivos móveis, permitindo que os usuários selecionem e projetem conteúdo web arbitrário no espaço ao seu redor de forma personalizável, demonstrando sua viabilidade e usabilidade através de um protótipo funcional e um estudo preliminar.

Mengfei Gao, Caroline Appert, Ludovic David, Emmanuel Pietriga2026-03-10💻 cs

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

O artigo apresenta o 3DGS-HPC, um novo framework que melhora a síntese de novas vistas e a reconstrução de cenas 3D ao mitigar distratores transitórios em ambientes reais através de uma estratégia de classificação por patches e uma métrica híbrida que integra cues fotométricas e perceptuais, superando as limitações dos métodos baseados em semântica pré-treinada.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs