SesaHand: Enhancing 3D Hand Reconstruction via Controllable Generation with Semantic and Structural Alignment

O artigo apresenta o SesaHand, um método que aprimora a reconstrução 3D de mãos ao gerar imagens sintéticas diversificadas e alinhadas semanticamente e estruturalmente, utilizando inferência de Cadeia de Pensamento para capturar comportamentos humanos e fusão estrutural hierárquica para garantir a coerência entre a mão e o corpo.

Zhuoran Zhao, Xianghao Kong, Linlin Yang + 3 more2026-03-03💻 cs

Improved Adversarial Diffusion Compression for Real-World Video Super-Resolution

Este trabalho propõe um método aprimorado de compressão adversarial de difusão para super-resolução de vídeo no mundo real, que distila um modelo DiT pesado em uma rede leve com convoluções temporais e um esquema de distilação adversarial de dupla cabeça, reduzindo a complexidade em 95% e acelerando a inferência em 8 vezes sem comprometer a qualidade visual ou a consistência temporal.

Bin Chen, Weiqi Li, Shijie Zhao + 4 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Este artigo apresenta um sistema de imagem de alta faixa dinâmica (HDR) co-projetado em hardware e algoritmo que integra de forma assimétrica uma câmera com exposição espacialmente variável e um sensor de eventos, utilizando um framework de alinhamento cruzado e uma rede de reconstrução para superar as limitações de superexposição em ambientes com iluminação extrema.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Este trabalho apresenta o FEWTRANS, um benchmark abrangente com um novo protocolo de avaliação, que revela que a escolha do modelo pré-treinado é mais determinante que métodos complexos de adaptação, demonstrando que o ajuste fino completo supera técnicas sofisticadas em cenários de poucos exemplos devido a ajustes micro distribuídos e à melhor reconfiguração de representações semânticas.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Este artigo apresenta uma análise que combina um quadro probabilístico para determinar o número de cédulas adversariais necessárias para alterar o resultado de uma eleição nos EUA com uma avaliação empírica de 144.000 exemplos físicos, revelando uma lacuna crítica entre os domínios digital e físico onde os tipos de ataques mais eficazes diferem significativamente.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

O RAISE é um framework evolutivo de autoaperfeiçoamento sem treinamento que melhora o alinhamento texto-imagem em modelos de difusão adaptando dinamicamente o esforço computacional à complexidade do prompt por meio de ações de refinamento e verificação baseada em checklist, alcançando desempenho superior com menor custo computacional.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Este artigo propõe e valida a estratégia de agrupamento aleatório como uma abordagem simples e unificada que supera métodos de agrupamento complexos e cuidadosamente projetados em Transformers de visão, demonstrando que o cumprimento de quatro condições essenciais (informação posicional, diversidade de características dos cabeçalhos, campo receptivo global e ausência de padrão de agrupamento fixo) é suficiente para obter desempenho superior em diversas tarefas visuais e multimodais.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

O artigo apresenta o ArtiFixer, um pipeline de duas etapas que utiliza um modelo de difusão bidirecional treinado com uma estratégia de mistura de opacidade e um modelo auto-regressivo causal para gerar centenas de vistas consistentes em uma única passagem, corrigindo artefatos e melhorando significativamente a reconstrução 3D em áreas não observadas, superando os métodos atuais em qualidade e escalabilidade.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

O artigo apresenta o COG, um framework não supervisionado para estimativa de pose 6DoF de objetos novos a partir de uma única referência, que formula a correspondência geométrica como um problema de transporte ótimo consciente de confiança para gerar correspondências suaves e balanceadas, superando as limitações de métodos existentes e alcançando desempenho comparável ou superior a abordagens supervisionadas.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M2^2: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

O artigo apresenta o M2^2, um framework livre de treinamento que utiliza um mecanismo de memória dupla, combinando sumarização dinâmica de trajetórias e recuperação de insights, para superar as limitações de tarefas de longo prazo em agentes web, resultando em aumentos significativos nas taxas de sucesso e reduções substanciais no uso de tokens.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabalho introduz o framework analítico EmbedLens para revelar que os tokens visuais em modelos de linguagem multimodais exibem uma esparsidade semântica significativa, onde apenas cerca de 60% dos tokens "vivos" carregam informações essenciais, demonstrando que a computação visual interna é frequentemente redundante e que a injeção direta desses tokens em camadas intermediárias do LLM é suficiente para tarefas complexas.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

O artigo apresenta o MLLM-4D, um framework inovador que supera as limitações atuais de modelos multimodais na inteligência espaço-temporal 4D ao utilizar um pipeline de curadoria de dados eficiente e uma estratégia de pós-treinamento com GRPO e raciocínio em cadeia especializado, alcançando desempenho de ponta na compreensão e raciocínio de evolução 3D a partir de entradas visuais 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs