The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

O estudo revela que os modelos de linguagem e visão (VLMs) falham ao analisar erros de alunos com dificuldades no benchmark DrawEduMath, indicando que, embora sejam competentes na resolução de problemas matemáticos, carecem de incentivos de desenvolvimento adequados para apoiar efetivamente aplicações pedagógicas.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

When Does Margin Clamping Affect Training Variance? Dataset-Dependent Effects in Contrastive Forward-Forward Learning

O artigo demonstra que o uso de clamping de margem no aprendizado Contrastivo Forward-Forward pode inflacionar significativamente a variância do treinamento em cenários específicos (como CIFAR-10) devido à saturação de gradientes, mas esse efeito é dependente do conjunto de dados e pode ser mitigado substituindo o clamping por uma subtração de margem neutra em relação ao gradiente.

Joshua Steier2026-03-03🤖 cs.LG

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

O artigo apresenta o EraseAnything++, um framework unificado que utiliza otimização multi-objetivo e técnicas de ajuste de parâmetros para remover conceitos indesejados de modelos de difusão baseados em fluxo e transformadores para geração de imagens e vídeos, garantindo simultaneamente a preservação da qualidade generativa e da consistência temporal.

Zhaoxin Fan, Nanxiang Jiang, Daiheng Gao + 2 more2026-03-03🤖 cs.AI

Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation

Este artigo propõe um framework de pré-treinamento supervisionado sintético que integra lógica anatômica realista e restrições topológicas para superar as limitações de métodos baseados em formas genéricas, resultando em um desempenho superior e escalável para segmentação médica 3D sem violar a privacidade dos dados.

Jiaqi Tang, Mengyan Zheng, Shu Zhang + 2 more2026-03-03💻 cs

The Texture-Shape Dilemma: Boundary-Safe Synthetic Generation for 3D Medical Transformers

Este artigo propõe um novo quadro de síntese espacialmente desacoplada inspirado na física que resolve o conflito de aliasing de borda ao separar a geração de texturas da preservação de gradientes, permitindo que Transformers de Visão treinados com dados sintéticos superem métodos existentes na análise de imagens médicas 3D sem depender de dados reais de pacientes.

Jiaqi Tang, Weixuan Xu, Shu Zhang + 2 more2026-03-03💻 cs

MLRecon: Robust Markerless Freehand 3D Ultrasound Reconstruction via Coarse-to-Fine Pose Estimation

O artigo apresenta o MLRecon, um sistema robusto e sem marcadores para reconstrução 3D de ultrassom livre que utiliza uma câmera RGB-D comum e modelos de visão fundacionais para realizar rastreamento de pose preciso e contínuo, superando as limitações de custo e deriva de métodos existentes e estabelecendo um novo padrão para imageamento volumétrico acessível em ambientes clínicos.

Yi Zhang, Puxun Tu, Kun Wang + 3 more2026-03-03💻 cs

Content-Aware Frequency Encoding for Implicit Neural Representations with Fourier-Chebyshev Features

Este artigo apresenta o CAFE e sua extensão CAFE+, novas técnicas de codificação de frequência que combinam recursos de Fourier e Chebyshev para superar o viés espectral das Representações Neurais Implícitas, permitindo a síntese eficiente e adaptativa de uma gama mais ampla de frequências para capturar detalhes de alta frequência com desempenho superior.

Junbo Ke, Yangyang Xu, You-Wei Wen + 1 more2026-03-03🤖 cs.AI

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

O artigo apresenta o TAR-FAS, um framework de MLLM que aprimora a generalização na detecção de falsificação facial ao reformular a tarefa como um raciocínio em cadeia que combina observações intuitivas com a invocação adaptativa de ferramentas visuais externas para investigar detalhes sutis, resultando em desempenho superior e explicações visuais detalhadas.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI