Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

O artigo apresenta o framework "Prune-then-Merge", uma abordagem inovadora de duas etapas que combina poda adaptativa e fusão hierárquica para superar o compromisso entre eficiência e fidelidade de características na Recuperação de Documentos Visuais, alcançando compressão quase sem perdas e desempenho superior em 29 conjuntos de dados.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

O artigo apresenta o HOCA-Bench, um benchmark que avalia a capacidade de modelagem preditiva do mundo em Video-LLMs através de anomalias ontológicas e causais inspiradas na filosofia hegeliana, revelando que, embora os modelos atuais reconheçam bem violações estáticas, eles falham significativamente ao aplicar leis físicas básicas e raciocinar sobre mecanismos causais.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

O artigo propõe o CLCR, um método de representação colaborativa que organiza as características multimodais em uma hierarquia semântica de três níveis e utiliza domínios de troca e agregação intra e inter-níveis para alinhar informações compartilhadas e privadas, superando assim a desalinhamento semântico e melhorando o desempenho em diversas tarefas de aprendizado multimodal.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Este artigo apresenta um pipeline escalável baseado em imagens de satélite e aprendizado de máquina que, ao utilizar redes neurais convolucionais pré-treinadas com máscaras espaciais, alcança uma precisão superior na detecção de sítios arqueológicos saqueados na Afeganistão em comparação com métodos tradicionais de aprendizado de máquina.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

O artigo propõe o método HiRM (High-Level Representation Misdirection), que realiza a eliminação precisa de conceitos indesejados em modelos de difusão texto-para-imagem ao redirecionar representações semânticas de alto nível no codificador de texto, preservando a qualidade da geração e a utilidade do modelo com baixo custo de treinamento.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

O artigo apresenta o BayesFusion-SDF, um framework de fusão probabilística de distância assinada focado em CPU que supera os métodos tradicionais de TSDF em precisão geométrica e estimativa de incerteza, oferecendo uma alternativa eficiente e interpretável às abordagens neurais pesadas em GPU para reconstrução 3D densa e planejamento de visão ativa.

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta2026-02-24💻 cs

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Este artigo apresenta um sistema de prova de conceito que automatiza a classificação iconográfica e a recomendação baseada em conteúdo de obras de arte digitalizadas, integrando detecção de objetos com YOLOv8, mapeamento para o vocabulário Iconclass e inferência baseada em regras para acelerar a catalogação e melhorar a navegação em repositórios de patrimônio cultural.

Krzysztof Kutt, Maciej Baczyński2026-02-24🤖 cs.AI

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

O artigo apresenta o DeepfakeJudge, um framework que utiliza um processo de bootstrap para supervisionar e avaliar a fidelidade do raciocínio em modelos de detecção de deepfakes, alcançando alta precisão e concordância com avaliações humanas sem a necessidade de rótulos de raciocínio explícitos.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

O artigo apresenta o Flose, um método generativo inovador para estimação de pose 6D que utiliza correspondência de fluxo condicional em R3\mathbb{R}^3 combinando características semânticas de aparência e registro RANSAC para superar as limitações de métodos anteriores em lidar com simetrias de objetos e falta de características locais, alcançando desempenho superior em cinco conjuntos de dados do benchmark BOP.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

O artigo apresenta o PMM-Synth, um quadro de síntese de MRI personalizado que, ao ser treinado em múltiplos conjuntos de dados heterogêneos através de módulos de modulação de características, agendamento de lotes consistente e perda de supervisão seletiva, supera os métodos atuais na geração de modalidades ausentes e na preservação de detalhes anatômicos e patológicos para aplicações clínicas.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs