GeoTop: Advancing Image Classification with Geometric-Topological Analysis

O artigo apresenta o GeoTop, um framework matematicamente fundamentado que unifica a Análise Topológica de Dados e as Curvaturas de Lipschitz-Killing para superar as limitações de modelos convencionais na classificação de imagens diagnósticas, oferecendo maior precisão, interpretabilidade intrínseca e eficiência computacional ao distinguir estruturas benignas e malignas que compartilham topologia global, mas diferem em detalhes geométricos.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Este artigo propõe um novo método para segmentação de instâncias camufladas em vocabulário aberto, utilizando técnicas de difusão texto-para-imagem para aprender representações visuais e textuais multiescala que superam as limitações atuais na identificação de objetos que se fundem ao fundo, abrindo caminho para aplicações em vigilância, monitoramento da vida selvagem e reconhecimento militar.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

O artigo apresenta o Export3D, um método de animação de retratos em uma única imagem que gera um tri-plano condicional 3D-aware para controlar expressões faciais e ângulos de câmera sem trocar a aparência do sujeito, graças a um novo quadro de pré-treinamento contrastivo que isola os parâmetros de expressão dos traços de identidade.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

O artigo apresenta o Merlin, um modelo fundacional de linguagem e visão 3D treinado em um vasto conjunto de dados clínicos de tomografias computadorizadas abdominais, registros eletrônicos de saúde e laudos radiológicos, que supera os modelos existentes na interpretação de imagens médicas e demonstra alta generalização em diversas tarefas diagnósticas, prognósticas e de qualidade.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

O artigo apresenta o VideoMindPalace, um novo framework que organiza momentos-chave de vídeos longos em um grafo semântico estruturado inspirado no "palácio da mente" para melhorar a compreensão espaço-temporal e o raciocínio humano em modelos de linguagem visual, validado por meio do novo benchmark VMB e de conjuntos de dados existentes.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

O artigo apresenta o DCENWCNet, uma nova rede neural convolucional emsemble que integra três arquiteturas CNN com configurações distintas para superar os desafios de desequilíbrio de dados na classificação de glóbulos brancos, alcançando desempenho superior em métricas de precisão e incorporando a técnica LIME para garantir a interpretabilidade e confiança nas previsões de diagnóstico automatizado.

Sibasish Dhibar2026-03-05🤖 cs.AI

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Este trabalho apresenta o Implicit U-KAN 2.0, uma nova arquitetura de segmentação de imagens médicas baseada em uma estrutura codificador-decodificador de duas fases que integra equações diferenciais ordinárias neurais de segunda ordem e camadas MultiKAN para oferecer maior interpretabilidade, eficiência computacional e desempenho superior em comparação com métodos existentes.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Este estudo realiza uma análise em larga escala de 326 modelos de classificação de imagens para avaliar nove dimensões de qualidade além da precisão, revelando que modelos visão-linguagem e aqueles iniciados com aprendizado auto-supervisionado tendem a apresentar melhor desempenho geral, e introduzindo a pontuação QUBA como uma nova métrica para classificar e recomendar modelos com base em múltiplos critérios de qualidade.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG