Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Este estudo revela que, embora as informações sobre nós e estruturas globais sejam linearmente codificadas precocemente no codificador visual de modelos de linguagem e visão grandes (LVLMs), as informações sobre arestas só emergem tardiamente nos tokens de texto, o que explica as dificuldades desses modelos na compreensão de relações direcionais em diagramas.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Este artigo apresenta um método de síntese de novas vistas com poucas imagens que utiliza uma amostragem de importância guiada por prios multimodais para aprimorar o Gaussian Splatting hierárquico, permitindo uma reconstrução robusta e de alta qualidade ao direcionar a adição de primitivas finas para regiões com evidências geométricas e semânticas consistentes, superando assim os problemas de superajuste e ruído típicos de cenários com dados esparsos.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

O artigo apresenta o SemanticDialect, uma abordagem de quantização mista semântica e adaptativa que otimiza a eficiência computacional e a qualidade na geração de vídeo por Transformers de Difusão (DiT) através da seleção dinâmica de formatos por bloco, decomposição de ativações e atribuição de dialetos baseada em semântica, superando métodos anteriores e aproximando-se da qualidade FP16.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

O artigo apresenta o MVD-HuGaS, um método inovador para reconstrução 3D de humanos a partir de uma única imagem que utiliza um modelo de difusão multi-visual aprimorado, um módulo de alinhamento para otimização conjunta de poses e Gaussians, e uma mitigação de distorção facial baseada em profundidade para alcançar renderizações de alta fidelidade com consistência geométrica e de aparência.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

O artigo apresenta o framework "Articulation in Motion" (AiM), uma abordagem sem priores que utiliza representações de cena baseadas em Gaussianas e análise de movimento para decompor, segmentar e analisar a cinemática de objetos articulados a partir de um vídeo de interação e uma varredura inicial, eliminando a necessidade de conhecimento prévio sobre o número de partes.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

O artigo apresenta o HDINO, um detector de objetos de vocabulário aberto conciso e eficiente que elimina a dependência de conjuntos de dados finamente curados e extração de recursos intensiva, utilizando uma estratégia de treinamento em duas etapas com alinhamento semântico um-para-muitos e perda de classificação ponderada por dificuldade para alcançar desempenho superior ao de métodos existentes no conjunto de dados COCO.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

O artigo apresenta o GloPath, um modelo de base centrado em entidades treinado em mais de um milhão de glomérulos, que supera os métodos existentes na avaliação de lesões renais e descobre associações estatisticamente significativas entre parâmetros morfológicos e indicadores clínicos, estabelecendo uma plataforma escalável e interpretável para a patologia renal.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Este artigo apresenta um framework leve que integra pela primeira vez a Perda de Proporção (Proportion Loss) do aprendizado com proporções de rótulos ao aprendizado semi-supervisionado para mitigar o viés de classes majoritárias e melhorar o desempenho em cenários de desequilíbrio de classes, demonstrando resultados superiores em benchmarks de longa cauda.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

O artigo apresenta o TagaVLM, um framework end-to-end que integra explicitamente estruturas topológicas em modelos VLMs por meio de mecanismos de atenção e prompts, alcançando desempenho state-of-the-art no benchmark R2R ao demonstrar que aprimoramentos direcionados em modelos menores são mais eficazes para raciocínio espacial corporificado do que o simples escalonamento de modelos.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs