cs.CV artigos | Gist.Science

Splat the Net: Radiance Fields with Splattable Neural Primitives

O artigo apresenta os "primitivos neurais splattáveis", uma nova representação volumétrica que combina a expressividade dos campos neurais com a eficiência do splatting, permitindo renderização em tempo real com precisão analítica e utilizando significativamente menos primitivas e parâmetros do que métodos anteriores como o 3D Gaussian Splatting.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

O artigo apresenta o LinearSR, um framework inovador que supera os desafios de instabilidade e trade-off percepção-distorção na super-resolução de imagens usando atenção linear, alcançando qualidade fotorealista de ponta com eficiência computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

O artigo apresenta o PHyCLIP, um modelo que unifica hierarquia e composicionalidade em representações visão-linguagem ao empregar um produto cartesiano de fatores hiperbólicos com métrica $\ell_1$ , superando abordagens de espaço único e oferecendo estruturas mais interpretáveis.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Este artigo propõe o framework CSL, uma abordagem unificada de co-aprendizado que supera os desafios do reconhecimento de imagens multi-rótulo com rótulos incompletos, integrando a extração de características semânticas robustas e a recuperação adaptativa de rótulos ausentes para alcançar desempenho superior em conjuntos de dados públicos.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

O artigo apresenta o UniFlow, um tokenizador visual unificado que supera o dilema entre compreensão e geração ao combinar auto-distilação adaptativa em camadas para herdar características semânticas robustas com um decodificador leve de fluxo de pixels que garante reconstrução de alta fidelidade, alcançando resultados superiores em diversas tarefas de entendimento e geração de imagens.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Este artigo apresenta um novo framework de treinamento em duas etapas que permite o treinamento eficaz de modelos generativos no espaço de pixels, alcançando desempenho de ponta no ImageNet e superando métodos baseados em VAEs e o DiT com maior eficiência computacional, sem a necessidade de espaços latentes pré-treinados.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

O artigo apresenta o Fly-CL, um framework bioinspirado no circuito olfativo de moscas que utiliza modelos pré-treinados quase congelados para resolver problemas de multicolinearidade na aprendizagem contínua, reduzindo significativamente o tempo de treinamento sem comprometer o desempenho.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

O artigo apresenta o Mono4DGS-HDR, um sistema pioneiro que utiliza uma abordagem de otimização em duas etapas baseada em Gaussian Splatting para reconstruir cenas 4D de alto alcance dinâmico (HDR) a partir de vídeos monoculares não calibrados com exposições alternadas, alcançando superioridade em qualidade e velocidade de renderização.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

O LightMem é um sistema de memória leve e eficiente para Grandes Modelos de Linguagem, inspirado no modelo humano de memória, que organiza as informações em três estágios complementares para melhorar a precisão na resposta a perguntas e reduzir drasticamente o uso de tokens e chamadas de API em comparação com métodos existentes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

O artigo apresenta o BioCAP, um modelo fundamental biológico que utiliza legendas sintéticas geradas por modelos de linguagem multimodal para superar a escassez de descrições textuais específicas, melhorando assim a classificação de espécies e a recuperação de imagens ao alinhar características visuais e textuais em um espaço latente compartilhado.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

O VoMP é um método feed-forward que prevê campos de propriedades mecânicas volumétricas (como módulo de Young, coeficiente de Poisson e densidade) para objetos 3D, utilizando um Transformer de Geometria treinado em um manifold de materiais fisicamente plausíveis e superando trabalhos anteriores em precisão e velocidade.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

O artigo apresenta o Concerto, um modelo de aprendizado auto-supervisionado minimalista que combina representações 2D e 3D para superar os métodos atuais na percepção de cenas 3D e permitir a percepção em mundo aberto através de alinhamento com espaço linguístico.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

O artigo apresenta o ProMoE, um novo framework de Mistura de Especialistas (MoE) para Transformadores de Difusão que supera as limitações atuais ao empregar um roteador em duas etapas com orientação explícita para especializar especialistas em tokens visuais, resultando em desempenho superior no benchmark ImageNet.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

O artigo apresenta o "Brain-IT", um método baseado em um Transformer de Interação Cerebral que reconstrói imagens a partir de dados de fMRI com alta fidelidade e eficiência, superando abordagens atuais e alcançando resultados comparáveis com apenas uma hora de dados de um novo sujeito.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabalho propõe um método inovador que gera vídeos de rostos falantes em alta resolução exclusivamente a partir de uma única entrada de áudio, utilizando um modelo de difusão condicionado à fala com priores faciais e um módulo de refinamento regional para superar as limitações das abordagens existentes que dependem de imagens de referência.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

O artigo apresenta o ThinkMorph, um modelo unificado que demonstra propriedades emergentes de inteligência multimodal ao aprender a gerar raciocínios encadeados intercalados entre texto e imagem, resultando em ganhos significativos de desempenho e generalização em tarefas visuais.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudo demonstra que a segmentação de imagens médicas segue uma lei de escala limitada pela geometria anatômica, onde o aumento de dados apresenta saturação precoce, mas o uso de aumentações baseadas em topologia melhora a eficiência amostral ao expandir a cobertura topológica efetiva sem alterar a estrutura fundamental da lei de escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

O artigo apresenta o VeCoR, uma técnica de regularização contrastiva que aprimora o Flow Matching ao adicionar supervisão negativa para evitar direções fora da variedade de dados, resultando em maior estabilidade e qualidade de imagem, especialmente em configurações leves e com poucos passos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

O artigo apresenta o UltraViCo, um método gratuito e plug-and-play que supera os limites de extrapolação de vídeos em Transformers de Difusão ao identificar e corrigir a dispersão de atenção, eliminando repetições periódicas e degradação de qualidade para permitir a geração de vídeos com até quatro vezes a duração de treinamento.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

O artigo propõe o ReSAM, um framework de auto-prompting supervisionado por pontos que adapta o Segment Anything Model (SAM) para imagens de sensoriamento remoto através de um ciclo de refinamento, reconsulta e reforço, superando métodos existentes sem depender de anotações completas de máscaras.

M. Naseer Subhani2026-03-03💻 cs

← Anterior Próximo →

cs.CV