cs.CV artigos | Gist.Science

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

O artigo apresenta o EditReward, um modelo de recompensa alinhado com preferências humanas e treinado em um grande conjunto de dados anotados por especialistas, que supera os métodos existentes em benchmarks e permite a seleção de dados de alta qualidade para aprimorar modelos de edição de imagem de código aberto.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

O artigo apresenta o Stylos, um framework inovador de transferência de estilo 3D baseado em Gaussian Splatting que gera cenas 3D estilizadas a partir de uma única passagem direta, sem necessidade de otimização por cena ou poses pré-computadas, garantindo consistência visual entre múltiplas vistas e preservação geométrica através de uma arquitetura Transformer com perda de estilo baseada em voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artigo apresenta o C $^3$ B, um novo benchmark multilíngue e multitarefa baseado em histórias em quadrinhos que avalia a consciência cultural de Modelos de Linguagem Multimodais (MLLMs) através de tarefas progressivas, revelando uma lacuna significativa entre o desempenho desses modelos e o humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

O artigo apresenta o LVTINO, um solucionador inverso zero-shot pioneiro para restauração de vídeo em alta definição que utiliza Consistency Models de Vídeo (VCMs) para garantir consistência temporal e alta fidelidade com eficiência computacional, superando os métodos baseados em modelos de imagem aplicados quadro a quadro.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

O artigo apresenta o DragFlow, um novo framework que supera as limitações das edições por arrasto em modelos DiT ao substituir a supervisão baseada em pontos por uma abordagem baseada em regiões, integrando adaptadores de personalização e modelos de linguagem multimodal para alcançar um estado da arte com maior consistência e fidelidade.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

O artigo apresenta o ChainMPQ, um método sem treinamento que mitiga alucinações de relação em Modelos Visuais-Linguísticos de Grande Escala (LVLMs) por meio de uma cadeia intercalada de imagens e texto guiada por perguntas de múltiplas perspectivas e memórias acumuladas.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

O artigo apresenta o VA-Adapter, uma solução eficiente que adapta modelos fundamentais de ultrassom para guiar sondas de ecocardiografia, superando a variabilidade individual ao injetar a compreensão de estruturas 3D em tempo real e alcançando desempenho superior com 33 vezes menos parâmetros treinados.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

O artigo apresenta o TTOM, um framework sem treinamento que utiliza otimização e memorização em tempo de teste para alinhar a geração de vídeo com layouts espaço-temporais, superando limitações de modelos fundacionais na criação de vídeos composicionais complexos.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

O artigo apresenta os "primitivos neurais splattáveis", uma nova representação volumétrica que combina a expressividade dos campos neurais com a eficiência do splatting, permitindo renderização em tempo real com precisão analítica e utilizando significativamente menos primitivas e parâmetros do que métodos anteriores como o 3D Gaussian Splatting.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

O artigo apresenta o LinearSR, um framework inovador que supera os desafios de instabilidade e trade-off percepção-distorção na super-resolução de imagens usando atenção linear, alcançando qualidade fotorealista de ponta com eficiência computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

O artigo apresenta o PHyCLIP, um modelo que unifica hierarquia e composicionalidade em representações visão-linguagem ao empregar um produto cartesiano de fatores hiperbólicos com métrica $\ell_1$ , superando abordagens de espaço único e oferecendo estruturas mais interpretáveis.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Este artigo propõe o framework CSL, uma abordagem unificada de co-aprendizado que supera os desafios do reconhecimento de imagens multi-rótulo com rótulos incompletos, integrando a extração de características semânticas robustas e a recuperação adaptativa de rótulos ausentes para alcançar desempenho superior em conjuntos de dados públicos.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

O artigo apresenta o UniFlow, um tokenizador visual unificado que supera o dilema entre compreensão e geração ao combinar auto-distilação adaptativa em camadas para herdar características semânticas robustas com um decodificador leve de fluxo de pixels que garante reconstrução de alta fidelidade, alcançando resultados superiores em diversas tarefas de entendimento e geração de imagens.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Este artigo apresenta um novo framework de treinamento em duas etapas que permite o treinamento eficaz de modelos generativos no espaço de pixels, alcançando desempenho de ponta no ImageNet e superando métodos baseados em VAEs e o DiT com maior eficiência computacional, sem a necessidade de espaços latentes pré-treinados.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

O artigo apresenta o Fly-CL, um framework bioinspirado no circuito olfativo de moscas que utiliza modelos pré-treinados quase congelados para resolver problemas de multicolinearidade na aprendizagem contínua, reduzindo significativamente o tempo de treinamento sem comprometer o desempenho.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

O artigo apresenta o Mono4DGS-HDR, um sistema pioneiro que utiliza uma abordagem de otimização em duas etapas baseada em Gaussian Splatting para reconstruir cenas 4D de alto alcance dinâmico (HDR) a partir de vídeos monoculares não calibrados com exposições alternadas, alcançando superioridade em qualidade e velocidade de renderização.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

O LightMem é um sistema de memória leve e eficiente para Grandes Modelos de Linguagem, inspirado no modelo humano de memória, que organiza as informações em três estágios complementares para melhorar a precisão na resposta a perguntas e reduzir drasticamente o uso de tokens e chamadas de API em comparação com métodos existentes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

O artigo apresenta o BioCAP, um modelo fundamental biológico que utiliza legendas sintéticas geradas por modelos de linguagem multimodal para superar a escassez de descrições textuais específicas, melhorando assim a classificação de espécies e a recuperação de imagens ao alinhar características visuais e textuais em um espaço latente compartilhado.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

O VoMP é um método feed-forward que prevê campos de propriedades mecânicas volumétricas (como módulo de Young, coeficiente de Poisson e densidade) para objetos 3D, utilizando um Transformer de Geometria treinado em um manifold de materiais fisicamente plausíveis e superando trabalhos anteriores em precisão e velocidade.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

O artigo apresenta o Concerto, um modelo de aprendizado auto-supervisionado minimalista que combina representações 2D e 3D para superar os métodos atuais na percepção de cenas 3D e permitir a percepção em mundo aberto através de alinhamento com espaço linguístico.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

← Anterior Próximo →

cs.CV