cs.CV artigos | Gist.Science

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Este artigo apresenta um método aprimorado para estilização de cenas 3D que utiliza edição de imagem generativa guiada por texto com controle baseado em regiões, garantindo consistência de estilo e de visualização através de mecanismos de atenção compartilhada, mapas de profundidade múltiplos e uma nova função de perda para transferência de estilo em áreas específicas.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

O artigo apresenta o LADB, uma framework semi-supervisionada que utiliza pontes de difusão alinhadas em um espaço latente compartilhado para realizar tradução entre domínios com alta fidelidade e diversidade, superando a necessidade de grandes conjuntos de dados totalmente pareados ou não pareados.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

O artigo apresenta o TrueSkin, um novo conjunto de dados abrangente que, ao ser utilizado para treinar e avaliar modelos, demonstra melhorar significativamente a precisão no reconhecimento e a fidelidade na geração de tons de pele, abordando assim viéses críticos em modelos de inteligência artificial.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

O artigo apresenta o BWCache, um método sem treinamento que acelera a geração de vídeo em Transformers de Difusão ao reutilizar dinamicamente características de blocos entre passos de difusão com base em um indicador de similaridade, alcançando até 6 vezes mais velocidade sem comprometer a qualidade visual.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

O artigo apresenta o Brain-HGCN, uma rede neural convolutiva baseada em geometria hiperbólica que supera os métodos euclidianos ao modelar com maior fidelidade a topologia hierárquica das redes funcionais cerebrais para a classificação de transtornos psiquiátricos.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Este trabalho apresenta o I2S, um framework leve e eficiente para identificação de usuários em tempo real em sistemas de realidade aumentada, que utiliza a análise de poses 3D das mãos durante interações humano-objeto para alcançar uma precisão de 97,52% na autenticação.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Este trabalho apresenta o GeoProto, um método inovador para reconhecimento fino e interpretável que alinha protótipos com a geometria intrínseca de características visuais profundas por meio de mapas de difusão e interpolação de Nyström diferenciável, superando as abordagens baseadas em distância euclidiana ao capturar distinções semânticas sutis.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

O artigo apresenta o SHINE, um framework sem treinamento que permite a inserção física plausível de objetos em cenas complexas utilizando modelos de difusão modernos como o FLUX, superando desafios de iluminação e reflexos através de uma nova perda de âncora e técnicas de fusão adaptativa, enquanto introduz o benchmark ComplexCompo para avaliação rigorosa.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Este artigo apresenta o QuadGPT, o primeiro modelo autoregressivo que gera malhas quadrangulares nativas de forma direta, superando os métodos tradicionais de conversão de triângulos ao utilizar uma tokenização unificada e um refinamento especializado por aprendizado por reforço para garantir maior precisão geométrica e qualidade topológica.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

O artigo apresenta o DistillKac, um gerador de imagens rápido e estável que utiliza a equação de onda amortecida e a representação estocástica de Kac para transportar massa de probabilidade a velocidade finita, permitindo a geração de amostras de alta qualidade com poucas avaliações de função por meio de um esquema de destilação de extremos.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este artigo propõe uma nova abordagem aberta, multifacetada e escalável para a avaliação de emoções visuais em Modelos de Linguagem Multimodal (MLLMs), introduzindo uma tarefa de julgamento de declarações emocionais e um pipeline automatizado que revelam tanto os pontos fortes quanto as lacunas significativas na inteligência emocional desses modelos em comparação com humanos.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

O artigo apresenta o COMPASS, um framework que utiliza perturbações em subespaços de baixa dimensão no espaço de representação de redes neurais para gerar intervalos de conformidade mais eficientes e precisos para métricas de segmentação médica, superando métodos tradicionais e mantendo a cobertura sob mudanças de covariância.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

O artigo apresenta o CircuitSense, um benchmark hierárquico que avalia a capacidade de modelos de linguagem multimodais (MLLMs) em compreender circuitos elétricos, revelando uma lacuna crítica entre o reconhecimento visual e o raciocínio simbólico necessário para a engenharia.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Este trabalho apresenta o NeuroAdapter, um framework que decodifica representações cerebrais diretamente em imagens usando modelos de difusão latente sem espaços intermediários, e introduz o método IBBI para tornar transparente como diferentes áreas corticais influenciam o processo de reconstrução visual.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

O artigo apresenta o DiffInk, o primeiro framework baseado em difusão latente e Transformer para geração de linhas completas de caligrafia online, que utiliza o InkVAE para criar um espaço latente semântico e o InkDiT para gerar trajetórias de caneta coerentes, superando os métodos existentes em precisão de glifos, fidelidade estilística e eficiência.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

O artigo apresenta o SMART-R1, um novo paradigma de ajuste fino por reforço inspirado no R1 que, ao combinar otimização de política orientada a métricas com uma estratégia de treinamento iterativa "SFT-RFT-SFT", alcança o estado da arte na simulação de tráfego multiagente no Waymo Open Sim Agents Challenge, superando métodos baseados apenas em aprendizado supervisionado.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

O artigo apresenta o EditReward, um modelo de recompensa alinhado com preferências humanas e treinado em um grande conjunto de dados anotados por especialistas, que supera os métodos existentes em benchmarks e permite a seleção de dados de alta qualidade para aprimorar modelos de edição de imagem de código aberto.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

O artigo apresenta o Stylos, um framework inovador de transferência de estilo 3D baseado em Gaussian Splatting que gera cenas 3D estilizadas a partir de uma única passagem direta, sem necessidade de otimização por cena ou poses pré-computadas, garantindo consistência visual entre múltiplas vistas e preservação geométrica através de uma arquitetura Transformer com perda de estilo baseada em voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artigo apresenta o C $^3$ B, um novo benchmark multilíngue e multitarefa baseado em histórias em quadrinhos que avalia a consciência cultural de Modelos de Linguagem Multimodais (MLLMs) através de tarefas progressivas, revelando uma lacuna significativa entre o desempenho desses modelos e o humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

O artigo apresenta o LVTINO, um solucionador inverso zero-shot pioneiro para restauração de vídeo em alta definição que utiliza Consistency Models de Vídeo (VCMs) para garantir consistência temporal e alta fidelidade com eficiência computacional, superando os métodos baseados em modelos de imagem aplicados quadro a quadro.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

← Anterior Próximo →

cs.CV