cs.CV artigos | Gist.Science

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

O artigo apresenta o SHINE, um framework sem treinamento que permite a inserção física plausível de objetos em cenas complexas utilizando modelos de difusão modernos como o FLUX, superando desafios de iluminação e reflexos através de uma nova perda de âncora e técnicas de fusão adaptativa, enquanto introduz o benchmark ComplexCompo para avaliação rigorosa.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Este artigo apresenta o QuadGPT, o primeiro modelo autoregressivo que gera malhas quadrangulares nativas de forma direta, superando os métodos tradicionais de conversão de triângulos ao utilizar uma tokenização unificada e um refinamento especializado por aprendizado por reforço para garantir maior precisão geométrica e qualidade topológica.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

O artigo apresenta o DistillKac, um gerador de imagens rápido e estável que utiliza a equação de onda amortecida e a representação estocástica de Kac para transportar massa de probabilidade a velocidade finita, permitindo a geração de amostras de alta qualidade com poucas avaliações de função por meio de um esquema de destilação de extremos.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Este artigo propõe uma nova abordagem aberta, multifacetada e escalável para a avaliação de emoções visuais em Modelos de Linguagem Multimodal (MLLMs), introduzindo uma tarefa de julgamento de declarações emocionais e um pipeline automatizado que revelam tanto os pontos fortes quanto as lacunas significativas na inteligência emocional desses modelos em comparação com humanos.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

O artigo apresenta o COMPASS, um framework que utiliza perturbações em subespaços de baixa dimensão no espaço de representação de redes neurais para gerar intervalos de conformidade mais eficientes e precisos para métricas de segmentação médica, superando métodos tradicionais e mantendo a cobertura sob mudanças de covariância.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

O artigo apresenta o CircuitSense, um benchmark hierárquico que avalia a capacidade de modelos de linguagem multimodais (MLLMs) em compreender circuitos elétricos, revelando uma lacuna crítica entre o reconhecimento visual e o raciocínio simbólico necessário para a engenharia.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Este trabalho apresenta o NeuroAdapter, um framework que decodifica representações cerebrais diretamente em imagens usando modelos de difusão latente sem espaços intermediários, e introduz o método IBBI para tornar transparente como diferentes áreas corticais influenciam o processo de reconstrução visual.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

O artigo apresenta o DiffInk, o primeiro framework baseado em difusão latente e Transformer para geração de linhas completas de caligrafia online, que utiliza o InkVAE para criar um espaço latente semântico e o InkDiT para gerar trajetórias de caneta coerentes, superando os métodos existentes em precisão de glifos, fidelidade estilística e eficiência.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

O artigo apresenta o SMART-R1, um novo paradigma de ajuste fino por reforço inspirado no R1 que, ao combinar otimização de política orientada a métricas com uma estratégia de treinamento iterativa "SFT-RFT-SFT", alcança o estado da arte na simulação de tráfego multiagente no Waymo Open Sim Agents Challenge, superando métodos baseados apenas em aprendizado supervisionado.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

O artigo apresenta o EditReward, um modelo de recompensa alinhado com preferências humanas e treinado em um grande conjunto de dados anotados por especialistas, que supera os métodos existentes em benchmarks e permite a seleção de dados de alta qualidade para aprimorar modelos de edição de imagem de código aberto.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

O artigo apresenta o Stylos, um framework inovador de transferência de estilo 3D baseado em Gaussian Splatting que gera cenas 3D estilizadas a partir de uma única passagem direta, sem necessidade de otimização por cena ou poses pré-computadas, garantindo consistência visual entre múltiplas vistas e preservação geométrica através de uma arquitetura Transformer com perda de estilo baseada em voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Este artigo apresenta o C $^3$ B, um novo benchmark multilíngue e multitarefa baseado em histórias em quadrinhos que avalia a consciência cultural de Modelos de Linguagem Multimodais (MLLMs) através de tarefas progressivas, revelando uma lacuna significativa entre o desempenho desses modelos e o humano.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

O artigo apresenta o LVTINO, um solucionador inverso zero-shot pioneiro para restauração de vídeo em alta definição que utiliza Consistency Models de Vídeo (VCMs) para garantir consistência temporal e alta fidelidade com eficiência computacional, superando os métodos baseados em modelos de imagem aplicados quadro a quadro.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

O artigo apresenta o DragFlow, um novo framework que supera as limitações das edições por arrasto em modelos DiT ao substituir a supervisão baseada em pontos por uma abordagem baseada em regiões, integrando adaptadores de personalização e modelos de linguagem multimodal para alcançar um estado da arte com maior consistência e fidelidade.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

O artigo apresenta o ChainMPQ, um método sem treinamento que mitiga alucinações de relação em Modelos Visuais-Linguísticos de Grande Escala (LVLMs) por meio de uma cadeia intercalada de imagens e texto guiada por perguntas de múltiplas perspectivas e memórias acumuladas.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

O artigo apresenta o VA-Adapter, uma solução eficiente que adapta modelos fundamentais de ultrassom para guiar sondas de ecocardiografia, superando a variabilidade individual ao injetar a compreensão de estruturas 3D em tempo real e alcançando desempenho superior com 33 vezes menos parâmetros treinados.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

O artigo apresenta o TTOM, um framework sem treinamento que utiliza otimização e memorização em tempo de teste para alinhar a geração de vídeo com layouts espaço-temporais, superando limitações de modelos fundacionais na criação de vídeos composicionais complexos.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

O artigo apresenta os "primitivos neurais splattáveis", uma nova representação volumétrica que combina a expressividade dos campos neurais com a eficiência do splatting, permitindo renderização em tempo real com precisão analítica e utilizando significativamente menos primitivas e parâmetros do que métodos anteriores como o 3D Gaussian Splatting.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

O artigo apresenta o LinearSR, um framework inovador que supera os desafios de instabilidade e trade-off percepção-distorção na super-resolução de imagens usando atenção linear, alcançando qualidade fotorealista de ponta com eficiência computacional excepcional.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

O artigo apresenta o PHyCLIP, um modelo que unifica hierarquia e composicionalidade em representações visão-linguagem ao empregar um produto cartesiano de fatores hiperbólicos com métrica $\ell_1$ , superando abordagens de espaço único e oferecendo estruturas mais interpretáveis.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

← Anterior Próximo →

cs.CV