cs.CV artigos | Gist.Science

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

O artigo apresenta o CRAFT, um método leve que desacopla a adaptação de visão e linguagem em Modelos Grandes de Visão e Linguagem (LVLMs) ao utilizar um código discreto para ancorar representações visuais, permitindo ajustes eficientes em domínios específicos sem modificar o modelo de linguagem e alcançando ganhos significativos de desempenho.

Jason Wu, Tianchen Zhao, Chang Liu + 7 more2026-02-24💻 cs

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

O artigo propõe o HD-TTA, uma nova abordagem de adaptação no momento do teste que, ao invés de otimização cega, utiliza um processo decisório dinâmico com hipóteses geométricas concorrentes (compactação ou inflação) e um mecanismo de pré-seleção para garantir a segurança na segmentação de tumores cerebrais, melhorando significativamente a precisão e reduzindo erros de fronteira em cenários de domínio cruzado sem comprometer o desempenho geral.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Laplacian Multi-scale Flow Matching for Generative Modeling

Este artigo apresenta o LapFlow, um novo framework de correspondência de fluxo que utiliza representações multiescala via pirâmide Laplaciana e uma arquitetura de misturas de transformadores para gerar imagens de alta resolução com qualidade superior e maior eficiência computacional em comparação a métodos existentes.

Zelin Zhao, Petr Molodyk, Haotian Xue + 1 more2026-02-24🤖 cs.LG

Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Este artigo propõe um framework de aprendizado profundo informado pela física que combina pistas de polarização e iluminação estruturada em uma única captura para realizar a estimativa precisa e robusta de normais de superfície em tempo real, superando as limitações de métodos existentes na imageamento 3D de superfícies especulares complexas.

Jiazhang Wang, Hyelim Yang, Tianyi Wang + 1 more2026-02-24🔬 physics.optics

Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Este artigo apresenta um método inovador de adaptação de domínio livre de fonte para análise de imagens de fundo de olho, denominado FRLA, que utiliza modelos visão-linguagem para prevenir o esquecimento de previsões confiáveis e incorporar conhecimento detalhado sobre lesões, superando assim os métodos atuais.

Zheang Huai, Hui Tang, Hualiang Wang + 1 more2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Este trabalho apresenta o MICON-Bench, um benchmark abrangente para avaliar a geração de imagens em contexto multiimagem, juntamente com um novo mecanismo de reequilíbrio de atenção dinâmica (DAR) que melhora a coerência e reduz alucinações em modelos multimodais unificados.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Este artigo apresenta um modelo de detecção de objetos guiado por texto, baseado em uma versão aprimorada do YOLO-World que substitui a camada C2f por C3k2, resultando em maior precisão na identificação de pequenos alvos e em um design mais leve e eficiente para aplicações com drones.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

O artigo apresenta o ControlMLLM++, um novo framework de adaptação em tempo de teste que injeta prompts visuais aprendíveis em modelos multimodais congelados para permitir raciocínio visual de alta precisão sem re-treinamento, otimizando modificadores de tokens visuais durante a inferência para direcionar a atenção do modelo a regiões específicas.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

O artigo propõe o "Relational Feature Caching" (RFC), um novo framework que acelera os Transformers de Difusão ao utilizar a correlação entre as entradas e saídas dos módulos para estimar com maior precisão as mudanças nas características e agendar cálculos completos apenas quando necessário, superando assim os métodos anteriores baseados apenas em extrapolação temporal.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Este trabalho apresenta um framework variacional para modelos de difusão que utiliza agendamentos de ruído anisotrópicos parametrizados por matrizes, otimizados conjuntamente com a rede de pontuação para melhorar o desempenho de geração de imagens em diversos conjuntos de dados em comparação com o modelo EDM de base.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

O artigo apresenta o OSInsert, uma estratégia de dois estágios que combina métodos de alta autenticidade e alta fidelidade para gerar composições de imagem realistas, preservando simultaneamente a adaptação da pose do objeto e os detalhes finos.

Jingyuan Wang, Li Niu2026-02-24💻 cs

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

O artigo apresenta o Fore-Mamba3D, uma nova arquitetura baseada em Mamba que melhora a detecção de objetos 3D ao focar exclusivamente em voxels de primeiro plano, mitigando a atenuação de resposta e a representação contextual restrita através de uma janela deslizante regional para global e de um módulo de fusão espacial de estado assistido por semântica.

Zhiwei Ning, Xuanang Gao, Jiaxi Cao + 5 more2026-02-24🤖 cs.AI

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Este estudo demonstra que modificações cosméticas simples e acessíveis, como barbas e maquiagem, podem enganar com sucesso sistemas de estimativa de idade baseados em IA, fazendo com que modelos especializados e de linguagem visual classifiquem erroneamente adolescentes como adultos, o que revela uma vulnerabilidade crítica nos pipelines de verificação de idade atuais.

Xingyu Shen, Tommy Duong, Xiaodong An + 6 more2026-02-24🤖 cs.LG

A Green Learning Approach to LDCT Image Restoration

Este trabalho propõe uma abordagem de "Green Learning" para restaurar imagens de tomografia computadorizada de baixa dose, oferecendo desempenho superior com maior transparência matemática e eficiência computacional em comparação aos métodos de aprendizado profundo tradicionais.

Wei Wang, Yixing Wu, C. -C. Jay Kuo2026-02-24🤖 cs.AI

Vinedresser3D: Agentic Text-guided 3D Editing

O artigo apresenta o Vinedresser3D, um framework agencial que utiliza modelos de linguagem multimodal e edição de imagens para realizar edições 3D de alta qualidade e sem máscaras diretamente no espaço latente, garantindo alinhamento com prompts complexos, localização automática de regiões editadas e preservação da coerência 3D.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

O artigo apresenta o framework "Prune-then-Merge", uma abordagem inovadora de duas etapas que combina poda adaptativa e fusão hierárquica para superar o compromisso entre eficiência e fidelidade de características na Recuperação de Documentos Visuais, alcançando compressão quase sem perdas e desempenho superior em 29 conjuntos de dados.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Este trabalho apresenta um quadro computacional multimodal que integra representações perceptuais e linguísticas para modelar a interpretação referencial humana, demonstrando que mecanismos de alinhamento relativamente simples podem superar o desempenho humano na identificação de objetos a partir de descrições linguísticas em um ambiente ambíguo.

Joseph Bingham2026-02-24🤖 cs.AI

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

O artigo apresenta o HOCA-Bench, um benchmark que avalia a capacidade de modelagem preditiva do mundo em Video-LLMs através de anomalias ontológicas e causais inspiradas na filosofia hegeliana, revelando que, embora os modelos atuais reconheçam bem violações estáticas, eles falham significativamente ao aplicar leis físicas básicas e raciocinar sobre mecanismos causais.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Este artigo propõe o ataque MVIG, um novo quadro adversarial adaptativo que utiliza um grafo de informação de visão mútua e aprendizado temporal para explorar vulnerabilidades em sistemas de percepção colaborativa, reduzindo significativamente a eficácia das defesas atuais e expondo lacunas de segurança críticas.

Yihang Tao, Senkang Hu, Haonan An + 3 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

O artigo propõe o CLCR, um método de representação colaborativa que organiza as características multimodais em uma hierarquia semântica de três níveis e utiliza domínios de troca e agregação intra e inter-níveis para alinhar informações compartilhadas e privadas, superando assim a desalinhamento semântico e melhorando o desempenho em diversas tarefas de aprendizado multimodal.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

← Anterior Próximo →