cs.CV artigos | Gist.Science

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Este trabalho apresenta o MICON-Bench, um benchmark abrangente para avaliar a geração de imagens em contexto multiimagem, juntamente com um novo mecanismo de reequilíbrio de atenção dinâmica (DAR) que melhora a coerência e reduz alucinações em modelos multimodais unificados.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

A Text-Guided Vision Model for Enhanced Recognition of Small Instances

Este artigo apresenta um modelo de detecção de objetos guiado por texto, baseado em uma versão aprimorada do YOLO-World que substitui a camada C2f por C3k2, resultando em maior precisão na identificação de pequenos alvos e em um design mais leve e eficiente para aplicações com drones.

Hyun-Ki Jung2026-02-24💻 cs

Test-Time Computing for Referring Multimodal Large Language Models

O artigo apresenta o ControlMLLM++, um novo framework de adaptação em tempo de teste que injeta prompts visuais aprendíveis em modelos multimodais congelados para permitir raciocínio visual de alta precisão sem re-treinamento, otimizando modificadores de tokens visuais durante a inferência para direcionar a atenção do modelo a regiões específicas.

Mingrui Wu, Hao Chen, Jiayi Ji + 5 more2026-02-24💻 cs

Relational Feature Caching for Accelerating Diffusion Transformers

O artigo propõe o "Relational Feature Caching" (RFC), um novo framework que acelera os Transformers de Difusão ao utilizar a correlação entre as entradas e saídas dos módulos para estimar com maior precisão as mudanças nas características e agendar cálculos completos apenas quando necessário, superando assim os métodos anteriores baseados apenas em extrapolação temporal.

Byunggwan Son, Jeimin Jeon, Jeongwoo Choi + 1 more2026-02-24🤖 cs.LG

Variational Trajectory Optimization of Anisotropic Diffusion Schedules

Este trabalho apresenta um framework variacional para modelos de difusão que utiliza agendamentos de ruído anisotrópicos parametrizados por matrizes, otimizados conjuntamente com a rede de pontuação para melhorar o desempenho de geração de imagens em diversos conjuntos de dados em comparação com o modelo EDM de base.

Pengxi Liu, Zeyu Michael Li, Xiang Cheng2026-02-24🤖 cs.LG

OSInsert: Towards High-authenticity and High-fidelity Image Composition

O artigo apresenta o OSInsert, uma estratégia de dois estágios que combina métodos de alta autenticidade e alta fidelidade para gerar composições de imagem realistas, preservando simultaneamente a adaptação da pose do objeto e os detalhes finos.

Jingyuan Wang, Li Niu2026-02-24💻 cs

Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

O artigo apresenta o Fore-Mamba3D, uma nova arquitetura baseada em Mamba que melhora a detecção de objetos 3D ao focar exclusivamente em voxels de primeiro plano, mitigando a atenuação de resposta e a representação contextual restrita através de uma janela deslizante regional para global e de um módulo de fusão espacial de estado assistido por semântica.

Zhiwei Ning, Xuanang Gao, Jiaxi Cao + 5 more2026-02-24🤖 cs.AI

Can a Teenager Fool an AI? Evaluating Low-Cost Cosmetic Attacks on Age Estimation Systems

Este estudo demonstra que modificações cosméticas simples e acessíveis, como barbas e maquiagem, podem enganar com sucesso sistemas de estimativa de idade baseados em IA, fazendo com que modelos especializados e de linguagem visual classifiquem erroneamente adolescentes como adultos, o que revela uma vulnerabilidade crítica nos pipelines de verificação de idade atuais.

Xingyu Shen, Tommy Duong, Xiaodong An + 6 more2026-02-24🤖 cs.LG

A Green Learning Approach to LDCT Image Restoration

Este trabalho propõe uma abordagem de "Green Learning" para restaurar imagens de tomografia computadorizada de baixa dose, oferecendo desempenho superior com maior transparência matemática e eficiência computacional em comparação aos métodos de aprendizado profundo tradicionais.

Wei Wang, Yixing Wu, C. -C. Jay Kuo2026-02-24🤖 cs.AI

Vinedresser3D: Agentic Text-guided 3D Editing

O artigo apresenta o Vinedresser3D, um framework agencial que utiliza modelos de linguagem multimodal e edição de imagens para realizar edições 3D de alta qualidade e sem máscaras diretamente no espaço latente, garantindo alinhamento com prompts complexos, localização automática de regiões editadas e preservação da coerência 3D.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

O artigo apresenta o framework "Prune-then-Merge", uma abordagem inovadora de duas etapas que combina poda adaptativa e fusão hierárquica para superar o compromisso entre eficiência e fidelidade de características na Recuperação de Documentos Visuais, alcançando compressão quase sem perdas e desempenho superior em 29 conjuntos de dados.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Este trabalho apresenta um quadro computacional multimodal que integra representações perceptuais e linguísticas para modelar a interpretação referencial humana, demonstrando que mecanismos de alinhamento relativamente simples podem superar o desempenho humano na identificação de objetos a partir de descrições linguísticas em um ambiente ambíguo.

Joseph Bingham2026-02-24🤖 cs.AI

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

O artigo apresenta o HOCA-Bench, um benchmark que avalia a capacidade de modelagem preditiva do mundo em Video-LLMs através de anomalias ontológicas e causais inspiradas na filosofia hegeliana, revelando que, embora os modelos atuais reconheçam bem violações estáticas, eles falham significativamente ao aplicar leis físicas básicas e raciocinar sobre mecanismos causais.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Este artigo propõe o ataque MVIG, um novo quadro adversarial adaptativo que utiliza um grafo de informação de visão mútua e aprendizado temporal para explorar vulnerabilidades em sistemas de percepção colaborativa, reduzindo significativamente a eficácia das defesas atuais e expondo lacunas de segurança críticas.

Yihang Tao, Senkang Hu, Haonan An + 3 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

O artigo propõe o CLCR, um método de representação colaborativa que organiza as características multimodais em uma hierarquia semântica de três níveis e utiliza domínios de troca e agregação intra e inter-níveis para alinhar informações compartilhadas e privadas, superando assim a desalinhamento semântico e melhorando o desempenho em diversas tarefas de aprendizado multimodal.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Este artigo apresenta um pipeline escalável baseado em imagens de satélite e aprendizado de máquina que, ao utilizar redes neurais convolucionais pré-treinadas com máscaras espaciais, alcança uma precisão superior na detecção de sítios arqueológicos saqueados na Afeganistão em comparação com métodos tradicionais de aprendizado de máquina.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI

RAID: Retrieval-Augmented Anomaly Detection

O artigo apresenta o RAID, um framework de detecção de anomalias não supervisionada que utiliza uma abordagem de recuperação aumentada com um banco de dados vetorial hierárquico e uma rede MoE guiada para suprimir ruídos de correspondência e gerar mapas de anomalias precisos, alcançando desempenho superior em diversos benchmarks.

Mingxiu Cai, Zhe Zhang, Gaochang Wu + 2 more2026-02-24💻 cs

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Este artigo apresenta um módulo plug-and-play eficiente que aprimora o raciocínio de modelos de linguagem visuais sobre objetos raros, refinando tokens visuais e enriquecendo prompts de texto por meio de embeddings de classe multimodais aprendidos, sem a necessidade de ajuste fino do modelo.

Xin Hu, Haomiao Ni, Yunbei Zhang + 3 more2026-02-24💻 cs

Accurate Planar Tracking With Robust Re-Detection

Este artigo apresenta o SAM-H e o WOFTSAM, novos rastreadores planares que combinam segmentação robusta com estimativa de homografia, estabelecendo o novo estado da arte nos benchmarks POT-210 e PlanarTrack, além de fornecer anotações de verdade terrestre aprimoradas e código aberto.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

O artigo propõe o método HiRM (High-Level Representation Misdirection), que realiza a eliminação precisa de conceitos indesejados em modelos de difusão texto-para-imagem ao redirecionar representações semânticas de alto nível no codificador de texto, preservando a qualidade da geração e a utilidade do modelo com baixo custo de treinamento.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

← Anterior Próximo →