cs.CV artigos | Gist.Science

Vinedresser3D: Agentic Text-guided 3D Editing

O artigo apresenta o Vinedresser3D, um framework agencial que utiliza modelos de linguagem multimodal e edição de imagens para realizar edições 3D de alta qualidade e sem máscaras diretamente no espaço latente, garantindo alinhamento com prompts complexos, localização automática de regiões editadas e preservação da coerência 3D.

Yankuan Chi, Xiang Li, Zixuan Huang + 1 more2026-02-24💻 cs

Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework

O artigo apresenta o framework "Prune-then-Merge", uma abordagem inovadora de duas etapas que combina poda adaptativa e fusão hierárquica para superar o compromisso entre eficiência e fidelidade de características na Recuperação de Documentos Visuais, alcançando compressão quase sem perdas e desempenho superior em 29 conjuntos de dados.

Yibo Yan, Mingdong Ou, Yi Cao + 5 more2026-02-24💬 cs.CL

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Este trabalho apresenta um quadro computacional multimodal que integra representações perceptuais e linguísticas para modelar a interpretação referencial humana, demonstrando que mecanismos de alinhamento relativamente simples podem superar o desempenho humano na identificação de objetos a partir de descrições linguísticas em um ambiente ambíguo.

Joseph Bingham2026-02-24🤖 cs.AI

HOCA-Bench: Beyond Semantic Perception to Predictive World Modeling via Hegelian Ontological-Causal Anomalies

O artigo apresenta o HOCA-Bench, um benchmark que avalia a capacidade de modelagem preditiva do mundo em Video-LLMs através de anomalias ontológicas e causais inspiradas na filosofia hegeliana, revelando que, embora os modelos atuais reconheçam bem violações estáticas, eles falham significativamente ao aplicar leis físicas básicas e raciocinar sobre mecanismos causais.

Chang Liu, Yunfan Ye, Qingyang Zhou + 5 more2026-02-24💻 cs

Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception

Este artigo propõe o ataque MVIG, um novo quadro adversarial adaptativo que utiliza um grafo de informação de visão mútua e aprendizado temporal para explorar vulnerabilidades em sistemas de percepção colaborativa, reduzindo significativamente a eficácia das defesas atuais e expondo lacunas de segurança críticas.

Yihang Tao, Senkang Hu, Haonan An + 3 more2026-02-24💻 cs

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

O artigo propõe o CLCR, um método de representação colaborativa que organiza as características multimodais em uma hierarquia semântica de três níveis e utiliza domínios de troca e agregação intra e inter-níveis para alinhar informações compartilhadas e privadas, superando assim a desalinhamento semântico e melhorando o desempenho em diversas tarefas de aprendizado multimodal.

Chunlei Meng, Guanhong Huang, Rong Fu + 3 more2026-02-24🤖 cs.AI

Satellite-Based Detection of Looted Archaeological Sites Using Machine Learning

Este artigo apresenta um pipeline escalável baseado em imagens de satélite e aprendizado de máquina que, ao utilizar redes neurais convolucionais pré-treinadas com máscaras espaciais, alcança uma precisão superior na detecção de sítios arqueológicos saqueados na Afeganistão em comparação com métodos tradicionais de aprendizado de máquina.

Girmaw Abebe Tadesse, Titien Bartette, Andrew Hassanali + 7 more2026-02-24🤖 cs.AI

RAID: Retrieval-Augmented Anomaly Detection

O artigo apresenta o RAID, um framework de detecção de anomalias não supervisionada que utiliza uma abordagem de recuperação aumentada com um banco de dados vetorial hierárquico e uma rede MoE guiada para suprimir ruídos de correspondência e gerar mapas de anomalias precisos, alcançando desempenho superior em diversos benchmarks.

Mingxiu Cai, Zhe Zhang, Gaochang Wu + 2 more2026-02-24💻 cs

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Este artigo apresenta um módulo plug-and-play eficiente que aprimora o raciocínio de modelos de linguagem visuais sobre objetos raros, refinando tokens visuais e enriquecendo prompts de texto por meio de embeddings de classe multimodais aprendidos, sem a necessidade de ajuste fino do modelo.

Xin Hu, Haomiao Ni, Yunbei Zhang + 3 more2026-02-24💻 cs

Accurate Planar Tracking With Robust Re-Detection

Este artigo apresenta o SAM-H e o WOFTSAM, novos rastreadores planares que combinam segmentação robusta com estimativa de homografia, estabelecendo o novo estado da arte nos benchmarks POT-210 e PlanarTrack, além de fornecer anotações de verdade terrestre aprimoradas e código aberto.

Jonas Serych, Jiri Matas2026-02-24💻 cs

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

O artigo propõe o método HiRM (High-Level Representation Misdirection), que realiza a eliminação precisa de conceitos indesejados em modelos de difusão texto-para-imagem ao redirecionar representações semânticas de alto nível no codificador de texto, preservando a qualidade da geração e a utilidade do modelo com baixo custo de treinamento.

Uichan Lee, Jeonghyeon Kim, Sangheum Hwang2026-02-24🤖 cs.AI

Personalized Longitudinal Medical Report Generation via Temporally-Aware Federated Adaptation

O artigo apresenta o FedTAR, um framework de aprendizado federado que utiliza adaptação temporal e personalização baseada em dados demográficos para gerar relatórios médicos longitudinais precisos e coerentes, superando as limitações de privacidade e a heterogeneidade dos dados em diferentes visitas dos pacientes.

He Zhu, Ren Togo, Takahiro Ogawa + 8 more2026-02-24🤖 cs.LG

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

O TeHOR é um novo framework que realiza a reconstrução conjunta de humanos e objetos 3D a partir de uma única imagem, superando as limitações de métodos anteriores ao utilizar descrições textuais e cues de aparência para garantir alinhamento semântico e reconstruções visualmente plausíveis, inclusive em interações sem contato físico.

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee2026-02-24🤖 cs.AI

BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPU

O artigo apresenta o BayesFusion-SDF, um framework de fusão probabilística de distância assinada focado em CPU que supera os métodos tradicionais de TSDF em precisão geométrica e estimativa de incerteza, oferecendo uma alternativa eficiente e interpretável às abordagens neurais pesadas em GPU para reconstrução 3D densa e planejamento de visão ativa.

Soumya Mazumdar, Vineet Kumar Rakesh, Tapas Samanta2026-02-24💻 cs

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Este artigo apresenta um sistema de prova de conceito que automatiza a classificação iconográfica e a recomendação baseada em conteúdo de obras de arte digitalizadas, integrando detecção de objetos com YOLOv8, mapeamento para o vocabulário Iconclass e inferência baseada em regras para acelerar a catalogação e melhorar a navegação em repositórios de patrimônio cultural.

Krzysztof Kutt, Maciej Baczyński2026-02-24🤖 cs.AI

HDR Reconstruction Boosting with Training-Free and Exposure-Consistent Diffusion

Este artigo apresenta uma abordagem sem treinamento que utiliza difusão guiada por texto e refinamento SDEdit para melhorar a reconstrução de HDR a partir de imagens LDR, recuperando detalhes em regiões superexpostas enquanto mantém a consistência luminosa entre múltiplas exposições.

Yo-Tin Lin, Su-Kai Chen, Hou-Ning Hu + 2 more2026-02-24💻 cs

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

O artigo apresenta o Pose-VLA, um paradigma de pré-treinamento universal que desacopla a extração de priores espaciais 3D da adaptação específica ao corpo, utilizando tokens de pose discretos para alcançar desempenho de ponta e generalização robusta em políticas Visão-Linguagem-Ação com poucos exemplos.

Haitao Lin, Hanyang Yu, Jingshun Huang + 5 more2026-02-24🤖 cs.LG

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

O artigo apresenta o DeepfakeJudge, um framework que utiliza um processo de bootstrap para supervisionar e avaliar a fidelidade do raciocínio em modelos de detecção de deepfakes, alcançando alta precisão e concordância com avaliações humanas sem a necessidade de rótulos de raciocínio explícitos.

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan + 1 more2026-02-24💻 cs

Generative 6D Pose Estimation via Conditional Flow Matching

O artigo apresenta o Flose, um método generativo inovador para estimação de pose 6D que utiliza correspondência de fluxo condicional em $\mathbb{R}^3$ combinando características semânticas de aparência e registro RANSAC para superar as limitações de métodos anteriores em lidar com simetrias de objetos e falta de características locais, alcançando desempenho superior em cinco conjuntos de dados do benchmark BOP.

Amir Hamza, Davide Boscaini, Weihang Li + 2 more2026-02-24💻 cs

Towards Personalized Multi-Modal MRI Synthesis across Heterogeneous Datasets

O artigo apresenta o PMM-Synth, um quadro de síntese de MRI personalizado que, ao ser treinado em múltiplos conjuntos de dados heterogêneos através de módulos de modulação de características, agendamento de lotes consistente e perda de supervisão seletiva, supera os métodos atuais na geração de modalidades ausentes e na preservação de detalhes anatômicos e patológicos para aplicações clínicas.

Yue Zhang, Zhizheng Zhuo, Siyao Xu + 6 more2026-02-24💻 cs

← Anterior Próximo →