cs.CV artigos | Gist.Science

Ego: Embedding-Guided Personalization of Vision-Language Models

O artigo "Ego" propõe um método eficiente de personalização para modelos de linguagem visual que, ao extrair tokens visuais representativos de conceitos específicos por meio dos mecanismos de atenção internos, permite que o modelo reconheça e descreva esses conceitos em novas imagens sem a necessidade de treinamento adicional ou pipelines complexos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artigo demonstra que a simples remoção de gatilhos conhecidos é insuficiente para neutralizar backdoors, pois existem "gatilhos alternativos" distintos que ativam a mesma vulnerabilidade, motivando assim defesas que visem diretamente as direções do backdoor no espaço de representações em vez de apenas os gatilhos no espaço de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Este artigo demonstra que conceitos ausentes, cuja falta ativa neurônios, são comuns em redes neurais e frequentemente ignorados pelos métodos padrão de IA explicável, propondo extensões simples para técnicas de atribuição e visualização de recursos a fim de revelar e explorar essas "ausências codificadas" para melhorar a interpretabilidade e a mitigação de viés.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artigo propõe o DCPGN, um método inovador de adaptação no momento do teste que utiliza crescimento de protótipos multi-rótulo e consistência de dupla pista (visual e textual) para superar o desafio de antecipar ações entre as perspectivas egocêntrica e exocêntrica sem depender de dados de treinamento no alvo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Este artigo apresenta a nova tarefa de aprendizado áudio-visual de alta granularidade denominada RA-SSU, acompanhada dos conjuntos de dados f-Music e f-Lifescene e do modelo SSUFormer, que alcança desempenho superior na segmentação e descrição textual de fontes sonoras em nível de quadro.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

O artigo apresenta o ConfCtrl, um framework de interpolação de vídeo que utiliza um mecanismo de interpolação consciente da confiança e correções residuais aprendidas para permitir que modelos de difusão gerem novas visões geometricamente consistentes e visualmente plausíveis a partir de apenas duas imagens, mesmo sob grandes mudanças de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

O artigo apresenta o BrainSTR, um framework de aprendizado contrastivo espaciotemporal que melhora a modelagem interpretável de redes cerebrais dinâmicas para diagnóstico neuropsiquiátrico, identificando fases críticas e sub-redes relevantes através de uma partição de fase adaptativa e aprendizado supervisionado contrastivo.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

O artigo apresenta o VLM-Loc, um framework que utiliza modelos de visão e linguagem para aprimorar a localização em mapas de nuvem de pontos a partir de descrições textuais, combinando representações estruturadas como imagens de visão aérea e grafos de cena com um mecanismo de atribuição de nós, e introduz o benchmark CityLoc para avaliação sistemática.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Este trabalho apresenta o MA-EgoQA, um novo benchmark e definição de problema para avaliar a compreensão de múltiplos vídeos egocêntricos de agentes corporificados, introduzindo também o modelo EgoMAS como baseline para lidar com a coordenação e memória compartilhada entre agentes.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

O artigo apresenta o CycleULM, um quadro de aprendizado profundo unificado e sem rótulos que supera as limitações de dados e simulação na microscopia de localização por ultrassom, melhorando significativamente a resolução, a precisão de localização de microbolhas e a velocidade de processamento para viabilizar aplicações clínicas em tempo real.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

O artigo apresenta o MissBench, um novo benchmark e framework para análise afetiva multimodal que padroniza protocolos de dados faltantes desbalanceados e introduz métricas diagnósticas para avaliar a equidade e o desequilíbrio de otimização entre modalidades em cenários do mundo real.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

O artigo apresenta o InternVL-U, um modelo unificado multimodal leve de 4 bilhões de parâmetros que democratiza capacidades de compreensão, raciocínio, geração e edição, superando modelos maiores como o BAGEL (14B) em tarefas de geração e edição graças a uma arquitetura modular e um pipeline de dados focado em raciocínio.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

O artigo apresenta o DISPLAY, um framework inovador para geração de vídeos de interação humano-objeto que utiliza coordenadas esparsas de pulsos e caixas delimitadoras de objetos para garantir controle intuitivo e consistência física, aprimorado por mecanismos de atenção focados no objeto e uma estratégia de treinamento auxiliar multi-tarefa.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

O artigo apresenta o CourtSI, o primeiro grande conjunto de dados e benchmark para avaliar a inteligência espacial de modelos de linguagem e visão em cenários esportivos, demonstrando que o ajuste fino com esses dados supera significativamente as lacunas de desempenho atuais e melhora a capacidade de raciocínio espacial e geração de comentários em esportes de rede.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

O artigo apresenta o WikiCLIP, um framework contrastivo eficiente que supera métodos generativos em reconhecimento visual de entidades de domínio aberto ao utilizar embeddings de modelos de linguagem com um adaptador guiado por visão e um mecanismo de síntese de negativos difíceis, alcançando ganhos significativos de desempenho e reduzindo a latência de inferência em até 100 vezes.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

Este artigo demonstra que a otimização direta da distância de Chamfer em formas 3D falha estruturalmente devido a um colapso de gradientes local, e propõe que a introdução de acoplamento não local, como deformação de base compartilhada ou um prior MPM diferenciável, é necessária para suprimir esse colapso e melhorar significativamente os resultados.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este artigo propõe um método de recuperação de movimento baseado em ângulos articulares que transforma características locais em pseudo-imagens e utiliza interação tardia token-patch para superar as limitações de métodos globais, alcançando resultados superiores e maior interpretabilidade nas tarefas de recuperação texto-movimento.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

O artigo apresenta o ACADiff, um framework baseado em difusão latente que utiliza dados clínicos e metadados para sintetizar modalidades de imagem cerebral ausentes e realizar a imputação de dados multimodais, demonstrando desempenho superior na geração de imagens e na manutenção da precisão diagnóstica para a doença de Alzheimer mesmo em cenários com até 80% de dados faltantes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Este artigo propõe um novo framework de adaptação de domínio não supervisionada baseado na Discrepância de Desigualdade de Margem (MDD) para melhorar a segmentação do fígado em imagens de CBCT intervencionista, utilizando dados anotados de TC e dados não anotados de CBCT para superar a escassez de anotações específicas desse modo de imagem.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

O artigo apresenta o k-MTR, um framework de aprendizado de representação no espaço k que elimina a necessidade de reconstrução de imagens ao alinhar dados subamostrados diretamente com rótulos fisiológicos, permitindo uma análise cardíaca multi-tarefa precisa e eficiente sem passar pelo passo intermediário de formação de imagem.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

← Anterior Próximo →