cs.CV artigos | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

O PhysDrape é um solucionador híbrido neural-físico que integra uma Rede Neural Orientada a Física com um solver de projeção diferenciável para garantir a drapagem realista de vestuário, resolvendo efetivamente o conflito entre validade geométrica e plausibilidade física ao impor restrições de colisão explícitas e minimizar a energia de deformação.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

O artigo propõe o FlowAdapt, um framework de adaptação de domínio eficiente em parâmetros baseado na teoria do transporte ótimo que supera os desafios da percepção colaborativa em V2X ao filtrar redundâncias e preservar semânticas finas, alcançando desempenho superior com apenas 1% dos parâmetros treináveis.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

O artigo propõe o SToRM, um novo framework de redução supervisionada de tokens para modelos de linguagem multimodal que otimiza a condução autônoma de ponta a ponta ao reduzir drasticamente o custo computacional sem comprometer o desempenho.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

O artigo apresenta o 3DMedAgent, um agente unificado que capacita modelos de linguagem multimodal (MLLMs) bidimensionais a realizar análises completas de tomografias computadorizadas 3D sem necessidade de ajuste fino específico para 3D, coordenando ferramentas heterogêneas e memória estruturada para decompor tarefas complexas em raciocínio passo a passo baseado em evidências.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Este artigo demonstra que arquiteturas que aprendem operadores equivariantes em um espaço latente podem superar as limitações de redes tradicionais e equivariantes na classificação de objetos sob transformações simétricas não vistas durante o treinamento, embora ainda existam desafios significativos para escalar essa abordagem a conjuntos de dados mais complexos.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

O artigo apresenta o OVerSeeC, um framework modular de zero-shot que gera mapas de custo globais para planejamento de navegação autônoma a partir de imagens de satélite e instruções em linguagem natural, combinando modelos de linguagem e segmentação aberta para adaptar-se dinamicamente a entidades desconhecidas e regras de missão composicionais.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Este trabalho apresenta o novo cenário de Generalização de Domínio de Vocabulário Aberto em Segmentação Semântica (OVDG-SS), introduzindo um benchmark pioneiro para direção autônoma e propondo o mecanismo S2-Corr para refinar as correlações texto-imagem em Modelos Visão-Linguagem, superando assim as limitações de robustez em domínios e categorias não vistos.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

O artigo apresenta o UniMatch, um framework de correspondência semântica densa que utiliza orientação linguística e aprendizado contrastivo para estabelecer correspondências entre formas 3D não isométricas de categorias diversas, superando as limitações de métodos anteriores que dependiam de suposições isométricas ou de tipos de sujeitos homogêneos.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

O artigo apresenta o InfScene-SR, um método de super-resolução baseado em difusão que utiliza correção de variância espacialmente desacoplada para realizar a super-resolução contínua e sem costuras de imagens de tamanho arbitrário, eliminando artefatos de borda e melhorando o desempenho em tarefas de segmentação semântica.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Este artigo propõe um esquema de decomposição e recomposição online de objeto, cena e câmera para gerar dados de treinamento diversificados e combater o sobreajuste na detecção 3D de objetos monoculares, permitindo um aprendizado eficiente e escalável tanto em cenários totalmente quanto esparsamente supervisionados.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Este trabalho apresenta um framework de decomposição de imagens em camadas que utiliza modelos de difusão pré-treinados, adaptados via LoRA e uma estratégia de ajuste cíclico consistente, para separar eficazmente elementos complexos como logotipos de suas superfícies enquanto preserva a fidelidade de ambas as camadas.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

O artigo apresenta o "See It, Say It, Sorted", um framework leve e sem treinamento que aprimora o raciocínio multimodal em modelos LVLMs ao supervisionar iterativamente cada passo do pensamento com evidências visuais dinâmicas, reduzindo alucinações e melhorando a precisão sem necessidade de re-treinamento.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Este artigo apresenta uma abordagem unificada para segmentação semântica em imagens e vídeos que utiliza modelagem de linguagem para gerar máscaras como sequências de tokens discretos baseados em codificação por comprimento de execução (RLE), incorporando estratégias de compressão e informações de instância para alcançar desempenho competitivo com o estado da arte.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

O WISER é um framework de recuperação de imagens composta zero-shot sem treinamento que supera os métodos existentes ao unificar as abordagens Texto-para-Imagem e Imagem-para-Imagem em um pipeline de "busca mais ampla, pensamento mais profundo e fusão adaptativa", utilizando verificação de confiança e auto-reflexão estruturada para refinar dinamicamente os resultados.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

O artigo apresenta o PackUV, um novo método de representação volumétrica 4D que mapeia atributos gaussianos em mapas UV estruturados para compatibilidade com codecs de vídeo padrão, introduzindo também o método de ajuste PackUV-GS e o conjunto de dados PackUV-2B para superar limitações de consistência temporal e escalabilidade em sequências longas.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

O artigo apresenta o HART, um quadro de aprendizado por reforço que permite que Modelos Multimodais de Grande Escala realizem raciocínio visual em alta resolução sem anotações humanas, otimizando a localização de regiões-chave e melhorando o desempenho em diversas tarefas complexas.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

O artigo apresenta o Infinito Self-Attention (InfSA), uma reformulação espectral que modela a atenção como um processo de difusão em grafos de tokens para superar o custo quadrático do softmax, introduzindo a variante Linear-InfSA que alcança complexidade linear, permite processamento de imagens de ultra-alta resolução (até 9216x9216) e supera os Transformers convencionais em precisão e eficiência energética no ImageNet.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

O artigo apresenta o WildActor, um framework de geração de vídeos humanos que preserva a identidade corporal em condições desafiadoras de movimento e viewpoint, apoiado pelo novo conjunto de dados em larga escala Actor-18M e validado pelo benchmark Actor-Bench.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Este artigo de posicionamento defende que a avaliação de sistemas modernos de processamento visual deve abandonar a primazia de métricas objetivas de qualidade de imagem em favor de uma abordagem centrada no ser humano, contextual e detalhada, para evitar que a divergência entre resultados métricos e percepção humana restrinja a inovação e desvie o progresso da pesquisa.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

O artigo apresenta o DeAR, um framework que adapta modelos de visão e linguagem de forma granular decompondo os papéis dos cabeçalhos de atenção e utilizando uma máscara baseada em funções para equilibrar a adaptação a tarefas específicas com a preservação da generalização zero-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← Anterior Próximo →