cs.CV artigos | Gist.Science

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

O artigo apresenta o CuriGS, um framework guiado por currículo que melhora a síntese de visão esparsa em Gaussian Splatting 3D através da geração e seleção progressiva de "vistas de aluno" pseudo-sintéticas para aumentar estávelmente o conjunto de dados de treinamento.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

O artigo apresenta o PPCL, um framework de poda estruturada e flexível para Difusores Transformers (DiTs) que utiliza destilação contínua entre camadas para reduzir em 50% o número de parâmetros com menos de 3% de degradação na qualidade de geração de imagens, facilitando sua implantação em ambientes com recursos limitados.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Este trabalho propõe uma estratégia de ajuste fino eficiente em dados que, ao aprender controles gerativos a partir de dados sintéticos esparsos e de baixa qualidade, não apenas habilita o controle desejado em modelos de texto-para-vídeo, mas também produz resultados superiores aos obtidos com dados fotorealísticos.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

O artigo apresenta o ViPO, uma variante do GRPO que substitui recompensas escalares por mapas de vantagem pixel a pixel, permitindo que modelos generativos visuais aprendam preferências humanas com maior precisão espacial e temporal, superando as limitações de métodos existentes em benchmarks de imagem e vídeo.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

O artigo apresenta o KeyTailor, um novo framework que melhora a virtualização de roupas em vídeos através de uma estratégia de injeção de detalhes orientada a quadros-chave para preservar a dinâmica das roupas e a integridade do fundo, acompanhado pelo conjunto de dados ViT-HD de alta definição para superar as limitações atuais em fidelidade e eficiência computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

O artigo apresenta o CogFlow, um novo framework de três estágios inspirado na cognição humana que supera as limitações atuais na resolução de problemas matemáticos visuais ao integrar explicitamente a percepção, a internalização de conhecimento e o raciocínio, utilizando recompensas visuais sinérgicas, um modelo de recompensa para internalização e otimização de política com portão visual, apoiado pelo novo conjunto de dados MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

O artigo apresenta o Fast-ThinkAct, um framework eficiente para tarefas de Visão-Linguagem-Ação que utiliza raciocínio latente verbalizável para reduzir drasticamente a latência de inferência em comparação com métodos anteriores, mantendo ao mesmo tempo alta capacidade de planejamento e adaptação em ambientes dinâmicos.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

O artigo apresenta o MetamerGen, uma ferramenta baseada em modelos de difusão latente que gera metameros de cenas ao combinar informações de contexto periférico com detalhes fixados, permitindo criar imagens que correspondem à compreensão humana latente de uma cena.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Este artigo propõe a rede neural THz-SSDD, baseada em Análise de Componentes Principais (PCA) e aprendizado auto-supervisionado, para realizar simultaneamente a remoção de ruído e o desembaçamento de imagens terahertz, superando as limitações das técnicas convencionais sem a necessidade de dados rotulados ou intervenção manual.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Este artigo propõe uma taxonomia unificada e estende a biblioteca TorchGeo com uma API padronizada para transformar embeddings de modelos fundamentais geoespaciais em produtos de dados acessíveis, resolvendo assim a fragmentação atual e facilitando a comparação de modelos e a reprodutibilidade em fluxos de trabalho de observação da Terra.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Este artigo apresenta a ACLNet, uma rede de aprendizado contrastivo baseada em afinidade que melhora a compreensão de atividades humanas esqueléticas ao explorar relações de agrupamento interclasses, refinar medições de similaridade e empregar estratégias adaptativas para superar as limitações dos métodos existentes.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

O artigo apresenta o CER-HV, um quadro de trabalho com intervenção humana que combina deteção de ruído baseada em CER e verificação humana para identificar e limpar erros em conjuntos de dados de reconhecimento de texto manuscrito em escrita árabe, demonstrando melhorias significativas na precisão e estabelecendo novos baselines de desempenho.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

Pareto-Guided Optimization for Uncertainty-Aware Medical Image Segmentation

Este artigo propõe uma estratégia de otimização guiada por Pareto para segmentação de imagens médicas que, combinando um currículo baseado em regiões, uma função de perda consistente com Pareto e um mecanismo de rotulagem fuzzy, supera as abordagens tradicionais ao priorizar áreas de alta certeza e gerenciar a ambiguidade nas bordas para alcançar soluções de equilíbrio ótimas.

Jinming Zhang, Youpeng Yang, Xi Yang + 5 more2026-02-25💻 cs

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

O artigo apresenta o DVLA-RL, um novo método de aprendizado com poucos exemplos que utiliza alinhamento semântico de linguagem e visão em dois níveis, combinado com um mecanismo de atenção acionado por aprendizado por reforço, para alcançar desempenho superior ao estado da arte em nove benchmarks ao integrar dinamicamente atributos de baixo nível e descrições de alto nível.

Wenhao Li, Xianjing Meng, Qiangchang Wang + 3 more2026-02-25💻 cs

All-Optical Segmentation via Diffractive Neural Networks for Autonomous Driving

Este trabalho propõe um novo framework de computação totalmente óptica baseado em redes neurais difrativas para realizar segmentação semântica e detecção de faixas em veículos autônomos, demonstrando experimentalmente sua eficácia e eficiência energética em comparação com as abordagens convencionais baseadas em redes neurais digitais.

Yingjie Li, Daniel Robinson, Weilu Gao + 1 more2026-02-25💻 cs

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

O artigo apresenta o GOT-Edit, uma abordagem de edição de modelo online que integra pistas geométricas 3D a rastreadores de objetos genéricos baseados em 2D, resultando em maior robustez e precisão, especialmente em cenários com oclusão e distrações.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo + 1 more2026-02-25⚡ eess

UI-Venus-1.5 Technical Report

O relatório técnico apresenta o UI-Venus-1.5, uma nova família de agentes de interface gráfica unificados e de ponta que, através de avanços como um estágio de treinamento intermediário abrangente, aprendizado por reforço online e fusão de modelos, alcança desempenho superior em benchmarks globais e demonstra robustez na execução de tarefas em aplicativos móveis reais, incluindo em português e chinês.

Venus Team, Changlong Gao, Zhangxuan Gu + 24 more2026-02-25💬 cs.CL

Ecological mapping with geospatial foundation models

Este estudo demonstra que os modelos de base geoespacial Prithvi-EO-2.0 e TerraMind superam consistentemente a linha de base ResNet-101 em tarefas ecológicas como estimativa de traços florestais, mapeamento de uso do solo e detecção de turfeiras, embora seu desempenho dependa criticamente do alinhamento entre os dados de entrada e as modalidades de pré-treinamento, bem como da resolução e precisão dos rótulos.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

O DriveMamba é um modelo escalável baseado em Espaços de Estado (Mamba) que supera as limitações de eficiência e escalabilidade dos sistemas de direção autônoma de ponta a ponta atuais, substituindo a arquitetura sequencial baseada em Transformers por um decodificador unificado de complexidade linear capaz de modelar dinamicamente as relações entre tarefas e integrar percepção, previsão e planejamento de forma eficiente.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

O Sim2Radar é um framework que preenche a lacuna entre simulação e realidade em percepção por radar de ondas milimétricas ao sintetizar dados de treinamento a partir de imagens RGB, utilizando reconstrução de cena guiada por visão computacional e linguagem para inferir materiais e simular propagação física, resultando em melhorias significativas na detecção de objetos 3D em ambientes reais com poucos dados supervisionados.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

← Anterior Próximo →