cs.CV artigos | Gist.Science

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

O artigo apresenta o DeLTa, um novo framework que integra estimativa de profundidade, pose 6D e planejamento guiado por linguagem para permitir a manipulação precisa de longo prazo de objetos transparentes novos a partir de uma única demonstração, superando as limitações de generalização e precisão dos métodos existentes.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Este artigo apresenta o Spatial-DISE, um benchmark unificado e um conjunto de dados escaláveis baseados em uma taxonomia cognitiva que avalia a capacidade de raciocínio espacial de modelos de linguagem visuais, revelando uma lacuna significativa entre o desempenho atual das máquinas e a competência humana, especialmente em tarefas intrínsecas dinâmicas e multi-etapa.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

O artigo apresenta o UniGenBench++, um novo benchmark unificado e multilíngue para avaliação semântica de geração de imagens a partir de texto, que supera as limitações de diversidade e granularidade dos trabalhos existentes ao oferecer 600 prompts hierárquicos cobrindo 27 critérios de avaliação e um pipeline automatizado para testes robustos de modelos.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

O artigo apresenta o egoEMOTION, o primeiro conjunto de dados que combina sinais visuais egocêntricos e fisiológicos com autorrelatos densos de emoção e personalidade para estabelecer novos benchmarks em tarefas de reconhecimento afetivo e inferência de traços em cenários do mundo real.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Este trabalho apresenta um novo framework que integra dados acústicos e visuais para localizar eventos sonoros cirúrgicos em 3D e gerar representações multimodais dinâmicas de cenas cirúrgicas, visando aprimorar a compreensão contextual de sistemas cirúrgicos inteligentes.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping

O artigo apresenta o SpecAware, um modelo fundamental inovador que unifica a aprendizagem multi-sensorial em mapeamento de sensoriamento remoto hiperespectral através de uma arquitetura baseada em hiper-rede capaz de integrar atributos de sensores e conteúdo de imagem para superar a heterogeneidade dos dados, apoiado pelo novo conjunto de dados de pré-treinamento Hyper-400K.

Renjie Ji, Xue Wang, Chao Niu + 3 more2026-02-25💻 cs

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding

O artigo apresenta o VCFlow, uma nova arquitetura de decodificação visual inspirada no processamento cognitivo humano que, ao modelar as vias ventral e dorsal do cérebro e utilizar aprendizado contrastivo, permite reconstruir experiências visuais contínuas a partir de fMRI em novos sujeitos sem necessidade de treinamento específico, oferecendo uma solução rápida e escalável para aplicações clínicas.

Jingyu Lu, Haonan Wang, Qixiang Zhang + 1 more2026-02-25🤖 cs.AI

Changes in Real Time: Online Scene Change Detection with Multi-View Fusion

Este artigo apresenta o primeiro método de detecção de mudanças de cena online que é agnóstico à pose, livre de rótulos e garante consistência multivista, superando abordagens offline existentes ao atingir mais de 10 FPS através de uma nova perda de fusão auto-supervisionada, estimativa de pose rápida baseada em PnP e uma estratégia de atualização guiada por mudanças para a representação de cena com Splatting Gaussiano 3D.

Chamuditha Jayanga Galappaththige, Jason Lai, Lloyd Windrim + 3 more2026-02-25💻 cs

CuriGS: Curriculum-Guided Gaussian Splatting for Sparse View Synthesis

O artigo apresenta o CuriGS, um framework guiado por currículo que melhora a síntese de visão esparsa em Gaussian Splatting 3D através da geração e seleção progressiva de "vistas de aluno" pseudo-sintéticas para aumentar estávelmente o conjunto de dados de treinamento.

Zijian Wu, Mingfeng Jiang, Zidian Lin + 5 more2026-02-25💻 cs

Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers

O artigo apresenta o PPCL, um framework de poda estruturada e flexível para Difusores Transformers (DiTs) que utiliza destilação contínua entre camadas para reduzir em 50% o número de parâmetros com menos de 3% de degradação na qualidade de geração de imagens, facilitando sua implantação em ambientes com recursos limitados.

Jian Ma, Qirong Peng, Xujie Zhu + 3 more2026-02-25💻 cs

Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation

Este trabalho propõe uma estratégia de ajuste fino eficiente em dados que, ao aprender controles gerativos a partir de dados sintéticos esparsos e de baixa qualidade, não apenas habilita o controle desejado em modelos de texto-para-vídeo, mas também produz resultados superiores aos obtidos com dados fotorealísticos.

Shihan Cheng, Nilesh Kulkarni, David Hyde + 1 more2026-02-25🤖 cs.AI

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

O artigo apresenta o ViPO, uma variante do GRPO que substitui recompensas escalares por mapas de vantagem pixel a pixel, permitindo que modelos generativos visuais aprendam preferências humanas com maior precisão espacial e temporal, superando as limitações de métodos existentes em benchmarks de imagem e vídeo.

Ziqi Ni, Yuanzhi Liang, Rui Li + 4 more2026-02-25💻 cs

The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

O artigo apresenta o KeyTailor, um novo framework que melhora a virtualização de roupas em vídeos através de uma estratégia de injeção de detalhes orientada a quadros-chave para preservar a dinâmica das roupas e a integridade do fundo, acompanhado pelo conjunto de dados ViT-HD de alta definição para superar as limitações atuais em fidelidade e eficiência computacional.

Qingdong He, Xueqin Chen, Yanjie Pan + 7 more2026-02-25💻 cs

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

O artigo apresenta o CogFlow, um novo framework de três estágios inspirado na cognição humana que supera as limitações atuais na resolução de problemas matemáticos visuais ao integrar explicitamente a percepção, a internalização de conhecimento e o raciocínio, utilizando recompensas visuais sinérgicas, um modelo de recompensa para internalização e otimização de política com portão visual, apoiado pelo novo conjunto de dados MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie + 7 more2026-02-25🤖 cs.AI

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

O artigo apresenta o Fast-ThinkAct, um framework eficiente para tarefas de Visão-Linguagem-Ação que utiliza raciocínio latente verbalizável para reduzir drasticamente a latência de inferência em comparação com métodos anteriores, mantendo ao mesmo tempo alta capacidade de planejamento e adaptação em ambientes dinâmicos.

Chi-Pin Huang, Yunze Man, Zhiding Yu + 4 more2026-02-25🤖 cs.AI

Generating metamers of human scene understanding

O artigo apresenta o MetamerGen, uma ferramenta baseada em modelos de difusão latente que gera metameros de cenas ao combinar informações de contexto periférico com detalhes fixados, permitindo criar imagens que correspondem à compreensão humana latente de uma cena.

Ritik Raina, Abe Leite, Alexandros Graikos + 3 more2026-02-25🤖 cs.AI

Principal Component Analysis-Based Terahertz Self-Supervised Denoising and Deblurring Deep Neural Networks

Este artigo propõe a rede neural THz-SSDD, baseada em Análise de Componentes Principais (PCA) e aprendizado auto-supervisionado, para realizar simultaneamente a remoção de ruído e o desembaçamento de imagens terahertz, superando as limitações das técnicas convencionais sem a necessidade de dados rotulados ou intervenção manual.

Pengfei Zhu, Stefano Sfarra, Hai Zhang + 4 more2026-02-25💻 cs

Earth Embeddings as Products: Taxonomy, Ecosystem, and Standardized Access

Este artigo propõe uma taxonomia unificada e estende a biblioteca TorchGeo com uma API padronizada para transformar embeddings de modelos fundamentais geoespaciais em produtos de dados acessíveis, resolvendo assim a fragmentação atual e facilitando a comparação de modelos e a reprodutibilidade em fluxos de trabalho de observação da Terra.

Heng Fang, Adam J. Stewart, Isaac Corley + 2 more2026-02-25💻 cs

Affinity Contrastive Learning for Skeleton-based Human Activity Understanding

Este artigo apresenta a ACLNet, uma rede de aprendizado contrastivo baseada em afinidade que melhora a compreensão de atividades humanas esqueléticas ao explorar relações de agrupamento interclasses, refinar medições de similaridade e empregar estratégias adaptativas para superar as limitações dos métodos existentes.

Hongda Liu, Yunfan Liu, Min Ren + 3 more2026-02-25💻 cs

CER-HV: A Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR

O artigo apresenta o CER-HV, um quadro de trabalho com intervenção humana que combina deteção de ruído baseada em CER e verificação humana para identificar e limpar erros em conjuntos de dados de reconhecimento de texto manuscrito em escrita árabe, demonstrando melhorias significativas na precisão e estabelecendo novos baselines de desempenho.

Sana Al-azzawi, Elisa Barney, Marcus Liwicki2026-02-25💻 cs

← Anterior Próximo →