cs.CV artigos | Gist.Science

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Este artigo apresenta o DLEBench, o primeiro benchmark dedicado a avaliar a capacidade de modelos de edição de imagem baseados em instruções na manipulação de objetos em pequena escala, introduzindo um conjunto de dados desafiador e um protocolo de avaliação robusto que revela lacunas significativas de desempenho nessa tarefa.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

O artigo apresenta o BuildAnyPoint, um novo framework generativo que utiliza um Transformer de Difusão em Cascata Frouxa (Loca-DiT) e geração autoregressiva para realizar a reconstrução estruturada de edifícios 3D a partir de nuvens de pontos diversas e esparsas, superando os métodos anteriores em precisão e uniformidade.

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Este artigo apresenta o Semantically Decoupled Latent Steering (SDLS), um método de controle sem treinamento que utiliza decomposição semântica e ortogonalização baseada em QR para suprir alucinações de comparação prévia na geração de laudos radiológicos, melhorando a fidelidade clínica sem comprometer a integridade narrativa.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

O artigo apresenta o VL-WS, um novo framework de segmentação semântica que alinha visão e linguagem para superar as limitações de generalização em ambientes agrícolas heterogêneos, alcançando desempenho superior na distinção entre culturas e ervas daninhas em múltiplos domínios e condições de sensoriamento.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

O artigo apresenta o rs-embed, uma biblioteca Python que unifica o acesso a embeddings de modelos fundamentais de sensoriamento remoto, permitindo a extração sob demanda de dados para qualquer local e período com uma única linha de código, superando assim as barreiras de heterogeneidade e facilitando comparações justas e processamento em larga escala.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

O HiDrop é um framework inovador para Multimodal Large Language Models (MLLMs) que reduz em cerca de 90% os tokens visuais e acelera o treinamento em 1,72 vezes, alinhando a poda dinâmica de tokens à função hierárquica das camadas do modelo por meio de injeção tardia, poda piramidal côncava e saída antecipada, sem comprometer o desempenho.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Este artigo apresenta um sistema de navegação indoor confiável para humanos que utiliza realidade aumentada com Vuforia e o algoritmo A* sobre NavMesh para oferecer direções intuitivas e em tempo real, demonstrando maior precisão e eficiência em comparação com métodos tradicionais.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

O artigo apresenta o EgoGraph, uma estrutura de construção dinâmica e sem treinamento de grafos de conhecimento que supera as limitações dos modelos atuais ao permitir o raciocínio temporal de longo prazo e a compreensão semântica coerente em vídeos egocêntricos ultra-longos que abrangem múltiplos dias.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Este trabalho introduz o VGUBench para demonstrar que, embora os Modelos de Linguagem Multimodal Unificados (U-MLLMs) apresentem raciocínio textual robusto e fidelidade de renderização, eles falham em manter a equivalência semântica ao gerar respostas visuais, revelando uma ruptura na alinhamento semântico entre modalidades em vez de uma deficiência na capacidade de geração.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

O artigo apresenta o StemVLA, um modelo de visão-linguagem-ação de código aberto que melhora a manipulação robótica ao integrar explicitamente conhecimento geométrico 3D futuro e representações históricas 4D para aprimorar o raciocínio espacial e a tomada de decisão de longo prazo.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

Este artigo propõe um novo método de diferença-em-diferença que utiliza a segunda ordem da diferença de erro de reconstrução para reduzir a variância e melhorar a precisão na detecção de imagens geradas por IA, superando as limitações dos detectores existentes baseados apenas no erro de reconstrução.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

O UTPTrack é um novo framework unificado de poda de tokens que, ao comprimir conjuntamente as regiões de busca e os modelos estáticos e dinâmicos por meio de uma estratégia guiada por atenção, alcança um estado da arte em eficiência e precisão para rastreamento visual em tempo real, mantendo ou até superando o desempenho de base enquanto reduz significativamente o custo computacional.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

O artigo apresenta o U-Mind, um sistema unificado pioneiro que permite a interação multimodal em tempo real com geração integrada de linguagem, fala, movimento e vídeo, superando desafios de alinhamento e raciocínio através de uma estratégia de sincronização segmentada e aprendizado por ensaio.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Este estudo investiga as diferenças comportamentais entre humanos e Modelos Visuais-Linguísticos na resolução de ambiguidades em caracteres japoneses, demonstrando que, embora as fronteiras de decisão difiram em tarefas baseadas apenas na forma, o contexto pode melhorar a alinhamento em certas condições.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

O artigo apresenta o CausalProto, uma Rede Prototípica Causal Não Supervisionada que utiliza um Modelo Causal Estrutural e um gargalo de informação para desconectar características patológicas de confusores ambientais em imagens de dermatoscopia, permitindo diagnósticos mais precisos, interpretáveis e livres de viés sem comprometer a acurácia.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

O artigo apresenta a NIST (Neural Image-Space Tessellation), uma técnica de pós-processamento leve baseada em redes neurais que simula o efeito visual de tesselação geométrica em tempo real deformando contornos na tela e reatribuindo informações de aparência, alcançando silhuetas suaves e fiéis sem depender da complexidade geométrica original.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

O artigo apresenta o Selfment, um framework totalmente auto-supervisionado que segmenta objetos em imagens brutas sem anotações manuais ou pós-processamento, alcançando novos recordes de desempenho em benchmarks de detecção de saliência e demonstrando notável generalização zero-shot em tarefas de detecção de objetos camuflados.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

O artigo apresenta o OPTIAGENT, um quadro de trabalho agênico baseado em LLMs que, ao utilizar um conjunto de dados especializado, otimização de política orientada por recompensas físicas e integração com rotinas de otimização óptica, permite que usuários sem formação especializada projetem sistemas de lentes funcionais com desempenho superior aos métodos tradicionais.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

O artigo apresenta o VideoPulse, um novo conjunto de dados e uma pipeline de aprendizado profundo que permitem a estimativa precisa da frequência cardíaca e da saturação de oxigênio (SpO2) em neonatos a partir de vídeos faciais sem contato, oferecendo uma solução não invasiva e de baixo custo para monitoramento em unidades de terapia intensiva neonatal.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Este artigo apresenta um novo framework que adapta o modelo de fundação DINOv3 com componentes específicos para 3D, permitindo a segmentação robusta de vasos sanguíneos em cenários de poucos dados e com alta resistência a mudanças de domínio, superando significativamente os métodos atuais como o nnU-Net.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

← Anterior Próximo →