cs.CV artigos | Gist.Science

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Este artigo apresenta um novo benchmark centrado em dados, um conjunto de dados público e duas técnicas inovadoras que superam os métodos existentes na identificação, quantificação e classificação de amostras de treinamento com ruído de rótulo em segmentação semântica de imagens de sensoriamento remoto.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

O artigo apresenta o IdGlow, um framework inovador sem máscaras baseado em dois estágios que resolve o dilema estabilidade-plasticidade na geração de imagens com múltiplos sujeitos, harmonizando identidades diversas e transformações estruturais complexas, como o envelhecimento, através de agendamento adaptativo de timesteps, síntese de prompts orientada por VLM e otimização direta de preferências (DPO).

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

O artigo apresenta o CodeAlign, um novo framework de alinhamento eficiente e livre de co-ocorrência que supera o isolamento de modalidades na percepção colaborativa heterogênea através de tradução de características via códigos, alcançando desempenho superior com parâmetros reduzidos e menor carga de comunicação.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artigo apresenta o primeiro conjunto de dados dinâmicos de imagens hiperespectrais (DynaSpec), um novo modelo de transformação baseado em propagação de características (PG-SVRT) e um benchmark para reconstrução espectral compressiva em nível de vídeo, superando as limitações de consistência temporal e qualidade de reconstrução dos métodos baseados em imagens.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Este trabalho aborda o desafio da poda de conjuntos de dados 3D, caracterizados por distribuições de classes de cauda longa que tornam conflitantes as métricas de precisão global e média, propondo um método inovador de seleção de subconjuntos com cotas de retenção por classe e supervisão de professores invariante a priores para otimizar simultaneamente ambas as métricas.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

O artigo apresenta o RC-GeoCP, o primeiro framework de percepção colaborativa que funde dados de radar 4D e câmeras através de um consenso geométrico para corrigir desalinhamentos e otimizar a comunicação, alcançando desempenho superior com menor sobrecarga de dados.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

O artigo propõe o SCVM, um novo quadro de visão modulado por memória que controla a evolução das representações visuais através de um estado de memória recursivo e modulação entre camadas, permitindo melhorias consistentes em tarefas multimodais sem a necessidade de expandir tokens visuais, adicionar codificadores ou ajustar o modelo de linguagem.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

O artigo apresenta o HistoSelect, um framework de recuperação do grosseiro ao fino orientado por perguntas que imita o processo de exame dos patologistas ao selecionar regiões de tecido e patches informativos em imagens de lâminas inteiras, resultando em maior eficiência e precisão nas respostas de modelos de linguagem visual para patologia.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Este trabalho propõe um novo framework baseado em uma rede U-Net de duplo canal no espaço k para reconstruir diretamente imagens de ressonância magnética de baixo campo com super-resolução a partir de dados subamostrados, superando métodos baseados no domínio espacial e alcançando qualidade comparável a aquisições completas.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

O artigo propõe o framework MoLRE, que especializa modelos fundamentais de imagem médica através de uma mistura de adaptadores de baixo rank e roteamento suave, demonstrando melhorias consistentes na detecção de achados em tomografias computadorizadas de crânio ao longo de seis modelos de ponta, com ganhos particularmente expressivos em modelos de domínio geral e médico.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

O artigo apresenta o CoLC, um framework de percepção colaborativa eficiente em comunicação que utiliza amostragem de pontos consciente do foreground e reconstrução de LiDAR para restaurar a completude da cena e superar as limitações de largura de banda, mantendo a robustez em cenários heterogêneos.

Yushan Han, Hui Zhang, Qiming Xia + 2 more2026-03-03💻 cs

SCOUT: Fast Spectral CT Imaging in Ultra LOw-data Regimes via PseUdo-label GeneraTion

O artigo apresenta o SCOUT, um método de reconstrução de tomografia computadorizada espectral que, em regimes de dados ultra-baixos, utiliza geração de pseudo-rótulos baseada em similaridade não local e propriedades conjugadas para obter resultados de alta fidelidade e rápida reconstrução sem depender de dados externos ou pré-treinamento.

Guoquan Wei, Liu Shi, Shaoyu Wang + 3 more2026-03-03💻 cs

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

O artigo propõe o STMI, um novo framework de Re-Identificação Multi-Modal que integra modulação de características guiada por segmentação, realocação adaptativa de tokens e interação hipergráfica cruzada para superar as limitações de filtragem rígida e fusão simples, resultando em maior robustez e precisão na extração de características discriminativas.

Xingguo Xu, Zhanyu Liu, Weixiang Zhou + 5 more2026-03-03💻 cs

TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

O TokenSplat é um framework feed-forward que realiza a reconstrução 3D e a estimativa de pose de câmeras a partir de imagens multiview sem pose prévia, utilizando um módulo de previsão de Gaussians alinhados a tokens e um decodificador assimétrico para garantir alta fidelidade de reconstrução e precisão de pose sem necessidade de refinamento iterativo.

Yihui Li, Chengxin Lv, Zichen Tang + 2 more2026-03-03💻 cs

Towards Universal Khmer Text Recognition

Este artigo propõe o framework universal de reconhecimento de texto khmer (UKTR), que utiliza uma técnica inovadora de seleção adaptativa de recursos consciente da modalidade para superar a escassez de dados e alcançar desempenho superior em diversos tipos de texto, além de introduzir o primeiro benchmark abrangente para essa tarefa.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

Towards Khmer Scene Document Layout Detection

Este artigo apresenta o primeiro estudo abrangente sobre detecção de layout em documentos de cena em khmer, introduzindo um novo framework que inclui um dataset de treinamento, uma ferramenta de aumento de dados e modelos baseados em YOLO com caixas delimitadoras orientadas para superar os desafios específicos da escrita khmer.

Marry Kong, Rina Buoy, Sovisal Chenda + 3 more2026-03-03💻 cs

IU: Imperceptible Universal Backdoor Attack

Este trabalho apresenta a IU, um novo ataque de backdoor universal imperceptível que utiliza redes de convolução gráfica para gerar perturbações específicas por classe, permitindo a injeção de backdoors em múltiplas classes com taxas de envenenamento extremamente baixas (0,16%) e alta eficácia, enquanto mantém a invisibilidade visual e contorna defesas existentes.

Hsin Lin, Yan-Lun Chen, Ren-Hung Hwang + 1 more2026-03-03🤖 cs.LG

A Reconstruction System for Industrial Pipeline Inner Walls Using Panoramic Image Stitching with Endoscopic Imaging

Este artigo apresenta um sistema de reconstrução para paredes internas de tubulações industriais que utiliza endoscópios e técnicas de costura de imagens panorâmicas para transformar vídeos anulares em imagens planares detalhadas, otimizando significativamente a eficiência e a precisão na detecção de defeitos em comparação com métodos tradicionais.

Rui Ma, Yifeng Wang, Ziteng Yang + 1 more2026-03-03💻 cs

Diversity over Uniformity: Rethinking Representation in Generated Image Detection

O artigo propõe um novo framework de aprendizado anti-colapso de características que, ao preservar múltiplas perspectivas de julgamento e evitar a dependência de poucas pistas salientes, supera os métodos atuais na detecção de imagens geradas, especialmente em cenários de generalização cruzada entre diferentes modelos.

Qinghui He, Haifeng Zhang, Qiao Qin + 3 more2026-03-03💻 cs

UniHM: Unified Dexterous Hand Manipulation with Vision Language Model

O UniHM é um framework pioneiro que utiliza um modelo de linguagem e visão para planejar manipulação destreza de mãos robóticas a partir de instruções de linguagem livre, empregando um tokenizador unificado para generalizar entre diferentes morfologias e um módulo de refinamento guiado por física para garantir sequências de movimento realistas e fisicamente viáveis.

Zhenhao Zhang, Jiaxin Liu, Ye Shi + 1 more2026-03-03💻 cs

← Anterior Próximo →