cs.CV artigos | Gist.Science

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

O artigo apresenta o FluoCLIP, um novo framework baseado em visão e linguagem, juntamente com o dataset FluoMix, para estabelecer a primeira abordagem de avaliação de qualidade de foco em microscopia de fluorescência que considera especificamente as variações dependentes da coloração.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

O artigo apresenta o EMO-R3, um quadro de Aprendizado por Reforço Reflexivo que aprimora o raciocínio emocional em Modelos de Linguagem Multimodais por meio de Pensamento Emocional Estruturado e uma Recompensa Reflexiva Emocional, resultando em maior interpretabilidade e desempenho superior em benchmarks de compreensão emocional visual.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

O artigo apresenta o BiM-GeoAttn-Net, um framework leve que combina modelagem de estado espacial bidirecional de profundidade com atenção geométrica para realizar segmentação 3D precisa e eficiente de dissecções aórticas em imagens de angiotomografia, superando métodos existentes em métricas de sobreposição e coerência inter-corte.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

O artigo propõe o Sea², um agente de percepção ativa que utiliza um modelo de linguagem e visão (VLM) personalizado para controlar a pose de câmeras e adaptar modelos de percepção pré-treinados a novos ambientes sem necessidade de re-treinamento ou rótulos, alcançando melhorias significativas em tarefas como grounding visual, segmentação e estimativa de caixas 3D.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

O artigo propõe um framework de manipulação bimanual que utiliza um modelo fundacional geométrico 3D pré-treinado para prever simultaneamente ações e a evolução da cena em 3D a partir de imagens RGB, superando métodos baseados em 2D ou nuvens de pontos explícitas e alcançando desempenho state-of-the-art em coordenação e precisão espacial.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Este artigo apresenta um framework de aprendizado contínuo livre de exemplares para geração de laudos patológicos a partir de imagens de lâminas inteiras, que utiliza "pegadas" de domínio compactas e um descritor de estilo linguístico para sintetizar representações e relatórios sintéticos, mitigando o esquecimento catastrófico e adaptando-se a novas instituições e convenções de relato sem a necessidade de armazenar dados históricos.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

Este artigo apresenta o CPN-YOLO, um framework de detecção de embarcações em imagens SAR que aprimora o YOLOv8 através de um módulo de remoção de ruído, um mecanismo de atenção PPA e uma função de perda baseada em distância Wasserstein, alcançando desempenho superior em conjuntos de dados como HRSID e SSDD.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

O artigo propõe um framework multimodal end-to-end para classificação de séries DICOM que integra conteúdo de imagem e metadados através de atenção cruzada e aprendizado de dicionário, superando desafios como heterogeneidade de conteúdo, variabilidade de comprimento e metadados incompletos ou inconsistentes sem necessidade de imputação.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Este artigo propõe um modelo de difusão guiado pela incerteza de polarização que, ao integrar priores de modelos de difusão de texto para imagem e utilizar a incerteza para orientar a reconstrução de regiões de alto erro, supera as limitações dos métodos existentes na demosaicing de imagens de polarização colorida, resultando em uma recuperação precisa das características de polarização com alta fidelidade e percepção visual.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

NAU-QMUL: Utilizing BERT and CLIP for Multi-modal AI-Generated Image Detection

O artigo apresenta o modelo NAU-QMUL, que combina os encoders BERT e CLIP em uma arquitetura multi-modal multi-tarefa com aumento de dados por pseudo-rotulagem para detectar imagens geradas por IA e identificar os modelos responsáveis, alcançando a quinta colocação na competição CT2.

Xiaoyu Guo, Arkaitz Zubiaga2026-03-02💬 cs.CL

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

O artigo apresenta o ReSeg-CLIP, um método de segmentação semântica de vocabulário aberto para dados de sensoriamento remoto que, sem necessidade de treinamento adicional, supera o estado da arte ao combinar máscaras hierárquicas do SAM para refinar a atenção do CLIP e uma composição de modelos baseada em pesos derivados da qualidade representacional de prompts de texto.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Este artigo propõe uma abordagem de percepção 3D de 360 graus para veículos autônomos que utiliza comunicação V2X e modelos baseados em transformers para dividir dinamicamente o processamento entre a borda e a nuvem, otimizando a latência e a precisão da detecção de objetos através de compressão de recursos e adaptação às condições variáveis de largura de banda.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Este estudo propõe uma abordagem de reconhecimento visual de lugares aérea adaptativa à altitude que, sem necessidade de hardware adicional, estima a altitude relativa analisando a densidade de características do solo e aplica recortes de imagem para gerar consultas canônicas, alcançando assim maior precisão e robustez na localização de plataformas aéreas sob variações significativas de altitude em comparação com métodos tradicionais.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

O artigo propõe o DACESR, um método que utiliza um Real Embedding Extractor (REE) para melhorar o reconhecimento em imagens degradadas e um Conditional Feature Modulator (CFM) para integrar essas informações em uma rede baseada em Mamba, alcançando resultados superiores em super-resolução de imagens do mundo real ao equilibrar fidelidade e qualidade perceptual.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

SelfOccFlow: Towards end-to-end self-supervised 3D Occupancy Flow prediction

O artigo propõe o SelfOccFlow, um método de aprendizado auto-supervisionado que estima o fluxo de ocupação 3D ao redor de veículos autônomos sem depender de anotações humanas ou supervisão externa, utilizando campos de distância assinada separados para cenas estáticas e dinâmicas e agregação temporal para inferir o movimento.

Xavier Timoneda, Markus Herb, Fabian Duerr + 1 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

O artigo apresenta o Ref-Adv, um novo benchmark para Compreensão de Expressões de Referência que supera as limitações de testes anteriores ao exigir raciocínio visual genuíno e evitar atalhos, revelando que os atuais Grandes Modelos de Linguagem Multimodais, embora performem bem em benchmarks tradicionais, falham significativamente em tarefas que demandam compreensão profunda e fundamentação visual.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

O artigo propõe o BUSD-Agent, um framework de agentes em cascata guiado por experiência que utiliza memórias de casos anteriores para adaptar dinamicamente as decisões de triagem e diagnóstico em ultrassonografia mamária, reduzindo significativamente as encaminhamentos desnecessários para biópsia e melhorando a especificidade diagnóstica.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI

ABPolicy: Asynchronous B-Spline Flow Policy for Real-Time and Smooth Robotic Manipulation

O artigo apresenta o ABPolicy, uma política de fluxo assíncrona baseada em B-splines que elimina a descontinuidade e o jitter nas ações robóticas, garantindo movimentos suaves e responsivos em tempo real tanto em ambientes estáticos quanto dinâmicos.

Fan Yang, Peiguang Jing, Kaihua Qu + 2 more2026-03-02💻 cs

SegMate: Asymmetric Attention-Based Lightweight Architecture for Efficient Multi-Organ Segmentation

O artigo apresenta o SegMate, uma arquitetura leve e eficiente baseada em atenção assimétrica que alcança precisão de ponta na segmentação multi-órgão em imagens médicas, reduzindo significativamente os requisitos computacionais e de memória em comparação com modelos existentes.

Andrei-Alexandru Bunea, Dan-Matei Popovici, Radu Tudor Ionescu2026-03-02🤖 cs.LG

Half-Truths Break Similarity-Based Retrieval

O artigo apresenta o CS-CLIP, um modelo que supera as limitações de representações de "meias-verdades" em sistemas de recuperação imagem-texto ao decompor legendas em unidades de entidades e relações para um treinamento supervisionado mais granular, resultando em maior precisão na detecção de detalhes incorretos e melhor compreensão composicional.

Bora Kargi, Arnas Uselis, Seong Joon Oh2026-03-02💻 cs

← Anterior Próximo →