EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

O artigo apresenta o EMO-R3, um quadro de Aprendizado por Reforço Reflexivo que aprimora o raciocínio emocional em Modelos de Linguagem Multimodais por meio de Pensamento Emocional Estruturado e uma Recompensa Reflexiva Emocional, resultando em maior interpretabilidade e desempenho superior em benchmarks de compreensão emocional visual.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

O artigo apresenta o BiM-GeoAttn-Net, um framework leve que combina modelagem de estado espacial bidirecional de profundidade com atenção geométrica para realizar segmentação 3D precisa e eficiente de dissecções aórticas em imagens de angiotomografia, superando métodos existentes em métricas de sobreposição e coerência inter-corte.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

O artigo propõe o Sea², um agente de percepção ativa que utiliza um modelo de linguagem e visão (VLM) personalizado para controlar a pose de câmeras e adaptar modelos de percepção pré-treinados a novos ambientes sem necessidade de re-treinamento ou rótulos, alcançando melhorias significativas em tarefas como grounding visual, segmentação e estimativa de caixas 3D.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Este artigo apresenta um framework de aprendizado contínuo livre de exemplares para geração de laudos patológicos a partir de imagens de lâminas inteiras, que utiliza "pegadas" de domínio compactas e um descritor de estilo linguístico para sintetizar representações e relatórios sintéticos, mitigando o esquecimento catastrófico e adaptando-se a novas instituições e convenções de relato sem a necessidade de armazenar dados históricos.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

O artigo propõe um framework multimodal end-to-end para classificação de séries DICOM que integra conteúdo de imagem e metadados através de atenção cruzada e aprendizado de dicionário, superando desafios como heterogeneidade de conteúdo, variabilidade de comprimento e metadados incompletos ou inconsistentes sem necessidade de imputação.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Este artigo propõe um modelo de difusão guiado pela incerteza de polarização que, ao integrar priores de modelos de difusão de texto para imagem e utilizar a incerteza para orientar a reconstrução de regiões de alto erro, supera as limitações dos métodos existentes na demosaicing de imagens de polarização colorida, resultando em uma recuperação precisa das características de polarização com alta fidelidade e percepção visual.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

O artigo apresenta o ReSeg-CLIP, um método de segmentação semântica de vocabulário aberto para dados de sensoriamento remoto que, sem necessidade de treinamento adicional, supera o estado da arte ao combinar máscaras hierárquicas do SAM para refinar a atenção do CLIP e uma composição de modelos baseada em pesos derivados da qualidade representacional de prompts de texto.

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs

Bandwidth-adaptive Cloud-Assisted 360-Degree 3D Perception for Autonomous Vehicles

Este artigo propõe uma abordagem de percepção 3D de 360 graus para veículos autônomos que utiliza comunicação V2X e modelos baseados em transformers para dividir dinamicamente o processamento entre a borda e a nuvem, otimizando a latência e a precisão da detecção de objetos através de compressão de recursos e adaptação às condições variáveis de largura de banda.

Faisal Hawladera, Rui Meireles, Gamal Elghazaly + 2 more2026-03-02🤖 cs.LG

Altitude-Aware Visual Place Recognition in Top-Down View

Este estudo propõe uma abordagem de reconhecimento visual de lugares aérea adaptativa à altitude que, sem necessidade de hardware adicional, estima a altitude relativa analisando a densidade de características do solo e aplica recortes de imagem para gerar consultas canônicas, alcançando assim maior precisão e robustez na localização de plataformas aéreas sob variações significativas de altitude em comparação com métodos tradicionais.

Xingyu Shao, Mengfan He, Chunyu Li + 2 more2026-03-02💻 cs

DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution

O artigo propõe o DACESR, um método que utiliza um Real Embedding Extractor (REE) para melhorar o reconhecimento em imagens degradadas e um Conditional Feature Modulator (CFM) para integrar essas informações em uma rede baseada em Mamba, alcançando resultados superiores em super-resolução de imagens do mundo real ao equilibrar fidelidade e qualidade perceptual.

Xiaoyan Lei, Wenlong Zhang, Biao Luo + 3 more2026-03-02💻 cs

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

O artigo apresenta o Ref-Adv, um novo benchmark para Compreensão de Expressões de Referência que supera as limitações de testes anteriores ao exigir raciocínio visual genuíno e evitar atalhos, revelando que os atuais Grandes Modelos de Linguagem Multimodais, embora performem bem em benchmarks tradicionais, falham significativamente em tarefas que demandam compreensão profunda e fundamentação visual.

Qihua Dong, Kuo Yang, Lin Ju + 6 more2026-03-02💬 cs.CL

Experience-Guided Self-Adaptive Cascaded Agents for Breast Cancer Screening and Diagnosis with Reduced Biopsy Referrals

O artigo propõe o BUSD-Agent, um framework de agentes em cascata guiado por experiência que utiliza memórias de casos anteriores para adaptar dinamicamente as decisões de triagem e diagnóstico em ultrassonografia mamária, reduzindo significativamente as encaminhamentos desnecessários para biópsia e melhorando a especificidade diagnóstica.

Pramit Saha, Mohammad Alsharid, Joshua Strong + 1 more2026-03-02🤖 cs.AI