Remote Sensing Image Classification Using Deep Ensemble Learning

Este artigo propõe um modelo de ensemble que combina quatro fusões independentes de Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) para superar limitações de arquiteturas individuais, alcançando alta precisão na classificação de imagens de sensoriamento remoto com uso eficiente de recursos computacionais.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

O artigo apresenta o TumorChain, um framework de raciocínio intercalado multimodal e o conjunto de dados TumorCoT, que visam melhorar a precisão, a rastreabilidade e a confiabilidade da análise clínica de tumores por meio de um processo de inferência passo a passo que integra imagens 3D de TC e texto clínico.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

O artigo apresenta o PatchCue, um novo paradigma de pistas visuais baseado em patches que aprimora o raciocínio de modelos visão-linguagem ao alinhar-se com hábitos perceptivos humanos e superar abordagens anteriores baseadas em pixels ou pontos, resultando em melhor desempenho em diversas tarefas de compreensão multimodal.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

O artigo apresenta o MemSeg-Agent, um agente de segmentação de imagens médicas que substitui a adaptação no espaço de pesos por um espaço de memória, permitindo aprendizado com poucos exemplos, aprendizado federado eficiente e adaptação no momento do teste sem necessidade de ajuste fino dos parâmetros do modelo.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Este artigo apresenta uma avaliação sistemática da geração de vistas sintéticas para reconhecimento de lugares em vídeo (VPR), demonstrando que, embora pequenas adições de novas vistas melhorem as estatísticas de reconhecimento, para adições maiores o tipo de imagem e a quantidade de vistas são mais determinantes do que a magnitude da mudança de perspectiva.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

O artigo apresenta o CylinderSplat, um novo framework feed-forward que utiliza uma representação de triplanos cilíndricos e uma arquitetura de dupla ramificação para superar as limitações de distorção e oclusão na síntese de novas vistas panorâmicas 3D, alcançando resultados state-of-the-art tanto em cenários de visão única quanto múltipla.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

O artigo apresenta o InnoAds-Composer, um framework de estágio único que gera pôsteres de produtos para e-commerce com alta fidelidade ao controlar simultaneamente sujeito, texto e estilo, otimizando a eficiência computacional e melhorando a renderização de texto chinês.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Este artigo propõe três técnicas de mitigação de viés — filtragem top-k de conceitos, remoção de conceitos enviesados e desviés adversarial — para aprimorar a justiça em Modelos de Garrafa de Conceito (CBMs), superando trabalhos anteriores no equilíbrio entre desempenho e equidade na classificação de imagens.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

O artigo apresenta o CollabOD, um framework colaborativo leve que melhora a detecção de objetos pequenos em imagens de UAVs ao preservar detalhes estruturais, alinhar fluxos de características heterogêneas e otimizar o design para manter a eficiência computacional sem comprometer a robustez.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

O artigo propõe o Art3D, um novo paradigma de síntese de disparidade artística que, ao contrário dos métodos tradicionais focados apenas na precisão geométrica, utiliza uma arquitetura de duplo caminho e supervisão indireta para replicar a intenção criativa e os efeitos cinematográficos imersivos do cinema 3D profissional.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

O artigo apresenta o Pano3DComposer, um framework eficiente e feed-forward que gera cenas 3D composicionais de alta fidelidade a partir de uma única imagem panorâmica, superando limitações de métodos anteriores ao decoupar a geração de objetos da estimativa de layout por meio de um preditor de transformação objeto-mundo e um mecanismo de alinhamento do grosseiro ao fino.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

O artigo apresenta o CORE-Seg, um framework end-to-end que integra raciocínio e segmentação médica via aprendizado por reforço e uma nova base de dados de raciocínio (ComLesion-14K), alcançando resultados state-of-the-art na segmentação de lesões complexas ao superar os limites de modelos tradicionais e de linguagem multimodal.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

O artigo apresenta o BlackMirror, um framework de detecção de backdoors em modelos de texto-para-imagem em cenários de caixa-preta que identifica manipulações semânticas parciais estáveis através de um processo de alinhamento instrução-resposta e verificação de estabilidade, superando as limitações de métodos baseados apenas em similaridade visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI