cs.CV artigos | Gist.Science

Remote Sensing Image Classification Using Deep Ensemble Learning

Este artigo propõe um modelo de ensemble que combina quatro fusões independentes de Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) para superar limitações de arquiteturas individuais, alcançando alta precisão na classificação de imagens de sensoriamento remoto com uso eficiente de recursos computacionais.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation

O artigo apresenta o Cog2Gen3D, um framework de difusão guiado por cognição 3D que integra representações semânticas e geométricas absolutas em um grafo unificado para superar limitações de escala e coerência espacial, resultando na geração de objetos 3D fisicamente plausíveis e semanticamente fiéis.

Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan2026-03-09💻 cs

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

O artigo apresenta o VS3R, um framework inovador que combina reconstrução 3D feed-forward com modelos de difusão de vídeo generativos para superar o compromisso entre robustez geométrica e consistência de quadro completo, permitindo a estabilização de vídeo de alta fidelidade em cenários extremos sem necessidade de corte agressivo.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery

O artigo apresenta o MACRO, um agente médico autônomo que evolui dinamicamente ao descobrir e sintetizar novas ferramentas compostas a partir de experiências passadas, superando a rigidez dos sistemas estáticos e melhorando a precisão e a generalização na interpretação de imagens médicas.

Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou2026-03-09🤖 cs.AI

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

O artigo apresenta o TumorChain, um framework de raciocínio intercalado multimodal e o conjunto de dados TumorCoT, que visam melhorar a precisão, a rastreabilidade e a confiabilidade da análise clínica de tumores por meio de um processo de inferência passo a passo que integra imagens 3D de TC e texto clínico.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

O artigo apresenta o PatchCue, um novo paradigma de pistas visuais baseado em patches que aprimora o raciocínio de modelos visão-linguagem ao alinhar-se com hábitos perceptivos humanos e superar abordagens anteriores baseadas em pixels ou pontos, resultando em melhor desempenho em diversas tarefas de compreensão multimodal.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

O artigo apresenta o MemSeg-Agent, um agente de segmentação de imagens médicas que substitui a adaptação no espaço de pesos por um espaço de memória, permitindo aprendizado com poucos exemplos, aprendizado federado eficiente e adaptação no momento do teste sem necessidade de ajuste fino dos parâmetros do modelo.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Este artigo apresenta uma avaliação sistemática da geração de vistas sintéticas para reconhecimento de lugares em vídeo (VPR), demonstrando que, embora pequenas adições de novas vistas melhorem as estatísticas de reconhecimento, para adições maiores o tipo de imagem e a quantidade de vistas são mais determinantes do que a magnitude da mudança de perspectiva.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

O artigo apresenta o CylinderSplat, um novo framework feed-forward que utiliza uma representação de triplanos cilíndricos e uma arquitetura de dupla ramificação para superar as limitações de distorção e oclusão na síntese de novas vistas panorâmicas 3D, alcançando resultados state-of-the-art tanto em cenários de visão única quanto múltipla.

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi2026-03-09💻 cs

PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

O artigo apresenta o PixARMesh, um método inovador que reconstrói cenas 3D completas e prontas para uso artístico diretamente de uma única imagem RGB, gerando malhas coerentes e de alta fidelidade em uma única passagem através de um processo autoregressivo que unifica a previsão de layout e geometria.

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu2026-03-09🤖 cs.LG

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

O artigo apresenta o InnoAds-Composer, um framework de estágio único que gera pôsteres de produtos para e-commerce com alta fidelidade ao controlar simultaneamente sujeito, texto e estilo, otimizando a eficiência computacional e melhorando a renderização de texto chinês.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Este artigo propõe três técnicas de mitigação de viés — filtragem top-k de conceitos, remoção de conceitos enviesados e desviés adversarial — para aprimorar a justiça em Modelos de Garrafa de Conceito (CBMs), superando trabalhos anteriores no equilíbrio entre desempenho e equidade na classificação de imagens.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal2026-03-09🤖 cs.LG

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

O artigo apresenta o CollabOD, um framework colaborativo leve que melhora a detecção de objetos pequenos em imagens de UAVs ao preservar detalhes estruturais, alinhar fluxos de características heterogêneas e otimizar o design para manter a eficiência computacional sem comprometer a robustez.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

O artigo propõe o Art3D, um novo paradigma de síntese de disparidade artística que, ao contrário dos métodos tradicionais focados apenas na precisão geométrica, utiliza uma arquitetura de duplo caminho e supervisão indireta para replicar a intenção criativa e os efeitos cinematográficos imersivos do cinema 3D profissional.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

O artigo apresenta o Pano3DComposer, um framework eficiente e feed-forward que gera cenas 3D composicionais de alta fidelidade a partir de uma única imagem panorâmica, superando limitações de métodos anteriores ao decoupar a geração de objetos da estimativa de layout por meio de um preditor de transformação objeto-mundo e um mecanismo de alinhamento do grosseiro ao fino.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

O artigo apresenta o CORE-Seg, um framework end-to-end que integra raciocínio e segmentação médica via aprendizado por reforço e uma nova base de dados de raciocínio (ComLesion-14K), alcançando resultados state-of-the-art na segmentação de lesões complexas ao superar os limites de modelos tradicionais e de linguagem multimodal.

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

O artigo apresenta o BlackMirror, um framework de detecção de backdoors em modelos de texto-para-imagem em cenários de caixa-preta que identifica manipulações semânticas parciais estáveis através de um processo de alinhamento instrução-resposta e verificação de estabilidade, superando as limitações de métodos baseados apenas em similaridade visual.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

O artigo propõe o RAC (Rectified Flow Auto Coder), um modelo que substitui os VAEs tradicionais utilizando um fluxo retificado para permitir inferência bidirecional, refinamento passo a passo e correção de variáveis latentes, superando os melhores modelos existentes em qualidade de reconstrução e geração com cerca de 70% menos custo computacional.

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

Este artigo apresenta o RAID, um grande conjunto de dados anotado para pesquisa sobre percepção de risco de motoristas, e propõe um framework de identificação de objetos de risco supervisionado fracamente que supera os métodos existentes ao modelar a relação entre manobras intencionais e respostas do motorista.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

O artigo apresenta o TAR-ViTPose, um novo modelo de Vision Transformer que aprimora a estimativa de pose humana em vídeos ao agregar e restaurar temporalmente informações entre quadros, superando as limitações de métodos estáticos e alcançando desempenho superior e maior eficiência computacional.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

← Anterior Próximo →