cs.CV artigos | Gist.Science

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Este estudo apresenta o Garbage Dataset (GD), um novo conjunto de dados público com 12.259 imagens de 10 categorias de resíduos para treinar modelos de aprendizado profundo, demonstrando que o EfficientNetV2S alcança 95,13% de precisão e destacando desafios como desequilíbrio de classes e complexidade de fundo para a segregação automatizada de lixo.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

O artigo apresenta o EO-VAE, um autoencoder variacional multi-sensor que utiliza hiper-redes dinâmicas para codificar e reconstruir combinações flexíveis de canais em uma única modelo, superando os tokenizadores existentes e estabelecendo uma base robusta para a geração latente de dados de observação da Terra.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

O artigo apresenta o MedXIAOHE, um modelo fundacional médico multimodal de última geração que utiliza um framework de pré-treinamento contínuo orientado a entidades e treinamento com aprendizado por reforço para superar sistemas proprietários em raciocínio clínico, reduzir alucinações e melhorar a confiabilidade em aplicações reais.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

O artigo apresenta o UniTAF, um framework modular que integra modelos de texto-para-fala e áudio-para-rosto para facilitar a transferência de recursos internos e melhorar a consistência entre áudio e expressões faciais, validando a viabilidade de reutilizar representações intermediárias para o co-design de fala e expressão.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

O CRAFT-LoRA é um método que aprimora a geração de imagens personalizadas ao equilibrar fidelidade de conteúdo e consistência estilística, utilizando ajuste fino com restrição de rank, agregação de adaptadores guiada por prompts e uma estratégia de orientação sem treinamento adicional para garantir fusão estável e controle preciso.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

O artigo apresenta o CFE-Bench, um benchmark multimodal de raciocínio baseado em exames universitários autênticos que revela que, embora os modelos de ponta obtenham resultados moderados, eles ainda enfrentam dificuldades significativas em manter estados intermediários corretos e em eficiência de passos durante a resolução de problemas complexos de STEM.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

O artigo apresenta o TraqPoint, um novo framework de Aprendizado por Reforço que reformula a detecção de pontos-chave como um problema de decisão sequencial para otimizar diretamente a qualidade do rastreamento em sequências de imagens, superando métodos existentes que são treinados apenas em pares de imagens.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

O artigo apresenta o Concept Distillation Sampling (CDS), um framework unificado e sem necessidade de treinamento que supera as limitações linguísticas de métodos anteriores para permitir a edição de imagens com múltiplos conceitos, preservando a fidelidade da identidade e detalhes intrincados através da integração de um backbone de destilação estável e mecanismos de ponderação dinâmica.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

O artigo apresenta o Uni-Animator, um novo framework baseado em Diffusion Transformer que unifica a colorização de esboços em imagens e vídeos, superando limitações anteriores na transferência de cor, preservação de detalhes físicos e coerência temporal através de técnicas inovadoras como incorporação de patches de referência, reforço de detalhes físicos e codificação dinâmica RoPE baseada em esboços.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

O artigo apresenta o MedMAP, um framework de pré-treinamento consciente da modalidade que aprimora modelos de visão e linguagem para a detecção de anomalias em múltiplos órgãos em ressonância magnética 3D, utilizando o novo conjunto de dados MedMoM-MRI3D para superar os métodos existentes.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

O artigo apresenta o APPO, um algoritmo de otimização de política guiado por atenção que utiliza recompensas densas em nível de token para aprimorar a percepção de modelos de raciocínio em vídeo, demonstrando que melhorar a percepção é mais eficaz e econômico do que escalar a capacidade de raciocínio.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Este artigo relata o uso de tecnologias de Inteligência Artificial Generativa, como SAM2, Florence2 e ChatGPT, integradas a uma ontologia especializada, para segmentar e rotular automaticamente tratados históricos de construção naval dos séculos XVI e XVII, visando superar a escassez de dados e facilitar a curadoria e o acesso a esses documentos preciosos.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Este artigo apresenta o Lilium, um método evolutivo automatizado que aprimora a sobreposição crânio-facial na identificação forense ao modelar a variabilidade dos tecidos moles e otimizar parâmetros por meio de um algoritmo de evolução diferencial, superando assim os métodos atuais em precisão e robustez.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

O artigo apresenta o GLIDE-Reg, um método de registro deformável que combina características semânticas globais de fundação com descritores locais artesanais para superar a falta de robustez e generalização em diferentes resoluções e coberturas anatômicas, alcançando desempenho superior ao estado da arte em múltiplos conjuntos de dados de imagens médicas.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

O artigo propõe o IDER, um novo método de aprendizado contínuo baseado na propriedade de idempotência que, ao integrar uma distilação de idempotência e adaptar a função de perda, reduz o esquecimento catastrófico e melhora a confiabilidade das previsões sem aumentar significativamente a sobrecarga computacional.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

O artigo apresenta o BornoViT, um modelo Vision Transformer leve e eficiente com apenas 0,65 milhão de parâmetros, projetado para classificar caracteres manuscritos bengalis com alta precisão em ambientes com recursos limitados, superando abordagens existentes em termos de desempenho e otimização computacional.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

O artigo apresenta o ShiftLUT, um novo framework para restauração de imagens que combina um módulo de deslocamento espacial aprendível, uma arquitetura assimétrica de duplo ramo e uma estratégia de compressão de LUT para alcançar o maior campo receptivo entre métodos baseados em LUT, superando o estado da arte em desempenho e eficiência sem aumentar significativamente o custo computacional ou de armazenamento.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Este artigo apresenta o framework Multimodal Weight Predictor (MWP) e o conjunto de dados Waste-Weight-10K, que combinam imagens RGB com metadados físicos para estimar com precisão o peso de resíduos industriais e comerciais, alcançando alta acurácia e fornecendo explicações interpretáveis por meio de IA.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

O artigo apresenta o PreciseCache, um framework plug-and-play que acelera a geração de vídeo ao identificar e pular com precisão cálculos redundantes em nível de passo e bloco, alcançando uma aceleração significativa sem comprometer a qualidade visual.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

O artigo apresenta o FlowReg, um método de registro de imagens de ressonância magnética cardíaca não supervisionado baseado em correspondência de fluxo que supera o estado da arte em precisão e eficiência, permitindo inferência rápida em poucos passos e refinamento iterativo sem a necessidade de modelos pré-treinados ou rótulos de segmentação.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

← Anterior Próximo →