cs.CV artigos | Gist.Science

Questions beyond Pixels: Integrating Commonsense Knowledge in Visual Question Generation for Remote Sensing

Este artigo propõe o modelo KRSVQG, que integra conhecimento comum externo e legendagem de imagens para gerar perguntas ricas e diversificadas sobre imagens de sensoriamento remoto, superando as limitações dos métodos atuais baseados em templates e validado através de novos conjuntos de dados e avaliações humanas.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabalho apresenta um método de manipulação facial no espaço latente semântico de um gerador pré-treinado que, ao utilizar condicionamento dependente e projeção ortogonal para reduzir o entrelaçamento de atributos, gera dados sintéticos de alta qualidade para aumentar e equilibrar conjuntos de dados de Análise de Unidades de Ação (AU), melhorando significativamente a precisão e a robustez dos detectores de expressão facial com menos dados rotulados.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

Knowledge-aware Visual Question Generation for Remote Sensing Images

Este artigo apresenta o modelo KRSVQG, uma abordagem de geração de perguntas visuais para imagens de sensoriamento remoto que integra conhecimento externo e legendas de imagem para produzir perguntas mais ricas, diversificadas e contextualizadas, superando métodos existentes em dois conjuntos de dados anotados manualmente.

Siran Li, Li Mi, Javiera Castillo-Navarro + 1 more2026-02-24💻 cs

RegionRoute: Regional Style Transfer with Diffusion Model

O artigo apresenta o RegionRoute, um framework de difusão supervisionado por atenção que utiliza uma arquitetura LoRA-MoE e novas funções de perda para realizar transferência de estilo regional precisa e sem máscaras, superando as limitações de métodos existentes ao garantir a correspondência estilística em regiões específicas enquanto preserva a identidade do restante da imagem.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications

Este artigo apresenta o CORVET, um motor de processamento vetorial adaptável e eficiente em recursos para IA na borda, que utiliza unidades MAC baseadas em CORDIC e execução com precisão mista para alcançar alta taxa de transferência e eficiência energética em aplicações de IAoT.

Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande + 1 more2026-02-24⚡ eess

DD-CAM: Minimal Sufficient Explanations for Vision Models Using Delta Debugging

O artigo apresenta o DD-CAM, um framework sem gradiente que utiliza a técnica de *delta debugging* para identificar subconjuntos mínimos e suficientes de unidades de representação em modelos de visão computacional, gerando mapas de saliência mais fiéis e precisos do que os métodos baseados em CAM existentes.

Krishna Khadka, Yu Lei, Raghu N. Kacker + 1 more2026-02-24💻 cs

A Two-Stage Detection-Tracking Framework for Stable Apple Quality Inspection in Dense Conveyor-Belt Environments

Este artigo apresenta um framework de dois estágios que combina detecção YOLOv8, rastreamento ByteTrack e classificação ResNet18 para garantir inspeção de qualidade estável e temporalmente consistente de maçãs em esteiras rolantes industriais densas.

Keonvin Park, Aditya Pal, Jin Hong Mok2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Este artigo apresenta o MRI CEKWorld, um modelo de mundo que utiliza Aprendizado de Consistência Espaço-Temporal (STCL) para superar as limitações de baixa resolução temporal e amostragem esparsa na aquisição de ressonância magnética com contraste, gerando dinâmicas contínuas e realistas através de Aprendizado de Alinhamento Latente (LAL) para consistência estrutural e Aprendizado de Diferença Latente (LDL) para suavidade temporal.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs

WildOS: Open-Vocabulary Object Search in the Wild

O artigo apresenta o WildOS, um sistema unificado que combina exploração geométrica segura com raciocínio visual semântico baseado em modelos de fundação e localização por filtro de partículas para permitir que robôs naveguem de forma robusta e eficiente em busca de objetos com vocabulário aberto em ambientes externos complexos e não estruturados.

Hardik Shah, Erica Tevere, Deegan Atha + 6 more2026-02-24💻 cs

IPv2: An Improved Image Purification Strategy for Real-World Ultra-Low-Dose Lung CT Denoising

O artigo apresenta o IPv2, uma estratégia aprimorada de purificação de imagens que introduz três módulos essenciais para corrigir limitações anteriores, permitindo a remoção eficaz de ruído tanto no fundo quanto no parênquima pulmonar em tomografias computadorizadas de tórax ultra-baixa dose do mundo real.

Guoliang Gong, Man Yu2026-02-24🤖 cs.AI

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

O artigo apresenta o USR 2.0, um método de pseudo-rotulagem eficiente e robusto para reconhecimento unificado de fala que utiliza forçamento de professor baseado em CTC para reduzir o tempo de treinamento pela metade e melhorar a precisão em cenários fora da distribuição, superando os resultados anteriores.

Alexandros Haliassos, Rodrigo Mira, Stavros Petridis2026-02-24💻 cs

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

O artigo apresenta o US-JEPA, uma arquitetura de aprendizado auto-supervisionado que utiliza um objetivo de treinamento assimétrico com professor estático (SALT) para superar os desafios de ruído na imagem ultrassonográfica, demonstrando desempenho competitivo em comparação com modelos de fundação existentes no benchmark UltraBench.

Ashwath Radhachandran, Vedrana Ivezić, Shreeram Athreya + 3 more2026-02-24🤖 cs.LG

DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

O artigo "DefenseSplat" propõe uma estratégia de defesa baseada em filtragem sensível à frequência que, ao analisar e remover ruídos de alta frequência das imagens de entrada, aumenta significativamente a robustez do 3D Gaussian Splatting contra ataques adversariais sem comprometer o desempenho em dados limpos.

Yiran Qiao, Yiren Lu, Yunlai Zhou + 4 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

O estudo apresenta o RetinaVision, um sistema baseado em aprendizado profundo que utiliza a arquitetura Xception e técnicas de explicabilidade (XAI) para classificar com alta precisão (95,25%) doenças retinianas em imagens OCT, integrando essas capacidades em uma aplicação web para auxiliar no diagnóstico clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

O artigo apresenta o MultiDiffSense, um modelo de difusão unificado que gera imagens visuo-táteis sintéticas e alinhadas para múltiplos sensores, condicionadas à forma do objeto e à pose de contato, superando métodos anteriores e reduzindo a necessidade de coleta de dados reais para aplicações robóticas.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

O artigo apresenta o UP-Fuse, um novo framework de fusão LiDAR-câmera guiado por incerteza no espaço de visão de alcance que mantém a robustez na segmentação panóptica 3D mesmo sob degradação, descalibração ou falha dos sensores de câmera.

Rohit Mohan, Florian Drews, Yakov Miron + 2 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

O artigo apresenta o PoseCraft, um framework de difusão que utiliza tokens discretos para codificar marcos 3D e parâmetros de câmera, permitindo a síntese de avatares humanos fotorealistas com controle preciso de pose e viewpoint, superando as limitações de métodos existentes ao preservar detalhes de identidade e textura sem a necessidade de re-otimização para cada nova pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

O artigo apresenta o MentalBlackboard, um novo benchmark para avaliar a visualização espacial em modelos de linguagem e visão através de tarefas de doação de papel e perfuração, revelando que, apesar de alguns modelos alcançarem desempenho moderado em tarefas de generalização, eles ainda enfrentam dificuldades significativas na aplicação de transformações simétricas e no planejamento de etapas espaciais.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Referring Layer Decomposition

Este trabalho apresenta a tarefa de Decomposição de Camadas de Referência (RLD) e o conjunto de dados RefLade, que permitem a geração precisa de camadas RGBA a partir de uma única imagem e prompts flexíveis, superando as limitações das abordagens holísticas atuais para edição de imagens e geração composicional.

Fangyi Chen, Yaojie Shen, Lu Xu + 4 more2026-02-24💻 cs

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este artigo investiga a Hipótese da Representação Platônica em um cenário trimodal, revelando que, embora o alinhamento contrastivo entre séries temporais, visão e linguagem melhore com o aumento do modelo, ele é assimétrico (com séries temporais alinhando-se melhor à visão do que ao texto) e saturado pela densidade da informação, sugerindo que as imagens podem atuar como intermediárias eficazes entre séries temporais e linguagem.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

← Anterior Próximo →