cs.CV artigos | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

O AgrI Challenge é uma competição centrada em dados que introduz o paradigma de Validação entre Equipes (CTV) para avaliar a generalização de modelos de visão agrícola em cenários reais, demonstrando que o treinamento colaborativo com dados coletados independentemente por múltiplas equipes reduz significativamente as lacunas de generalização em comparação com o treinamento em fonte única.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

O artigo apresenta o N-Tree Diffusion, um modelo de difusão hierárquico que otimiza a previsão probabilística de longo prazo de riscos de incêndio florestal ao compartilhar estágios iniciais de denoising e ramificar para refinamentos específicos, resultando em maior precisão e menor custo computacional em comparação com abordagens tradicionais.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

O estudo demonstra que, ao contrário da hipótese de que o aprendizado reduz a redundância para maior eficiência, o aprendizado de tarefas em macacos aumenta a redundância das respostas neurais no córtex visual V4, distribuindo informações de forma a aumentar a capacidade informativa de cada neurônio individual, o que sugere que o processamento sensorial reflete um processo de inferência generativa.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Este artigo apresenta o AQuA, um dataset de perguntas visuais ambíguas com quatro níveis de classificação e estratégias de resposta correspondentes, que permite o ajuste fino de Modelos de Linguagem Visuais para gerar respostas estratégicas e contextualmente apropriadas, superando os modelos existentes que tendem a fornecer respostas excessivamente confiantes em situações ambíguas.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Este artigo apresenta um modelo de gargalo de conceitos 3D que integra características morfológicas e hemodinâmicas para classificar aneurismas intracranianos com alta precisão e transparência clínica, superando as limitações de interpretabilidade dos modelos de caixa-preta tradicionais.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

O relatório técnico VIVECaption apresenta uma abordagem sistemática de dois lados para melhorar a qualidade das legendas em modelos generativos, combinando a criação de um conjunto de dados de referência com estratégias de alinhamento de modelo, a fim de superar as limitações dos modelos de linguagem visual e fornecer dados de treinamento de alta qualidade e livres de direitos autorais.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Este artigo propõe preencher a lacuna de conjuntos de dados de imagens dentárias focadas em um único dente com legendas, demonstrando que o uso de prompts orientados em Modelos Visão-Linguagem (VLMs) permite a geração eficaz de legendas descritivas para essas imagens, facilitando a criação de modelos com conhecimento holístico sobre os dentes.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

O artigo apresenta o UnSCAR, um novo paradigma de restauração de imagens universal que utiliza uma arquitetura de mistura de especialistas com múltiplos ramos para superar as limitações de escalabilidade e esquecimento catastrófico, permitindo o aprendizado estável de mais de dezesseis degradações, adaptação robusta a domínios não vistos e controle do usuário sobre o processo de restauração.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

O artigo apresenta o QdaVPR, um modelo inovador de reconhecimento visual de lugares que utiliza aprendizado adversário de duplo nível e supervisão por tripletos para alcançar desempenho state-of-the-art e agnóstico a domínios em cenários com variações significativas de estação, iluminação e clima.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

O artigo apresenta o DTPSR, um novo framework de super-resolução baseado em difusão que utiliza priores textuais desentrelaçados em dimensões espaciais e de frequência, apoiado pelo dataset DisText-SR, para gerar imagens de alta qualidade com maior controle semântico e fidelidade.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabalho apresenta o benchmark AndroidWorld-Generalization e um sistema de treinamento de aprendizado por reforço baseado em GRPO para avaliar e melhorar a generalização zero-shot de agentes móveis baseados em modelos de linguagem e visão, demonstrando ganhos significativos em instâncias não vistas, mas desafios persistentes na generalização para novos aplicativos e templates.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

O artigo apresenta o "Data Agent", um quadro de seleção de dados dinâmico e de ponta a ponta que formula a seleção como um problema de decisão sequencial orientada pelo treinamento, aprendendo uma política de amostragem que evolui junto com a otimização do modelo para acelerar o treinamento e reduzir custos em mais de 50% sem perda de desempenho em diversas tarefas e arquiteturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

O artigo apresenta o RPG-SAM, um framework de segmentação poliposa one-shot sem treinamento que supera as limitações de métodos existentes ao abordar a heterogeneidade regional e de resposta por meio de mineração de protótipos ponderados por confiabilidade e seleção adaptativa geométrica, resultando em uma melhoria de 5,56% no mIoU no conjunto de dados Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

O artigo apresenta o DogWeave, um framework baseado em modelo que reconstrói cães 3D de alta fidelidade a partir de uma única imagem RGB, refinando a geometria por meio de otimização de campos normais aprimorados por difusão e gerando texturas consistentes via inpainting condicional para superar desafios como oclusão e detalhes de pelagem.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

O artigo apresenta o Med-Evo, um framework pioneiro de auto-evolução para Modelos de Linguagem Multimodal Médica que utiliza aprendizado por reforço sem rótulos, combinando rotulagem pseudo baseada em características e recompensas híbridas, para melhorar o desempenho do modelo em dados de teste não rotulados sem depender de anotações adicionais.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

O artigo apresenta o SLNet, uma rede neural superleve e adaptativa para reconhecimento de nuvens de pontos 3D que, ao utilizar componentes inovadores como NAPE e GMU, alcança desempenho competitivo em diversas tarefas com uma fração significativa dos parâmetros e custo computacional de modelos existentes.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Este artigo oferece uma pesquisa abrangente sobre a evolução técnica dos modelos de geração de imagens, detalhando desde VAEs e GANs até métodos baseados em difusão, abordando também avanços na geração de vídeo e as questões de responsabilidade e robustez no seu uso.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

O artigo apresenta o SIGMAE, um modelo fundamental para imagens multiespectrais que supera as limitações dos métodos MAE tradicionais ao utilizar índices espectrais como prioridade para guiar um mascaramento dinâmico de tokens focado em regiões semanticamente ricas, resultando em representações espaciais-espectrais superiores e melhor desempenho em diversas tarefas de sensoriamento remoto com poucos dados rotulados.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Este artigo apresenta o MonoSTL, uma abordagem de aprendizado seletivo que supera as limitações da transferência negativa entre LiDAR e imagens na detecção 3D monocular, utilizando módulos de destilação de características e relações conscientes da incerteza de profundidade para alcançar o estado da arte em vários conjuntos de dados.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Este artigo apresenta o conjunto de dados ThingiPrint e um método de classificação baseado em protótipos que utiliza modelos CAD para identificar objetos 3D impressos sem necessidade de retreinamento, viabilizando a automação pós-produção na manufatura aditiva.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

← Anterior Próximo →