AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

O AgrI Challenge é uma competição centrada em dados que introduz o paradigma de Validação entre Equipes (CTV) para avaliar a generalização de modelos de visão agrícola em cenários reais, demonstrando que o treinamento colaborativo com dados coletados independentemente por múltiplas equipes reduz significativamente as lacunas de generalização em comparação com o treinamento em fonte única.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

O estudo demonstra que, ao contrário da hipótese de que o aprendizado reduz a redundância para maior eficiência, o aprendizado de tarefas em macacos aumenta a redundância das respostas neurais no córtex visual V4, distribuindo informações de forma a aumentar a capacidade informativa de cada neurônio individual, o que sugere que o processamento sensorial reflete um processo de inferência generativa.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Este artigo apresenta o AQuA, um dataset de perguntas visuais ambíguas com quatro níveis de classificação e estratégias de resposta correspondentes, que permite o ajuste fino de Modelos de Linguagem Visuais para gerar respostas estratégicas e contextualmente apropriadas, superando os modelos existentes que tendem a fornecer respostas excessivamente confiantes em situações ambíguas.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

VIVECaption: A Split Approach to Caption Quality Improvement

O relatório técnico VIVECaption apresenta uma abordagem sistemática de dois lados para melhorar a qualidade das legendas em modelos generativos, combinando a criação de um conjunto de dados de referência com estratégias de alinhamento de modelo, a fim de superar as limitações dos modelos de linguagem visual e fornecer dados de treinamento de alta qualidade e livres de direitos autorais.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Este artigo propõe preencher a lacuna de conjuntos de dados de imagens dentárias focadas em um único dente com legendas, demonstrando que o uso de prompts orientados em Modelos Visão-Linguagem (VLMs) permite a geração eficaz de legendas descritivas para essas imagens, facilitando a criação de modelos com conhecimento holístico sobre os dentes.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

O artigo apresenta o UnSCAR, um novo paradigma de restauração de imagens universal que utiliza uma arquitetura de mistura de especialistas com múltiplos ramos para superar as limitações de escalabilidade e esquecimento catastrófico, permitindo o aprendizado estável de mais de dezesseis degradações, adaptação robusta a domínios não vistos e controle do usuário sobre o processo de restauração.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabalho apresenta o benchmark AndroidWorld-Generalization e um sistema de treinamento de aprendizado por reforço baseado em GRPO para avaliar e melhorar a generalização zero-shot de agentes móveis baseados em modelos de linguagem e visão, demonstrando ganhos significativos em instâncias não vistas, mas desafios persistentes na generalização para novos aplicativos e templates.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

O artigo apresenta o "Data Agent", um quadro de seleção de dados dinâmico e de ponta a ponta que formula a seleção como um problema de decisão sequencial orientada pelo treinamento, aprendendo uma política de amostragem que evolui junto com a otimização do modelo para acelerar o treinamento e reduzir custos em mais de 50% sem perda de desempenho em diversas tarefas e arquiteturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

O artigo apresenta o RPG-SAM, um framework de segmentação poliposa one-shot sem treinamento que supera as limitações de métodos existentes ao abordar a heterogeneidade regional e de resposta por meio de mineração de protótipos ponderados por confiabilidade e seleção adaptativa geométrica, resultando em uma melhoria de 5,56% no mIoU no conjunto de dados Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

O artigo apresenta o DogWeave, um framework baseado em modelo que reconstrói cães 3D de alta fidelidade a partir de uma única imagem RGB, refinando a geometria por meio de otimização de campos normais aprimorados por difusão e gerando texturas consistentes via inpainting condicional para superar desafios como oclusão e detalhes de pelagem.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

O artigo apresenta o Med-Evo, um framework pioneiro de auto-evolução para Modelos de Linguagem Multimodal Médica que utiliza aprendizado por reforço sem rótulos, combinando rotulagem pseudo baseada em características e recompensas híbridas, para melhorar o desempenho do modelo em dados de teste não rotulados sem depender de anotações adicionais.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

O artigo apresenta o SIGMAE, um modelo fundamental para imagens multiespectrais que supera as limitações dos métodos MAE tradicionais ao utilizar índices espectrais como prioridade para guiar um mascaramento dinâmico de tokens focado em regiões semanticamente ricas, resultando em representações espaciais-espectrais superiores e melhor desempenho em diversas tarefas de sensoriamento remoto com poucos dados rotulados.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Este artigo apresenta o conjunto de dados ThingiPrint e um método de classificação baseado em protótipos que utiliza modelos CAD para identificar objetos 3D impressos sem necessidade de retreinamento, viabilizando a automação pós-produção na manufatura aditiva.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs