cs.CV artigos | Gist.Science

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

O artigo propõe o ReSAM, um framework de auto-prompting supervisionado por pontos que adapta o Segment Anything Model (SAM) para imagens de sensoriamento remoto através de um ciclo de refinamento, reconsulta e reforço, superando métodos existentes sem depender de anotações completas de máscaras.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

O artigo apresenta o InnoGym, o primeiro benchmark e framework projetado para avaliar sistematicamente o potencial de inovação de agentes de IA, introduzindo métricas de ganho de desempenho e novidade para medir não apenas a correção, mas também a originalidade das soluções em tarefas de engenharia e ciência.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

O artigo apresenta o AdaptVision, um modelo eficiente de visão e linguagem que, inspirado na visão ativa humana e utilizando otimização de política de turnos desacoplada (DTPO), determina autonomamente a quantidade mínima de tokens visuais necessários para cada tarefa, alcançando desempenho superior com menor custo computacional.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artigo apresenta o FARL, um novo framework que melhora a generalização em poucos exemplos de Modelos Visão-Linguagem ao utilizar análise de Fourier e um mecanismo de atenção cruzada para desentrelaçar explicitamente as características estruturais e estilísticas das imagens, resultando em uma alinhamento visão-linguagem mais robusto.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudo apresenta um método de detecção de incêndios relacionados a conflitos no Sudão em quase tempo real, utilizando um modelo leve de Auto-Encoder Variacional (VAE) não supervisionado com imagens de satélite de 4 bandas, que supera técnicas tradicionais ao identificar áreas afetadas em 24 a 30 horas com alta precisão e recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudo sistemático demonstra que, em cenários de adaptação contínua em tempo de teste, a escolha da família de mascaramento (espacial versus frequência) é determinante para a estabilidade do aprendizado, sendo o mascaramento espacial superior em arquiteturas baseadas em patches para evitar o colapso catastrófico, enquanto o mascaramento em frequência se torna competitivo em tarefas de alta granularidade com CNNs ou ViTs de grande capacidade.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

O artigo apresenta o Brain-Semantoks, um modelo de fundação auto-supervisionado que utiliza um tokenizador semântico e um objetivo de auto-distilação para aprender representações robustas da dinâmica cerebral a partir de séries temporais de fMRI, permitindo alto desempenho em tarefas downstream e ganhos de generalização com o aumento de dados não rotulados.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

O artigo apresenta o $\beta$ -CLIP, um framework de aprendizado contrastivo condicionado a texto que alinha representações visuais e textuais em múltiplas granularidades hierárquicas por meio de um mecanismo de atenção cruzada e uma nova função de perda ( $\beta$ -CAL), alcançando desempenho superior em tarefas de alinhamento denso e recuperação de imagens sem o uso de negativos difíceis.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

O artigo apresenta o CRISP, um método que recupera geometria de cena limpa e simulável a partir de vídeos monoculares, utilizando primitivas planares e modelagem de contato humano-cenário para gerar ambientes de interação fisicamente plausíveis que reduzem drasticamente as falhas no rastreamento de movimento e aceleram a simulação em RL.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

O artigo apresenta o SoFlow, um framework de modelos de fluxo de solução que permite a geração em um único passo com alta eficiência e desempenho superior ao do MeanFlow no ImageNet, utilizando uma perda de consistência que elimina a necessidade de cálculos complexos de produtos vetoriais-Jacobiano.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Este trabalho apresenta um quadro abrangente de IA interpretável que integra imagens clínicas e histórico familiar para aprimorar o diagnóstico dermatológico, com validação preliminar por profissionais de saúde e planos para futuros ensaios clínicos prospectivos.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

O artigo apresenta o GeoTeacher, um método de detecção 3D semi-supervisionada que melhora a capacidade dos modelos de capturar relações geométricas de objetos através de uma supervisão baseada em pontos-chave e uma estratégia de aumento de dados em voxels com mecanismo de decaimento de distância, alcançando resultados state-of-the-art nos conjuntos de dados ONCE e Waymo.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

O artigo propõe o método ForCM, que integra Análise de Imagem Baseada em Objetos (OBIA) com modelos de Deep Learning aplicados a imagens Sentinel-2, demonstrando que essa abordagem híbrida supera os métodos tradicionais de OBIA na precisão do mapeamento de cobertura florestal na Amazônia.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

O artigo apresenta o CEM, um plugin plug-and-play que otimiza a fidelidade na aceleração de Transformers de Difusão (DiT) através da minimização do erro cumulativo, utilizando um algoritmo de programação dinâmica para adaptar dinamicamente as estratégias de cache e superar o desempenho de geração de modelos existentes.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

Este artigo propõe as PiNets, um novo framework de aprendizado profundo baseado no princípio de legibilidade do modelo, que garante explicações alinhadas e fiáveis às previsões reais da rede neural, superando as limitações de racionalização dos métodos de atribuição de características tradicionais.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

O TP-Blend é uma estrutura leve e sem treinamento que combina dois prompts textuais distintos para realizar a fusão precisa de objetos e estilos em modelos de difusão, utilizando os mecanismos de fusão de atenção de objetos (CAOF) e fusão de estilo (SASF) para gerar edições fotorealistas de alta resolução com controle simultâneo sobre conteúdo e aparência.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

O artigo apresenta o método Copy-Transform-Paste, uma abordagem zero-shot que otimiza a pose relativa entre duas malhas 3D utilizando gradientes do CLIP e um renderizador diferenciável, complementados por restrições geométricas e de linguagem, para gerar alinhamentos semânticos e fisicamente plausíveis sem necessidade de treinamento prévio.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Este artigo apresenta o Perceptual Counterfactual Geodesics (PCG), um método que gera explicações contrafactuais semântica e visualmente válidas traçando geodésicas em um espaço latente com métrica riemanniana perceptual, superando as limitações de abordagens existentes que produzem artefatos fora da variedade ou colapsos adversariais.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Este artigo propõe um novo paradigma para detecção de anomalias baseado na compatibilidade entre sujeito e contexto, introduzindo o benchmark CAAD-3K e um framework de aprendizado que supera os métodos existentes ao modelar anomalias como dependências contextuais em vez de propriedades intrínsecas.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

← Anterior Próximo →

cs.CV