cs.CV artigos | Gist.Science

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

O artigo apresenta o BioCAP, um modelo fundamental biológico que utiliza legendas sintéticas geradas por modelos de linguagem multimodal para superar a escassez de descrições textuais específicas, melhorando assim a classificação de espécies e a recuperação de imagens ao alinhar características visuais e textuais em um espaço latente compartilhado.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

O VoMP é um método feed-forward que prevê campos de propriedades mecânicas volumétricas (como módulo de Young, coeficiente de Poisson e densidade) para objetos 3D, utilizando um Transformer de Geometria treinado em um manifold de materiais fisicamente plausíveis e superando trabalhos anteriores em precisão e velocidade.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

O artigo apresenta o Concerto, um modelo de aprendizado auto-supervisionado minimalista que combina representações 2D e 3D para superar os métodos atuais na percepção de cenas 3D e permitir a percepção em mundo aberto através de alinhamento com espaço linguístico.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

O artigo apresenta o ProMoE, um novo framework de Mistura de Especialistas (MoE) para Transformadores de Difusão que supera as limitações atuais ao empregar um roteador em duas etapas com orientação explícita para especializar especialistas em tokens visuais, resultando em desempenho superior no benchmark ImageNet.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

O artigo apresenta o "Brain-IT", um método baseado em um Transformer de Interação Cerebral que reconstrói imagens a partir de dados de fMRI com alta fidelidade e eficiência, superando abordagens atuais e alcançando resultados comparáveis com apenas uma hora de dados de um novo sujeito.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Este trabalho propõe um método inovador que gera vídeos de rostos falantes em alta resolução exclusivamente a partir de uma única entrada de áudio, utilizando um modelo de difusão condicionado à fala com priores faciais e um módulo de refinamento regional para superar as limitações das abordagens existentes que dependem de imagens de referência.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

O artigo apresenta o ThinkMorph, um modelo unificado que demonstra propriedades emergentes de inteligência multimodal ao aprender a gerar raciocínios encadeados intercalados entre texto e imagem, resultando em ganhos significativos de desempenho e generalização em tarefas visuais.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Este estudo demonstra que a segmentação de imagens médicas segue uma lei de escala limitada pela geometria anatômica, onde o aumento de dados apresenta saturação precoce, mas o uso de aumentações baseadas em topologia melhora a eficiência amostral ao expandir a cobertura topológica efetiva sem alterar a estrutura fundamental da lei de escala.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

O artigo apresenta o VeCoR, uma técnica de regularização contrastiva que aprimora o Flow Matching ao adicionar supervisão negativa para evitar direções fora da variedade de dados, resultando em maior estabilidade e qualidade de imagem, especialmente em configurações leves e com poucos passos.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

O artigo apresenta o UltraViCo, um método gratuito e plug-and-play que supera os limites de extrapolação de vídeos em Transformers de Difusão ao identificar e corrigir a dispersão de atenção, eliminando repetições periódicas e degradação de qualidade para permitir a geração de vídeos com até quatro vezes a duração de treinamento.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

O artigo propõe o ReSAM, um framework de auto-prompting supervisionado por pontos que adapta o Segment Anything Model (SAM) para imagens de sensoriamento remoto através de um ciclo de refinamento, reconsulta e reforço, superando métodos existentes sem depender de anotações completas de máscaras.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

O artigo apresenta o InnoGym, o primeiro benchmark e framework projetado para avaliar sistematicamente o potencial de inovação de agentes de IA, introduzindo métricas de ganho de desempenho e novidade para medir não apenas a correção, mas também a originalidade das soluções em tarefas de engenharia e ciência.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

O artigo apresenta o AdaptVision, um modelo eficiente de visão e linguagem que, inspirado na visão ativa humana e utilizando otimização de política de turnos desacoplada (DTPO), determina autonomamente a quantidade mínima de tokens visuais necessários para cada tarefa, alcançando desempenho superior com menor custo computacional.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Este artigo apresenta o FARL, um novo framework que melhora a generalização em poucos exemplos de Modelos Visão-Linguagem ao utilizar análise de Fourier e um mecanismo de atenção cruzada para desentrelaçar explicitamente as características estruturais e estilísticas das imagens, resultando em uma alinhamento visão-linguagem mais robusto.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Este estudo apresenta um método de detecção de incêndios relacionados a conflitos no Sudão em quase tempo real, utilizando um modelo leve de Auto-Encoder Variacional (VAE) não supervisionado com imagens de satélite de 4 bandas, que supera técnicas tradicionais ao identificar áreas afetadas em 24 a 30 horas com alta precisão e recall.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Este estudo sistemático demonstra que, em cenários de adaptação contínua em tempo de teste, a escolha da família de mascaramento (espacial versus frequência) é determinante para a estabilidade do aprendizado, sendo o mascaramento espacial superior em arquiteturas baseadas em patches para evitar o colapso catastrófico, enquanto o mascaramento em frequência se torna competitivo em tarefas de alta granularidade com CNNs ou ViTs de grande capacidade.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

O artigo apresenta o Brain-Semantoks, um modelo de fundação auto-supervisionado que utiliza um tokenizador semântico e um objetivo de auto-distilação para aprender representações robustas da dinâmica cerebral a partir de séries temporais de fMRI, permitindo alto desempenho em tarefas downstream e ganhos de generalização com o aumento de dados não rotulados.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

O artigo apresenta o $\beta$ -CLIP, um framework de aprendizado contrastivo condicionado a texto que alinha representações visuais e textuais em múltiplas granularidades hierárquicas por meio de um mecanismo de atenção cruzada e uma nova função de perda ( $\beta$ -CAL), alcançando desempenho superior em tarefas de alinhamento denso e recuperação de imagens sem o uso de negativos difíceis.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

O artigo apresenta o CRISP, um método que recupera geometria de cena limpa e simulável a partir de vídeos monoculares, utilizando primitivas planares e modelagem de contato humano-cenário para gerar ambientes de interação fisicamente plausíveis que reduzem drasticamente as falhas no rastreamento de movimento e aceleram a simulação em RL.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

O artigo apresenta o SoFlow, um framework de modelos de fluxo de solução que permite a geração em um único passo com alta eficiência e desempenho superior ao do MeanFlow no ImageNet, utilizando uma perda de consistência que elimina a necessidade de cálculos complexos de produtos vetoriais-Jacobiano.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

← Anterior Próximo →

cs.CV