cs.CV artigos | Gist.Science

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta pesquisa oferece uma visão geral estruturada sobre como os modelos de linguagem multimodais estão transformando o ciclo de vida científico, abrangendo desde a descoberta e experimentação até a geração de conteúdo e avaliação, ao mesmo tempo que discute técnicas, tendências, desafios éticos e o potencial de integração em futuros sistemas de "IA para Ciência".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Escaping The Big Data Paradigm in Self-Supervised Representation Learning

Este artigo apresenta o SCOTT, uma arquitetura de tokenização rasa que combina viéses convolucionais com uma estrutura MIM-JEPA, permitindo que modelos Vision Transformers aprendam representações robustas a partir de zero em regimes de dados escassos, desafiando a necessidade de grandes conjuntos de dados e recursos computacionais massivos para aprendizado de representação em visão computacional.

Carlos Vélez García, Miguel Cazorla, Jorge Pomares2026-03-09💻 cs

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers

O artigo apresenta o NAMI, um modelo de Transformer baseado em fluxo retificado que utiliza uma abordagem progressiva e em cascata espacial com um módulo BridgeFlow para gerar imagens de alta resolução com 64% menos tempo de inferência, mantendo a qualidade e introduzindo o benchmark NAMI-1K para avaliação.

Yuhang Ma, Bo Cheng, Shanyuan Liu, Hongyi Zhou, Liebucha Wu, Dawei Leng, Yuhui Yin2026-03-09💻 cs

ECLARE: Efficient cross-planar learning for anisotropic resolution enhancement

O artigo apresenta o ECLARE, um método de super-resolução auto-supervisionado que melhora a resolução de volumes de ressonância magnética anisotrópica ao estimar o perfil da fatia e aprender mapeamentos intra-volumes, superando métodos existentes em recuperação de sinal e tarefas subsequentes sem sofrer de deslocamento de domínio.

Samuel W. Remedios, Shuwen Wei, Shuo Han, Jinwei Zhang, Aaron Carass, Kurt G. Schilling, Dzung L. Pham, Jerry L. Prince, Blake E. Dewey2026-03-09💻 cs

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

O artigo apresenta o EarthScape, um conjunto de dados multimodal pronto para IA que integra elevação, imagens aéreas e dados vetoriais para automatizar e escalar o mapeamento geológico superficial, demonstrando que as características do terreno oferecem o sinal preditivo mais confiável em comparação com dados espectros e de elevação brutos.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artigo apresenta um conjunto de testes baseados em medições psicofísicas da visão de baixo nível para avaliar a capacidade de métricas de qualidade de imagem e vídeo em capturar aspectos fundamentais da percepção humana, revelando limitações e comportamentos específicos de 34 métricas existentes que não são facilmente observados em protocolos de avaliação padrão.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

O artigo apresenta o FindAnything, um framework de mapeamento em mundo aberto que integra informações visuais e linguísticas em submapas volumétricos centrados em objetos, permitindo uma compreensão semântica escalável e eficiente em termos de memória e tempo para exploração robótica em ambientes desconhecidos.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

O artigo apresenta o GenCLIP, um novo framework para detecção de anomalias zero-shot que supera desafios de generalização e estabilidade ao integrar prompts gerais com dicas visuais de múltiplas camadas e uma estratégia de inferência de dupla ramificação, complementada por um mecanismo adaptativo de filtragem de prompts textuais.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

Este artigo apresenta o EVA, um novo framework de aprendizado de características assíncronas inspirado em modelos de linguagem que supera métodos anteriores em tarefas de reconhecimento e detecção, permitindo o processamento eficiente e expressivo de dados de câmeras de eventos.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

O artigo apresenta o BusterX, um modelo baseado em MLLM com treinamento por RL que detecta e explica falsificações em vídeos gerados por IA, apoiado pelo novo conjunto de dados GenBuster-200K e pelo benchmark GenBuster-Bench para superar as limitações atuais em precisão e interpretabilidade.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

O artigo apresenta o DVD-Quant, um framework de quantização sem dados para Transformadores de Difusão em Vídeo que, através de três inovações técnicas, permite a aceleração de modelos com quantização de 4 bits sem comprometer a qualidade visual.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

O artigo apresenta o Alchemist, um novo método e um conjunto de dados de ajuste fino supervisionado compacto (3.350 amostras) derivado de dados públicos de texto para imagem, que utiliza um modelo generativo pré-treinado como estimador para selecionar amostras de alto impacto, resultando em melhorias significativas na qualidade estética e alinhamento de cinco modelos públicos sem comprometer a diversidade.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Este artigo propõe um novo framework de Condensação de Dados de Instância (IDC) para Super-Resolução de Imagens, que utiliza extração de características de Fourier local aleatória e correspondência de distribuição de características em múltiplos níveis para gerar um conjunto de dados sintético condensado (10% do DIV2K) que alcança desempenho comparável ao conjunto original completo ao treinar modelos de super-resolução.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

O artigo apresenta o VisioMath, um novo benchmark de 1.800 problemas matemáticos do ensino fundamental e médio que avaliam a capacidade de raciocínio comparativo de Modelos Multimodais Grandes (LMMs) ao distinguir diagramas visualmente similares, revelando que falhas frequentes decorrem de desalinhamento entre imagem e texto e demonstrando que estratégias de alinhamento podem melhorar significativamente o desempenho desses modelos.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

O artigo apresenta o VisualPrompter, um framework de engenharia de prompts sem treinamento que utiliza um módulo de auto-reflexão visual e otimização semântica granular para alinhar melhor as imagens geradas com as descrições do usuário, alcançando desempenho de ponta em benchmarks de alinhamento texto-imagem.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

O artigo propõe o SPoT, uma estratégia inovadora de tokenização que posiciona tokens continuamente dentro das imagens, superando as limitações das grades discretas e permitindo que os Vision Transformers explorem regimes de esparsidade para obter ganhos significativos de desempenho e eficiência.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

O artigo apresenta o SPARC, um novo framework que utiliza autoencoders esparsos alinhados para criar um espaço latente unificado e compartilhado entre diferentes arquiteturas e modalidades de IA, permitindo a comparação direta de conceitos de alto nível e habilitando aplicações como localização espacial guiada por texto e recuperação cruzada.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

O artigo apresenta o Token Bottleneck (ToBo), um pipeline de aprendizado auto-supervisionado que comprime cenas dinâmicas em um único token compacto para prever cenas subsequentes, demonstrando superioridade em tarefas de compreensão sequencial como rastreamento visual e manipulação robótica tanto em ambientes simulados quanto no mundo real.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

O artigo apresenta o NarrLV, o primeiro benchmark abrangente para avaliar a capacidade de expressão narrativa em modelos de geração de vídeos longos, introduzindo o conceito de "Temporal Narrative Atom" e uma métrica baseada em MLLM que supera as limitações dos benchmarks atuais ao alinhar-se com julgamentos humanos.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

O artigo apresenta o TomatoMAP, um dataset abrangente de imagens de tomate com anotações detalhadas e protocolos padronizados, validado por um framework de aprendizado profundo que demonstra desempenho comparável a especialistas humanos na fenotipagem de precisão.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

← Anterior Próximo →