cs.CV artigos | Gist.Science

Cross-Resolution Distribution Matching for Diffusion Distillation

O artigo apresenta a RMD (Cross-Resolution Distribution Matching Distillation), uma nova estrutura de destilação que preenche as lacunas de distribuição entre resoluções para permitir a geração de imagens e vídeos de alta fidelidade em poucos passos, alcançando acelerações de até 33,4 vezes no SDXL e 25,6 vezes no Wan2.1-14B.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

O artigo apresenta o Place-it-R1, um framework end-to-end que aproveita o raciocínio de Cadeia de Pensamento (CoT) de Modelos de Linguagem Multimodais (MLLMs) para orquestrar a inserção de objetos em vídeos, garantindo coerência física e causalidade ambiental através de um ciclo fechado de raciocínio e refinamento.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Este artigo demonstra que os modelos de linguagem e visão (VLMs) falham sistematicamente sob distorções de mistura espacial de cores, ao contrário dos humanos, e propõe pré-processamento inspirado na percepção humana como uma estratégia eficaz para melhorar sua robustez.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Este artigo apresenta o framework Virtual Treatment (VT), que utiliza modelos generativos multimodais e conscientes da dose para sintetizar imagens de TC de acompanhamento plausíveis e prever a evolução tumoral do câncer de pulmão não pequenas células durante a radioterapia, demonstrando que os modelos baseados em difusão superam as abordagens baseadas em GANs na geração de trajetórias anatômicas estáveis e clinicamente relevantes.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

O artigo apresenta o VLM-RobustBench, um benchmark abrangente que avalia a robustez de modelos visão-linguagem sob diversas distorções, revelando que, embora esses modelos sejam semanticamente fortes, eles são espacialmente frágeis, sofrendo quedas significativas de desempenho devido a transformações geométricas e de reamostragem, mesmo em baixos níveis de severidade visual.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

O artigo propõe o Reflective Flow Sampling (RF-Sampling), uma técnica de inferência sem treinamento e fundamentada teoricamente que melhora a qualidade e o alinhamento com o prompt em modelos de geração de imagens baseados em fluxo (como o FLUX) ao realizar uma ascensão de gradiente implícita no escore de alinhamento texto-imagem, preenchendo a lacuna deixada por métodos anteriores ineficazes nesses modelos.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

O artigo apresenta o FreeOcc, um pipeline de previsão de ocupação panorâmica sem treinamento que utiliza modelos fundacionais pré-treinados para recuperar semântica e geometria 3D a partir de imagens multiview, alcançando desempenho comparável a métodos supervisionados e estabelecendo novas bases para a compreensão de cenas 3D sem aprendizado.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Este artigo propõe um framework semi-supervisionado para segmentação de ultrassonografia mamária que utiliza modelos de linguagem-vision para gerar pseudo-rótulos sem treinamento e técnicas de refinamento de rótulos, alcançando desempenho comparável a modelos totalmente supervisionados com apenas 2,5% de dados anotados.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

O artigo apresenta o JOPP-3D, um framework de segmentação semântica de vocabulário aberto que alinha características de visão e linguagem entre imagens panorâmicas e nuvens de pontos 3D para permitir consultas em linguagem natural e alcançar resultados superiores ao estado da arte em ambos os domínios.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Este artigo apresenta um método para otimizar modelos de difusão 3D em imagens médicas, utilizando aprendizado por reforço com feedback multiescala para alinhar a geração sintética de ressonâncias magnéticas com critérios clínicos, resultando em melhorias significativas na qualidade das imagens e na eficácia de tarefas de classificação de tumores e doenças.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Making Training-Free Diffusion Segmentors Scale with the Generative Power

Este artigo propõe técnicas de agregação automática e reescalonamento por pixel para superar as limitações de escalabilidade dos segmentadores de difusão sem treinamento, permitindo que eles aproveitem melhor o poder generativo de modelos de difusão avançados para tarefas de segmentação semântica.

Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Longtao Huang, Qingming Huang2026-03-09💻 cs

Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

Este artigo propõe uma estrutura de duas etapas que combina aprendizado contrastivo supervisionado em alfabetos inventados com destilação de conhecimento para aprendizado auto-supervisionado em scripts históricos, permitindo a extração de representações de glifos que capturam tanto distinções claras quanto similaridades evolutivas latentes sem depender de relações de ground-truth.

Claire Roman, Philippe Meyer2026-03-09🤖 cs.AI

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Este artigo propõe o "Teste de Turing de Movimento" e o conjunto de dados HHMotion para avaliar a humanização de robôs humanoides com base apenas em informações cinemáticas, revelando que os movimentos robóticos ainda apresentam desvios perceptíveis em ações dinâmicas e que modelos de linguagem atuais são inadequados para essa tarefa, superados por uma nova abordagem de baseline simples.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

O artigo apresenta o CRIMSON, uma nova métrica baseada em LLM e fundamentada clinicamente para avaliar relatórios de radiologia de tórax, que incorpora contexto completo do paciente e ponderação por gravidade para priorizar erros clinicamente significativos, demonstrando forte alinhamento com o julgamento de radiologistas em benchmarks validados.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

O artigo apresenta o SpaCRD, um método de aprendizado por transferência que integra profundamente imagens de histologia e dados de transcriptômica espacial por meio de uma rede de atenção cruzada bidirecional, superando os métodos existentes na detecção precisa de regiões cancerígenas em diversos conjuntos de dados, plataformas e lotes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

O artigo apresenta a ALANet, uma rede neural adaptativa que remove reflexos complexos de imagens utilizando descrições linguísticas imprecisas por meio de estratégias de filtragem e otimização, validada pelo novo conjunto de dados CRLAV.

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Este artigo apresenta um novo framework supervisionado por pontos para segmentação temporal de ações humanas baseada em esqueleto, que utiliza dados multimodais e técnicas avançadas de pseudo-rotulagem para alcançar desempenho competitivo com apenas uma única frame rotulada por segmento de ação, reduzindo significativamente o custo de anotação em comparação com métodos totalmente supervisionados.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

O artigo apresenta o VG3S, um novo framework que integra capacidades geométricas de Fundamentos Visuais (VFMs) ao método de Gaussian Splatting para melhorar significativamente a precisão da previsão de ocupação semântica 3D em cenários de direção autônoma.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

O artigo apresenta o CoE, um framework de sumarização multimodal sem treinamento que utiliza um Grafo de Eventos Hierárquico para guiar um raciocínio estruturado em cadeia de eventos, superando os métodos atuais em precisão, interpretabilidade e generalização entre domínios.

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

O artigo apresenta o EntON, uma estratégia inovadora de densificação de vizinhança otimizada por Entropia Eigen em 3D Gaussian Splatting que utiliza características geométricas locais para alternar entre refinamento baseado em gradiente e densificação consciente da estrutura, resultando em reconstruções 3D com maior precisão geométrica e qualidade de renderização, ao mesmo tempo que reduz o número de Gaussianas e o tempo de treinamento.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

← Anterior Próximo →