cs.CV artigos | Gist.Science

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

O artigo apresenta o OmniCT, um modelo unificado de visão e linguagem para análise de tomografia computadorizada que integra características de fatias e volumes para superar as limitações existentes na consistência espacial e granularidade, oferecendo desempenho superior em tarefas clínicas e estabelecendo um novo paradigma para a compreensão de imagens médicas.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

O artigo apresenta o Prefer-DAS, um modelo inovador de segmentação adaptativa de domínio para microscopia eletrônica que supera as limitações das estratégias não supervisionadas ao integrar prompts esparsos e otimização de preferência local, alcançando desempenho superior ou comparável a modelos supervisionados com mínima anotação humana.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

O artigo apresenta o Hepato-LLaVA, um modelo de linguagem multimodal especializado que utiliza um mecanismo de atenção "Sparse Topo-Pack" para analisar imagens de lâminas inteiras de carcinoma hepatocelular com alta precisão, apoiado pelo novo conjunto de dados clínico HepatoPathoVQA.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Este artigo apresenta um modelo explicativo para segmentação de imagens médicas baseado em raciocínio causal, que utiliza o efeito médio do tratamento (ATE) para quantificar a influência de regiões de entrada e componentes da rede, demonstrando maior fidelidade nas explicações e revelando heterogeneidade nas estratégias perceptivas de diferentes modelos.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

O artigo propõe o Dataset Color Quantization (DCQ), um quadro unificado que comprime conjuntos de dados de imagem ao reduzir a redundância no espaço de cores enquanto preserva informações semanticamente importantes para o treinamento de modelos, demonstrando melhor desempenho em diversas bases de dados sob compressão agressiva.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabalho propõe o Visual Instruction Injection (VII), um framework de jailbreak sem treinamento e transferível que explora a capacidade de seguir instruções visuais em modelos de geração de imagem para vídeo, disfarçando intenções maliciosas de prompts de texto inseguros como instruções visuais benignas em imagens de referência para induzir a geração de conteúdo nocivo com alta taxa de sucesso.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

O artigo apresenta o HorizonForge, um framework unificado que utiliza Splats Gaussianos e Malhas combinados com difusão de vídeo para gerar cenas de direção fotorealistas e editáveis com controle preciso sobre trajetórias e veículos, superando os métodos existentes em fidelidade e consistência temporal.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

Os autores propõem os mapas de Interação Luz-Geometria (LGI), uma nova representação que codifica a oclusão sensível à luz a partir de mapas de profundidade monoculares, permitindo um pipeline unificado para geração conjunta de sombras e realimentação de iluminação que supera as limitações de métodos anteriores ao garantir consistência física e realismo em imagens sintéticas e reais.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

O artigo apresenta o PhotoAgent, um sistema autônomo de edição fotográfica que utiliza planejamento estético explícito e busca em árvore para decompor tarefas complexas e refinar resultados iterativamente, validado por um novo benchmark chamado UGC-Edit que demonstra superioridade em aderência a instruções e qualidade visual em comparação com métodos existentes.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

O artigo apresenta o OmniGAIA, um novo benchmark para avaliar agentes de IA omni-modais, e o OmniAtlas, um agente fundacional nativo capaz de raciocínio complexo e uso de ferramentas integrando visão, áudio e linguagem para interações do mundo real.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

O artigo apresenta o HELMLAB, um espaço de cor analítico e orientado por dados com 72 parâmetros projetado para sistemas de design de interface, que supera o CIEDE2000 na precisão da distância perceptual ao incorporar correções de Fourier, ajustes Helmholtz-Kohlrausch e neutralidade garantida, oferecendo também utilitários para mapeamento de gamut e adaptação a temas claros e escuros.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

O artigo apresenta o AgentVista, um novo benchmark que avalia agentes multimodais gerais em cenários visuais realistas e complexos, exigindo uso híbrido de ferramentas e raciocínio de longo prazo, revelando lacunas significativas no desempenho dos modelos mais avançados atuais.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

O artigo apresenta o V-MORALS, um método que utiliza ferramentas topológicas em um espaço latente aprendido a partir de trajetórias baseadas em imagens para estimar Regiões de Atração (ROA) em sistemas robóticos sem depender do conhecimento completo do estado ou de modelos dinâmicos pré-definidos.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

Os autores propõem a HMKGN, uma rede gráfica hierárquica e multi-escala que utiliza atenção guiada por conhecimento para modelar relações espaciais e interações multi-escala em imagens de lâminas inteiras, superando os métodos existentes na previsão de sobrevivência do câncer em múltiplos coortes do TCGA.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

O artigo apresenta o sistema AoE, uma solução de baixo custo e escalável que utiliza smartphones montados no pescoço e uma arquitetura colaborativa entre nuvem e dispositivo para coletar e processar dados de interação egocêntrica em larga escala, visando superar a escassez de dados para o treinamento de modelos fundamentais de IA corporificada.

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Este estudo demonstra que, na detecção de Parkinson prodromal baseada em fMRI com extrema escassez de dados, a avaliação rigorosa ao nível de sujeito revela que redes neurais convolucionais leves, como o MobileNet, generalizam melhor do que arquiteturas profundas, evitando o vazamento de informações e a superestimação de desempenho comuns em divisões ao nível de imagem.

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Este artigo apresenta o Framework Certainty-Validity (CVS), uma nova métrica diagnóstica para sistemas de compromisso discreto que identifica e combate a falha de "confiança incorreta" (hallucinação) ao priorizar a distinção entre certeza e validade, demonstrando que a recusa do modelo em comprometer-se com dados ambíguos é uma característica desejável que deve ser preservada para evitar o sobreajuste benigno.

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

Este artigo apresenta uma ferramenta de código aberto que automatiza a verificação de qualidade de dados de sensores para veículos ferroviários, detectando nove erros comuns com alta precisão para reduzir o trabalho manual e acelerar o desenvolvimento de sistemas de condução autônoma.

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

Este artigo apresenta o MMCoT, um framework de baixo custo baseado em modelos de linguagem visuais e raciocínio modular em cadeia que melhora significativamente a pré-avaliação automatizada de Certificados de Desempenho Energético (EPC) em cenários com dados limitados.

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

O artigo apresenta o VoxelDiffusionCut, um método que utiliza um modelo de difusão para estimar iterativamente a estrutura interna de objetos a partir de superfícies de corte observadas e planejar cortes não destrutivos para a extração segura de componentes-alvo, superando as limitações de incerteza e colapso de modos de modelos generativos convencionais.

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

← Anterior Próximo →