cs.CV artigos | Gist.Science

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

O artigo apresenta o TextPecker, uma estratégia de aprendizado por reforço que utiliza um conjunto de dados com anotações de anomalias estruturais e um motor de síntese de edição de traços para superar as limitações dos modelos atuais na avaliação e otimização da renderização de texto visual, alcançando novos patamares de fidelidade estrutural e alinhamento semântico.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

O artigo apresenta o NORD, um modelo de Visão-Linguagem-Ação eficiente em dados que alcança desempenho competitivo na condução autônoma utilizando menos de 60% dos dados de treinamento e sem anotações de raciocínio, superando as limitações do GRPO padrão através da implementação do algoritmo Dr. GRPO para mitigar o viés de dificuldade.

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

O artigo propõe a Durian, uma normalização de grupo consciente da dificuldade que reorganiza amostras multimodais com base na complexidade perceptiva e incerteza de raciocínio para mitigar a instabilidade causada por recompensas extremas e melhorar o desempenho de modelos de linguagem multimodal.

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

O artigo apresenta o EndoDDC, um método inovador que utiliza modelos de difusão para integrar imagens, profundidade esparsa e características de gradiente, permitindo a reconstrução precisa de mapas de profundidade densos em ambientes endoscópicos complexos e superando as limitações de técnicas existentes relacionadas a texturas fracas e reflexos de luz.

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

O artigo propõe o CoLoGen, um quadro unificado de difusão que resolve o conflito de representações entre conceitos e localização por meio de uma aprendizagem progressiva e de um módulo de tecelagem de representações, permitindo a geração de imagens de alta qualidade sob diversas condições visuais.

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

O artigo apresenta o Solaris, um modelo de mundo de vídeo multijogador treinado em um novo sistema de coleta de dados automatizado para Minecraft, que supera as limitações de perspectivas únicas ao simular observações multiview consistentes e interações entre múltiplos agentes através de uma pipeline de treinamento inovadora.

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Este artigo apresenta um framework de pré-filtragem adaptativa que otimiza a busca por similaridade em alta dimensão ao alocar dinamicamente orçamentos computacionais com base em padrões de frequência de consultas e métricas de coerência de clusters, reduzindo significativamente o número de cálculos de distância sem comprometer a precisão ou a latência.

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

O artigo apresenta o CrossLLM-Mamba, um novo framework que utiliza codificadores Mamba bidirecionais para reformular a previsão de interações de RNA como um problema de alinhamento de espaço de estados, alcançando desempenho superior ao estado da arte na previsão de interações RNA-proteína, RNA-pequenas moléculas e RNA-RNA com complexidade computacional linear.

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

Este artigo demonstra que a introdução de novas funções de perda robustas durante o treinamento de modelos específicos para tarefas, utilizando características de modelos fundamentais em histopatologia, reduz a sensibilidade à variabilidade técnica e melhora a precisão, permitindo a aplicação clínica desses sistemas em dados do mundo real sem a necessidade de re-treinar os modelos fundamentais.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

Optimizing Neural Network Architecture for Medical Image Segmentation Using Monte Carlo Tree Search

Este artigo propõe o MNAS-Unet, um novo framework de segmentação de imagens médicas que integra a Busca de Arquitetura Neural com Monte Carlo Tree Search para otimizar dinamicamente a arquitetura, resultando em um modelo leve e preciso que supera os métodos existentes com maior eficiência de busca e menor consumo de recursos.

Liping Meng, Fan Nie, Yunyun Zhang + 1 more2026-02-27💻 cs

AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

O artigo apresenta o AeroDGS, um framework de *Gaussian Splatting* 4D guiado por física que supera as ambiguidades da reconstrução aérea monocular ao integrar módulos de elevação geométrica e otimização com priores físicos, alcançando resultados superiores em cenários dinâmicos reais e sintéticos.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

Enhancing Renal Tumor Malignancy Prediction: Deep Learning with Automatic 3D CT Organ Focused Attention

Este estudo apresenta um framework de aprendizado profundo com uma função de perda de atenção focada no órgão (OFA) que prevê a malignidade de tumores renais em imagens de TC 3D sem a necessidade de segmentação manual, alcançando desempenho superior aos modelos tradicionais e oferecendo uma abordagem mais eficiente para o diagnóstico clínico.

Zhengkang Fan, Chengkun Sun, Russell Terry + 2 more2026-02-27🤖 cs.AI

Vision Transformers Need More Than Registers

Este artigo identifica que os artefatos nos Vision Transformers (ViTs) decorrem de um comportamento de agregação preguiçosa, onde o modelo utiliza patches de fundo semanticamente irrelevantes como atalhos, e propõe uma solução que integra seletivamente as características dos patches ao token CLS para mitigar esse problema e melhorar o desempenho em diversos benchmarks e paradigmas de supervisão.

Cheng Shi, Yizhou Yu, Sibei Yang2026-02-27💻 cs

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

O artigo apresenta o MolFM-Lite, um modelo de aprendizado de máquina multimodal que integra representações 1D, 2D e 3D de moléculas através de mecanismos de atenção cruzada e ensembles de conformeros para prever propriedades moleculares com maior precisão do que abordagens unimodais.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read

O artigo apresenta o SimpleOCR, uma estratégia de treinamento plug-and-play que utiliza perguntas visualizadas para forçar modelos de linguagem multimodal a processar texto diretamente nas imagens, superando a "preguiça modal" e melhorando significativamente o desempenho em tarefas de OCR sem necessidade de modificações arquiteturais.

Yibo Peng, Peng Xia, Ding Zhong + 6 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Este artigo investiga a viabilidade de usar Modelos de Linguagem Multimodal (MLLMs) em dispositivos de borda para responder perguntas sobre memória episódica em tempo real, demonstrando que uma configuração local com GPU de consumo atinge 51,76% de precisão com baixa latência, oferecendo uma alternativa privada e competitiva às soluções baseadas em nuvem.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

O artigo apresenta o MammoWise, um pipeline local e reprodutível que utiliza modelos de linguagem visão (VLMs) de código aberto, aprimorados por técnicas como RAG e fine-tuning (QLoRA), para gerar relatórios de mamografia e realizar classificações médicas precisas, oferecendo uma alternativa privada e adaptável aos sistemas em nuvem.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

Space Syntax-guided Post-training for Residential Floor Plan Generation

Este artigo propõe o SSPT, uma abordagem de pós-treinamento que integra conhecimento de sintaxe espacial em modelos generativos de plantas residenciais através de um oráculo não diferenciável e técnicas de aprendizado por reforço, resultando em layouts com hierarquia funcional mais clara e domínio superior de espaços públicos.

Zhuoyang Jiang, Dongqing Zhang2026-02-27🤖 cs.LG

Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

O artigo apresenta o Pix2Key, um método de recuperação de imagens composta que utiliza dicionários visuais de vocabulário aberto e aprendizado auto-supervisionado para melhorar a correspondência de intenções e a diversidade dos resultados, superando as abordagens supervisionadas e zero-shot existentes.

Guoyizhe Wei, Yang Jiao, Nan Xi + 4 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Este artigo apresenta o HARU-Net, uma nova arquitetura de rede neural baseada em atenção híbrida e blocos residuais que supera os métodos atuais na remoção de ruído de imagens de tomografia computadorizada de feixe cônico (CBCT) de baixa dose, preservando bordas anatômicas com alta fidelidade e menor custo computacional.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

← Anterior Próximo →