cs.CV artigos | Gist.Science

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

O artigo apresenta o SOLACE, um framework de pós-treinamento para geração de texto-imagem que utiliza recompensas intrínsecas baseadas na autoconfiança do modelo para otimização não supervisionada, resultando em melhorias na geração composicional, renderização de texto e alinhamento, além de mitigar a exploração de recompensas quando combinado com sinais externos.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

O artigo apresenta o Dr. Occ, um framework de previsão de ocupação 3D que utiliza um transformador guiado por profundidade para alinhamento geométrico preciso e um transformador de especialistas guiado por região para lidar com desequilíbrios espaciais, alcançando desempenho superior no benchmark Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

O artigo apresenta o FreeAct, um novo framework de quantização para Modelos de Linguagem de Grande Escala que supera as limitações das transformações estáticas ao utilizar matrizes de transformação específicas para cada tipo de token, adaptando-se dinamicamente às disparidades nas ativações e melhorando significativamente o desempenho em modelos multimodais e de difusão.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

O artigo apresenta o Kiwi-Edit, uma nova arquitetura unificada e um pipeline escalável de geração de dados que, ao criar o conjunto de dados RefVIE, supera as limitações atuais na edição de vídeo baseada em instruções, permitindo um controle visual preciso e fiel através da combinação de instruções textuais e referências visuais.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

O artigo apresenta o Track4World, um modelo feedforward inovador que realiza o rastreamento 3D denso e eficiente de todos os pixels em um sistema de coordenadas centrado no mundo, superando métodos anteriores na estimativa de fluxo e reconstrução 4D a partir de vídeos monoculares.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

O artigo apresenta o PVT-GDLA, um decodificador baseado em Transformer que utiliza Atenção Linear Diferencial Portada (GDLA) para alcançar segmentação médica de alta fidelidade com complexidade linear, superando as limitações de custo computacional e diluição de atenção de modelos anteriores ao preservar bordas anatômicas precisas e dependências de longo alcance de forma eficiente.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

O artigo apresenta o MultiShadow, um método baseado em modelos de difusão que utiliza caminhos de imagem e texto para gerar sombras fisicamente plausíveis e geometricamente consistentes para múltiplos objetos inseridos em uma cena, superando as limitações das abordagens existentes focadas em objetos únicos.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

O artigo apresenta o IoUCert, um novo framework de verificação formal que supera as limitações existentes ao garantir a robustez de detectores de objetos baseados em âncoras, como SSD e YOLO, através de uma transformação de coordenadas que permite o cálculo de limites ótimos para a métrica de Interseção sobre União (IoU) sem degradação de precisão.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

O artigo propõe um framework de tradução não pareada de MRI de ultra-baixo campo para alto campo, baseado em uma Ponte Neural de Schrödinger aprimorada com distribuição guiada por difusão e regularização de preservação anatômica, que melhora o realismo e a fidelidade estrutural das imagens cerebrais.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

O artigo apresenta o TumorFlow, um framework generativo guiado por princípios biofísicos que sintetiza sequências longitudinais realistas de ressonância magnética cerebral, permitindo a visualização controlada e interpretável da progressão do glioblastoma e a geração de dados sintéticos para apoiar o planejamento de tratamento personalizado.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

O artigo apresenta o NOVA3R, uma abordagem inovadora que utiliza um mecanismo de tokens de cena e um decodificador baseado em difusão para realizar reconstrução 3D amodal completa e fisicamente plausível a partir de imagens não posicionadas, superando as limitações de métodos alinhados a pixels ao recuperar tanto pontos visíveis quanto invisíveis.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Este artigo propõe um framework unificado de detecção conjunta para lacunas e espaços perivascular dilatados (EPVS) que, ao empregar atenção cruzada inicializada com zero e estratégias de perda mista para superar a interferência de características e o desequilíbrio de classes, alcança desempenho superior ao estado da arte na detecção de lacunas e demonstra robustez em grandes coortes populacionais.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

O artigo apresenta o "Gaussian Wardrobe", uma nova estrutura que digitaliza avatares 3D composicionais a partir de vídeos multiview, separando o corpo de camadas de roupas neurais independentes da forma para permitir a síntese realista em novas poses e a transferência versátil de vestuário entre diferentes indivíduos.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

Este estudo demonstra que o alinhamento semântico via linguagem, através do método "Semantic Anchoring", supera a colapso de embeddings e melhora significativamente a detecção de câncer em modelos de visão computacional ao permitir a reinterpretação semântica de características visuais para generalização entre espécies e tipos de câncer, sem a necessidade de retreinamento completo.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Este artigo propõe o "Dual Tuning", um quadro de trabalho que quantifica os ganhos do raciocínio em tarefas multimodais para estabelecer uma "Fronteira de Pensamento", desafiando a abordagem de "raciocínio para tudo" e orientando estratégias de treinamento mais eficientes.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

O artigo apresenta o SkillNet, uma infraestrutura aberta que organiza e avalia habilidades de IA em escala, permitindo que agentes aprendam com experiências passadas e melhorem significativamente seu desempenho em tarefas complexas.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Este artigo apresenta uma abordagem de aprendizado profundo multi-modal que integra redes neurais convolucionais 3D, dados de pose humana e detecção de objetos via mecanismo de atenção cruzada para melhorar o reconhecimento de atividades diárias em ambientes de Vida Assistida Ambientada, visando promover a segurança e autonomia de idosos.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

O artigo apresenta o InverseNet, o primeiro benchmark transversal a múltiplas modalidades de imageamento compressivo, demonstrando que a discrepância entre o operador físico e o modelo computacional degrada drasticamente o desempenho dos métodos de aprendizado profundo, enquanto arquiteturas condicionadas ao operador e calibração cega conseguem recuperar a maior parte dessa perda.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Este estudo analisa estratégias de fusão e agrupamento em redes neurais convolucionais para classificação de Zonas Climáticas Locais (LCZ) usando dados de sensoriamento remoto multimodais, demonstrando que uma abordagem híbrida combinada com agrupamento de bandas e fusão de rótulos alcança a maior precisão geral (76,6%) e melhora significativamente a detecção de classes sub-representadas no conjunto de dados So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Este artigo propõe o "Dual-LoRA Controllable Diffusion", um framework unificado de difusão guiado por centróides que utiliza adaptadores LoRA especializados para realizar simultaneamente a conclusão de estruturas locais e a síntese global em imagens de histopatologia, superando os métodos existentes ao garantir maior fidelidade estrutural e realismo morfológico com baixo custo de anotação.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

← Anterior Próximo →