cs.CV artigos | Gist.Science

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

O artigo apresenta o DPAC, um método de controle adversarial para amostragem de difusão que preserva a distribuição ao projetar gradientes adversariais no espaço tangente definido pela geometria do escore, minimizando a divergência KL do caminho e melhorando a fidelidade perceptual (FID) sem comprometer a taxa de sucesso do ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Este artigo apresenta uma abordagem de ajuste fino eficiente e justa para modelos de visão e linguagem no diagnóstico de glaucoma, introduzindo técnicas como FR-LoRA, GR-LoRA e Hybrid-LoRA que reduzem as disparidades de precisão entre grupos demográficos em 69% enquanto mantêm alta acurácia geral com apenas 0,24% de parâmetros treináveis.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

O artigo apresenta o UniComp, um novo framework de compressão de vídeo baseado na singularidade da informação que, ao minimizar a entropia condicional através de fusão de grupos de quadros, alocação de tokens e compressão espacial dinâmica, supera os métodos existentes na preservação de fidelidade visual sob orçamentos computacionais restritos.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

O artigo apresenta o NeuralRemaster, um método de difusão que preserva as fases dos dados de entrada enquanto randomiza suas magnitudes, permitindo a geração de imagens e vídeos estruturalmente alinhados e geometricamente consistentes para tarefas como re-renderização e transferência sim-to-real, sem custos adicionais de inferência ou alterações na arquitetura do modelo.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artigo apresenta o TAP, um novo framework baseado em Grandes Modelos de Linguagem (LLMs) e estratégias evolutivas que descobre automaticamente e sem treinamento proxies superiores para quantização de precisão mista, eliminando a dependência de otimização diferenciada custosa ou de conhecimento manual de especialistas.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Este trabalho apresenta o conjunto de dados EgoCampus e o modelo EgoCampusNet, que utilizam óculos com rastreamento ocular para prever a atenção visual de pedestres em ambientes externos, preenchendo uma lacuna em estudos anteriores focados principalmente em cenários internos.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artigo apresenta o DriverGaze360, um novo conjunto de dados em escala massiva com visão de 360 graus e o método DriverGaze360-Net, que utilizam orientação por objetos para superar as limitações de campo de visão frontal e alcançar um estado da arte na previsão da atenção do motorista em ambientes de condução panorâmicos.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

O artigo apresenta o ViRC, um framework que aprimora o raciocínio matemático multimodal em modelos de linguagem através de um mecanismo de "Reason Chunking" que divide o processo em Unidades de Raciocínio Crítico (CRUs), apoiado pelo novo conjunto de dados CRUX e uma estratégia de treinamento progressivo, resultando em um modelo ViRC-7B com desempenho superior em benchmarks matemáticos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

O artigo apresenta o FluenceFormer, um framework baseado em transformadores que utiliza uma arquitetura de duas etapas e uma função de perda física para prever mapas de fluência em radioterapia, superando os métodos convencionais ao garantir consistência estrutural e conservação de energia com uma taxa de erro de apenas 4,5%.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Este artigo apresenta o EPD-Solver, um novo solucionador de EDO que utiliza avaliações de gradiente paralelas e um esquema de otimização em duas etapas com aprendizado por reforço para acelerar a inferência de modelos de difusão sem comprometer a qualidade da imagem.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artigo apresenta o PhyGDPO, um framework de otimização direta de preferências em grupo consciente da física, que utiliza um pipeline de construção de dados aumentados por física e um esquema de recompensa guiado por VLM para gerar vídeos texto-para-vídeo que seguem consistentemente as leis físicas, superando os métodos atuais em benchmarks especializados.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

O artigo apresenta o MorphAny3D, um framework sem treinamento que utiliza representações de Latente Estruturado (SLAT) e mecanismos de atenção inovadores para gerar sequências de morfagem 3D de alta qualidade, semanticamente consistentes e temporalmente suaves, inclusive entre categorias distintas.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

O artigo apresenta o EmboTeam, um framework inovador para planejamento de tarefas em equipes de robôs heterogêneos que integra raciocínio de modelos de linguagem (LLMs), planejamento clássico baseado em PDDL e árvores de comportamento reativas para melhorar significativamente a execução de tarefas de longo prazo em ambientes domésticos.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabalho avalia a capacidade de modelos fundacionais multimodais de identificar momentos importantes em vídeos de futebol, demonstrando que seu desempenho é próximo ao acaso devido à dependência de uma única modalidade e à falta de sinergia entre fontes, o que destaca a necessidade de arquiteturas modulares e procedimentos de treinamento complementares.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

O artigo apresenta o EGAgent, um framework agênico inovador baseado em grafos de cena de entidades que supera as limitações de janelas de contexto existentes para permitir raciocínio composicional e multi-hop em streams de vídeo egocêntrico contínuo de longa duração, alcançando desempenho state-of-the-art em tarefas de compreensão longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

O artigo propõe o mecanismo MiTA Attention, uma abordagem eficiente que unifica métodos de atenção existentes e reduz o custo computacional em sequências longas comprimindo a matriz de pesos rápidos e utilizando uma estratégia de roteamento baseada nas top-k ativações de consultas âncora.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

O artigo apresenta o DDP-WM, um modelo de mundo eficiente que utiliza a previsão de dinâmicas desentrelaçadas para decompor a evolução do estado em interações físicas primárias e atualizações de contexto secundárias, alcançando uma aceleração de inferência de 9 vezes e melhorias significativas no sucesso de planejamento em comparação com modelos densos baseados em Transformers.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

O artigo apresenta o Rolling Sink, uma solução sem treinamento que supera a lacuna entre o tempo de treinamento limitado e o teste de duração ilimitada em modelos de difusão de vídeo autoregressivos, permitindo a geração de vídeos ultra-longos e coerentes a partir de clipes curtos.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artigo propõe um quadro de aprendizado ativo guiado por explicabilidade para análise de imagens médicas que, ao combinar incerteza de classificação e desalinhamento de atenção com regiões de interesse definidas por especialistas, seleciona amostras estrategicamente para melhorar tanto o desempenho preditivo quanto a interpretabilidade clínica com eficiência de dados.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

← Anterior Próximo →