cs.CV artigos | Gist.Science

Physics-Driven 3D Gaussian Rendering for Zero-Shot MRI Super-Resolution

O artigo propõe um novo framework de super-resolução de MRI sem necessidade de dados pareados que utiliza uma representação explícita de Gaussianas adaptada à física do tecido e uma estratégia de renderização volumétrica baseada em física para alcançar reconstruções de alta qualidade e eficiência computacional.

Shuting Liu, Lei Zhang, Wei Huang, Zhao Zhang, Zizhou WangWed, 11 Ma💻 cs

Decoder-Free Distillation for Quantized Image Restoration

O artigo apresenta o QDR, um framework de restauração de imagem otimizado para dispositivos de borda que utiliza destilação sem decodificador e reponderação dinâmica de magnitude para superar limitações de quantização, alcançando desempenho próximo ao de modelos em precisão de ponto flutuante com alta eficiência computacional.

S. M. A. Sharif, Abdur Rehman, Seongwan Kim, Jaeho LeeWed, 11 Ma💻 cs

Grounding Synthetic Data Generation With Vision and Language Models

Este trabalho propõe um framework fundamentado em visão e linguagem para a geração e avaliação interpretável de dados sintéticos em sensoriamento remoto, introduzindo o conjunto de dados ARAS400k e demonstrando que o treinamento com dados aumentados (reais e sintéticos) supera consistentemente as bases de dados reais em tarefas de segmentação semântica e legendagem de imagens.

Ümit Mert Ça\u{g}lar, Alptekin TemizelWed, 11 Ma🤖 cs.AI

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

O artigo apresenta o X-GS, um framework aberto e extensível que unifica técnicas de 3DGS com modelos multimodais downstream, permitindo a criação de mapas 3D semânticos em tempo real a partir de vídeos não calibrados para habilitar tarefas como detecção de objetos e geração de legendas.

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

O artigo apresenta o OTPL-VIO, um sistema de odometria visual-inercial estéreo robusto que utiliza descritores profundos livres de treinamento e correspondência baseada em transporte ótimo para associar linhas, superando limitações em cenas de baixa textura e mudanças bruscas de iluminação com maior precisão e estabilidade em tempo real.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

When to Lock Attention: Training-Free KV Control in Video Diffusion

O artigo apresenta o KV-Lock, uma abordagem livre de treinamento para modelos de difusão de vídeo baseados em DiT que otimiza a consistência de fundo e a qualidade do primeiro plano ajustando dinamicamente a fusão de chaves-valor (KVs) e a escala de orientação condicional (CFG) com base na detecção de alucinação.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics

O artigo apresenta o DiffWind, um framework diferenciável baseado em física que unifica a modelagem de interação vento-objeto, reconstrução a partir de vídeos e simulação avançada, utilizando métodos como MPM e LBM para recuperar campos de vento e dinâmicas de objetos deformáveis com alta precisão.

Yuanhang Lei, Boming Zhao, Zesong Yang, Xingxuan Li, Tao Cheng, Haocheng Peng, Ru Zhang, Yang Yang, Siyuan Huang, Yujun Shen, Ruizhen Hu, Hujun Bao, Zhaopeng CuiWed, 11 Ma💻 cs

VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM

O artigo apresenta o VarSplat, um sistema de SLAM RGB-D baseado em 3D Gaussian Splatting que melhora a robustez e a precisão da reconstrução em cenas complexas ao aprender explicitamente a variância de aparência por gaussiana e gerar mapas de incerteza diferenciáveis para guiar o rastreamento e a otimização.

Anh Thuan Tran, Jana KoseckaWed, 11 Ma💻 cs

Improving 3D Foot Motion Reconstruction in Markerless Monocular Human Motion Capture

O artigo apresenta o FootMR, um método de refinamento de movimento dos pés que supera as limitações das abordagens atuais em captura de movimento humana monocular sem marcadores ao levantar sequências 2D para 3D utilizando dados de captura de movimento em larga escala, resultando em uma reconstrução de articulações dos pés significativamente mais precisa.

Tom Wehrbein, Bodo RosenhahnWed, 11 Ma💻 cs

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Este trabalho explora a Resposta Visual a Perguntas (VQA) em vietnamita utilizando arquiteturas baseadas em transformers, comparando sistematicamente métricas de avaliação automática em cenários multilíngues para aprimorar o alinhamento com o julgamento humano.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung LeWed, 11 Ma🤖 cs.AI

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

O artigo apresenta o DRIFT, um modelo baseado em transformador que utiliza uma arquitetura de dupla representação para fundir características locais e globais de nuvens de pontos 4D de radar, superando os métodos existentes na detecção de objetos e estimativa de estrada livre em sistemas de direção autônoma.

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

O artigo apresenta o TemporalDoRA, uma nova técnica de ajuste fino eficiente em parâmetros que integra atenção temporal no gargalo de baixa dimensão para melhorar a robustez e a precisão na resposta a perguntas sobre vídeos cirúrgicos, validada no novo conjunto de dados REAL-Colon-VQA.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. HoqueWed, 11 Ma💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

O artigo apresenta o TriFusion-SR, um novo framework baseado em difusão condicional guiada por wavelets que realiza a fusão conjunta e a super-resolução de imagens médicas tri-modais, superando os métodos existentes ao decompor características em bandas de frequência e calibrar coeficientes latentes para obter ganhos significativos em qualidade perceptual e métricas de precisão.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu TimofteWed, 11 Ma💻 cs

ProGS: Towards Progressive Coding for 3D Gaussian Splatting

O artigo apresenta o ProGS, um codec inovador que utiliza uma estrutura de octree e mecanismos de aprimoramento de informação mútua para habilitar a codificação progressiva de 3D Gaussian Splatting, reduzindo o armazenamento em 45 vezes e melhorando a qualidade visual em mais de 10% em comparação ao formato original.

Zhiye Tang, Lingzhuo Liu, Shengjie Jiao, Qiudan Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

GSStream: 3D Gaussian Splatting based Volumetric Scene Streaming System

O artigo apresenta o GSStream, um sistema inovador de streaming de cenas volumétricas baseado em 3D Gaussian Splatting que utiliza previsão de viewport colaborativa e adaptação de taxa de bits por aprendizado por reforço profundo para otimizar a entrega de dados e superar os sistemas existentes em qualidade visual e eficiência de rede.

Zhiye Tang, Qiudan Zhang, Lei Zhang, Junhui Hou, You Yang, Xu WangWed, 11 Ma💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

O artigo apresenta o FrameDiT, uma arquitetura de Transformer de Difusão que introduz o mecanismo de Atenção Matricial em nível de quadro para superar o compromisso entre eficiência e modelagem de dinâmicas espaço-temporais complexas, alcançando resultados de ponta na geração de vídeo com alta coerência temporal e qualidade.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen TranWed, 11 Ma💻 cs

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

O artigo apresenta o EXPLORE-Bench, um novo benchmark derivado de vídeos em primeira pessoa para avaliar a capacidade de modelos de linguagem multimodal em prever cenas finais após sequências longas de ações, revelando uma lacuna significativa em relação ao desempenho humano e demonstrando que a decomposição passo a passo das ações pode melhorar o raciocínio a longo prazo, embora com custos computacionais adicionais.

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

O artigo apresenta o FetalAgents, o primeiro sistema multi-agente que orquestra especialistas de visão computacional para analisar ultrassons fetais em vídeo e gerar relatórios clínicos estruturados, superando modelos existentes em precisão e adaptabilidade ao fluxo de trabalho clínico.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan TianWed, 11 Ma💻 cs

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

O artigo apresenta o $M^2$ -Occ, um framework inovador para previsão de oclusão semântica 3D em direção autônoma que utiliza reconstrução mascarada multiview e memória de características para manter a precisão geométrica e semântica mesmo na ausência de múltiplas câmeras, superando significativamente os métodos existentes em cenários de falha de visão.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

← Anterior Próximo →

cs.CV