cs.CV artigos | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

O artigo apresenta o ARSGaussian, um método inovador de síntese de novas vistas para sensoriamento remoto aéreo que integra nuvens de pontos LiDAR e perdas de consistência geométrica ao 3D Gaussian Splatting para corrigir erros de geometria e melhorar a qualidade visual, além de lançar o conjunto de dados AIR-LONGYAN para apoiar pesquisas nessa área.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Este artigo apresenta os iMarkers, marcadores fiduciais invisíveis ao olho humano mas detectáveis por robôs e dispositivos de realidade aumentada, que oferecem uma solução discreta e versátil para navegação e reconhecimento de objetos sem comprometer a estética do ambiente.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

O artigo apresenta o LayoutDreamer, um framework que utiliza 3D Gaussian Splatting e um grafo de cena direcionado para gerar cenas composicionais 3D de alta qualidade, fisicamente plausíveis e altamente controláveis a partir de prompts de texto, superando os métodos existentes em alinhamento semântico e realismo.

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Este artigo de revisão oferece uma análise abrangente e estruturada de mais de 200 trabalhos sobre generalização em sensoriamento Wi-Fi, apresentando uma taxonomia de técnicas, um resumo de conjuntos de dados públicos e direções futuras para superar os desafios de adaptação a novos usuários, dispositivos e ambientes.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

O artigo apresenta o RS-STE, uma abordagem inovadora para edição de texto em cenas que integra reconhecimento e edição em um único framework unificado, utilizando um decodificador paralelo e um ciclo de autoaprendizado para alcançar desempenho superior e consistência estilística sem a necessidade de pipelines complexos ou dados pareados.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Este artigo apresenta um novo framework semissupervisionado para segmentação de imagens biomédicas que combina modelos de difusão e co-treinamento professor-aluno para gerar máscaras informativas e pseudo-rótulos, superando técnicas de última geração em cenários com dados anotados limitados.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Este artigo apresenta o BR-Gen, um novo dataset de grande escala com 150.000 imagens localmente falsificadas e o modelo NFA-ViT, que utiliza amplificação de ruído para detectar e propagar traços de falsificações sutis em todo o contexto da imagem, superando os métodos existentes em precisão e generalização.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Este artigo apresenta o M4-SAR, um novo dataset abrangente e padronizado para detecção de objetos por fusão óptica-SAR, acompanhado de um toolkit de benchmark e do framework E2E-OSDet, demonstrando que a combinação desses dados melhora significativamente a precisão da detecção em ambientes complexos.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

O artigo apresenta o MARRS, um novo framework que utiliza representações contínuas e um modelo autoregressivo baseado em unidades corporais distintas para sintetizar reações humanas coordenadas e de alta qualidade, superando as limitações de perda de informação e complexidade computacional dos métodos anteriores baseados em quantização vetorial.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Este artigo apresenta a primeira revisão sistemática sobre a integração de modelos fundamentais na robótica de serviços móveis, analisando como essas tecnologias superam desafios técnicos e éticos para habilitar robôs mais adaptáveis, seguros e socialmente responsivos em ambientes reais.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

O artigo apresenta o EasyText, um framework baseado em Diffusion Transformer que, utilizando codificação de posicionamento de caracteres e interpolação, permite a renderização precisa e controlada de texto multilíngue, apoiado por um novo conjunto de dados sintéticos em larga escala.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

O artigo apresenta o SpikeSMOKE, uma arquitetura de redes neurais de pulso (SNN) para detecção de objetos 3D monoculares que introduz um mecanismo de codificação de portão cruzado (CSGC) e blocos residuais leves para superar a perda de informação das SNNs, resultando em maior precisão e consumo energético drasticamente reduzido em comparação com métodos tradicionais.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

O artigo apresenta o FieldLVLM, um novo framework que aprimora a compreensão de modelos de linguagem-visão grandes sobre dados de campos científicos, como escoamentos, por meio de uma estratégia de geração de linguagem orientada a características físicas e um ajuste de modelo multimodal com compressão de dados, superando métodos existentes em benchmarks especializados.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

O artigo propõe o MGCR-Net, uma rede de reconstrução visão-linguagem condicionada a grafos multimodais que utiliza modelos de linguagem grandes (MLLM) para gerar dados textuais e integrar características visuais e textuais através de atenção gráfica e transformadores, alcançando desempenho superior na detecção de mudanças em imagens de sensoriamento remoto.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

O artigo propõe o método SFDA-PFT, uma abordagem leve de adaptação de domínio sem fonte que utiliza tradução de características no espaço latente para personalizar modelos de reconhecimento de expressões faciais usando apenas dados de alvo neutros, superando as limitações de métodos existentes e evitando a geração instável de imagens.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

O artigo apresenta o EgoCross, um novo benchmark abrangente para avaliar a generalização de modelos de linguagem multimodal em cenários de vídeo egocêntrico que transcendem atividades cotidianas, cobrindo domínios desafiadores como cirurgia, indústria, esportes extremos e perspectiva animal.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

O artigo apresenta o YOPO, um método de detecção baseado em transformers que unifica a detecção 2D e a estimativa de pose 9D de objetos em nível de categoria a partir de imagens RGB monoculares em uma única etapa, alcançando desempenho superior ao estado da arte sem depender de dados adicionais como profundidade ou modelos CAD.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

O artigo apresenta o CoRe-GS, um framework de Gaussian Splatting que otimiza seletivamente apenas as regiões de interesse (POIs) em uma abordagem de "grossa para refinada", reduzindo drasticamente o tempo de treinamento e melhorando a qualidade da reconstrução para aplicações robóticas críticas, ao mesmo tempo que mitiga artefatos visuais sem necessidade de rasterização de máscaras.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

O artigo apresenta o VocSegMRI, um framework de aprendizado multimodal que integra vídeo, áudio e sinais fonológicos para alcançar a segmentação de precisão das estruturas articulatórias em ressonância magnética em tempo real, superando os métodos existentes com uma pontuação Dice de 0,95.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

← Anterior Próximo →