cs.CV artigos | Gist.Science

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

O artigo apresenta o OccTrack360, um novo benchmark para rastreamento de ocupação panorâmica 4D a partir de câmeras de visão surround com lentes fish-eye, juntamente com o método FoSOcc, que aborda desafios específicos de projeção esférica e localização em voxel para melhorar a consistência temporal e espacial em ambientes dinâmicos.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

O artigo apresenta o "Interactive World Simulator", um framework que utiliza modelos de consistência para criar simulações interativas rápidas e fisicamente consistentes a partir de dados moderados, permitindo o treinamento e avaliação escaláveis de políticas robóticas com desempenho comparável ao real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

O artigo propõe o algoritmo Online FISTA, um método de reconstrução online de imagens de Radar de Abertura Sintética (SAR) que utiliza codificação esparsa para atualizar recursivamente os dados de armazenamento, permitindo processamento eficiente em drones autônomos e facilitando tarefas downstream como reconhecimento automático de alvos.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

O artigo apresenta o DualFlexKAN (DFKAN), uma arquitetura inovadora de redes Kolmogorov-Arnold que, ao empregar um mecanismo de estágio duplo com controle independente de transformações e ativações, supera as limitações de escalabilidade e rigidez das KANs tradicionais, oferecendo maior precisão, eficiência computacional e adaptabilidade para tarefas científicas com significativamente menos parâmetros.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

O artigo apresenta o PRISM, um modelo unificado de geração de movimento humano que supera desafios anteriores ao utilizar um espaço latente fatorizado por junta e injeção de condição livre de ruído, permitindo síntese de alta qualidade e streaming para tarefas como geração baseada em texto, condicionada a poses e sequencial.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artigo propõe um framework de aprendizado fraco supervisionado com refinamento progressivo de máscaras pseudo, utilizando uma rede professora estabilizada por média móvel exponencial e anotações esparsas de patologistas, que alcança segmentação precisa e generalizável de glândulas em histopatologia colorretal sem a necessidade de anotações em nível de pixel em larga escala.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

O artigo apresenta o RAF (Retrieval-Augmented Faces), uma técnica de aumento de treinamento que melhora a generalização de expressões em avatares de cabeça sem modelo, substituindo características de expressão durante o treinamento por vizinhos mais próximos de um banco de dados não rotulado para aumentar a diversidade e robustez sem necessidade de dados parecidos entre identidades ou alterações arquitetônicas.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Este artigo propõe um modelo de detecção de objetos RGB-D em tempo real que utiliza uma hiper-invólucro baseada em funções de base radial (RBF) ponderadas dinamicamente e uma camada de fusão treinável para superar as limitações na extração simultânea de características fotométricas e de profundidade, alcançando o melhor desempenho entre os métodos existentes no conjunto de dados NYU Depth V2.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artigo propõe um novo sistema de detecção de alucinações visuais estruturais em imagens de personagens de desenho animado geradas por modelos Texto-para-Imagem, utilizando um Modelo Visão-Linguagem aprimorado por aprendizado em contexto com orientação de pose (PA-ICVL), que demonstra melhorias significativas de desempenho em comparação com métodos baseados apenas em imagens RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

Fuse4Seg: Image Fusion for Multi-Modal Medical Segmentation via Bi-level Optimization

O artigo apresenta o Fuse4Seg, um novo framework que reformula a fusão de imagens médicas multimodais como um problema de otimização bi-nível orientado à segmentação, utilizando gradientes semânticos para preservar detalhes críticos e superar o estado da arte ao mesmo tempo em que oferece interpretabilidade clínica.

Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su2026-03-09💻 cs

PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization

O artigo propõe o PACE, um método de ajuste fino eficiente em parâmetros que combina regularização de consistência com perturbação de características para reduzir as normas dos gradientes e alinhar o modelo ajustado ao pré-treinado, melhorando assim a generalização em diversas tarefas visuais e de linguagem.

Yao Ni, Shan Zhang, Piotr Koniusz2026-03-09🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

O FALCON é um método de pré-treinamento auto-supervisionado para reconhecimento de ações em vídeos de UAVs que supera o desequilíbrio espacial típico de imagens aéreas ao integrar um autoencoder mascarado consciente de objetos com reconstrução futura de duplo horizonte, resultando em maior precisão e inferência significativamente mais rápida em comparação com abordagens supervisionadas.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

O artigo apresenta o AuthFace, um novo quadro de trabalho que utiliza um prior de difusão generativa orientado a rostos, treinado em um conjunto de dados de alta qualidade com anotações fotográficas e uma perda de características latentes sensível ao tempo, para restaurar rostos com alta autenticidade e detalhes, superando as limitações dos métodos atuais baseados em modelos de difusão texto-para-imagem.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

An Efficient Self-supervised Seismic Data Reconstruction Method Based on Self-Consistency Learning

Este artigo propõe um método auto-supervisionado e leve para reconstrução de dados sísmicos, que utiliza uma estratégia de aprendizado de auto-consistência para superar a dependência de conjuntos de dados externos e garantir estabilidade, demonstrando alta qualidade na reconstrução de dados com distribuição irregular.

Mingwei Wang, Junheng Peng, Yingtian Liu, Yong Li2026-03-09🤖 cs.LG

PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance

O artigo apresenta o PPLLaVA, um modelo inovador que utiliza uma estratégia de agrupamento orientada por prompts para reduzir drasticamente a redundância e o custo computacional na compreensão de vídeos longos, mantendo alto desempenho em diversas tarefas de raciocínio visual.

Shangkun Sun, Ruyang Liu, Haoran Tang, Yixiao Ge, Haibo Lu, Jiankun Yang, Chen Li2026-03-09💻 cs

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

O artigo apresenta o Ditto, um framework de síntese de cabeças falantes baseado em difusão que, ao gerar representações em um espaço de movimento específico e otimizar sua arquitetura para processamento em streaming, permite a criação de vídeos realistas com controle fino e inferência em tempo real.

Tianqi Li, Ruobing Zheng, Minghui Yang + 2 more2026-03-09⚡ eess

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

O artigo apresenta o LEO, uma arquitetura simples e eficaz que otimiza a fusão de múltiplos codificadores visuais em modelos de linguagem multimodal através de uma receita leve de integração, demonstrando desempenho superior em diversos benchmarks e forte capacidade de generalização para domínios especializados como a condução autónoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

O artigo apresenta o FeatureGS, um método que aprimora a reconstrução 3D por Splatting Gaussiano ao introduzir uma função de perda geométrica baseada em autovalores, resultando em maior precisão geométrica, redução drástica de artefatos flutuantes e menor uso de memória, permitindo o uso direto dos centros dos Gaussianos para representação geométrica.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

O artigo apresenta o PoI (Pixel-of-Interest), um quadro que aprimora a regressão de coordenadas da cena para localização visual ao combinar a síntese de novas vistas refinada por difusão com uma estratégia progressiva de filtragem de pixels baseada em erro de reprojeção, garantindo assim a confiabilidade dos dados sintéticos e alcançando desempenho superior em benchmarks padrão.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta pesquisa oferece uma visão geral estruturada sobre como os modelos de linguagem multimodais estão transformando o ciclo de vida científico, abrangendo desde a descoberta e experimentação até a geração de conteúdo e avaliação, ao mesmo tempo que discute técnicas, tendências, desafios éticos e o potencial de integração em futuros sistemas de "IA para Ciência".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

← Anterior Próximo →