OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

O artigo apresenta o OccTrack360, um novo benchmark para rastreamento de ocupação panorâmica 4D a partir de câmeras de visão surround com lentes fish-eye, juntamente com o método FoSOcc, que aborda desafios específicos de projeção esférica e localização em voxel para melhorar a consistência temporal e espacial em ambientes dinâmicos.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

O artigo apresenta o "Interactive World Simulator", um framework que utiliza modelos de consistência para criar simulações interativas rápidas e fisicamente consistentes a partir de dados moderados, permitindo o treinamento e avaliação escaláveis de políticas robóticas com desempenho comparável ao real.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

O artigo apresenta o DualFlexKAN (DFKAN), uma arquitetura inovadora de redes Kolmogorov-Arnold que, ao empregar um mecanismo de estágio duplo com controle independente de transformações e ativações, supera as limitações de escalabilidade e rigidez das KANs tradicionais, oferecendo maior precisão, eficiência computacional e adaptabilidade para tarefas científicas com significativamente menos parâmetros.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Este artigo propõe um framework de aprendizado fraco supervisionado com refinamento progressivo de máscaras pseudo, utilizando uma rede professora estabilizada por média móvel exponencial e anotações esparsas de patologistas, que alcança segmentação precisa e generalizável de glândulas em histopatologia colorretal sem a necessidade de anotações em nível de pixel em larga escala.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

O artigo apresenta o RAF (Retrieval-Augmented Faces), uma técnica de aumento de treinamento que melhora a generalização de expressões em avatares de cabeça sem modelo, substituindo características de expressão durante o treinamento por vizinhos mais próximos de um banco de dados não rotulado para aumentar a diversidade e robustez sem necessidade de dados parecidos entre identidades ou alterações arquitetônicas.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

RBF Weighted Hyper-Involution for RGB-D Object Detection

Este artigo propõe um modelo de detecção de objetos RGB-D em tempo real que utiliza uma hiper-invólucro baseada em funções de base radial (RBF) ponderadas dinamicamente e uma camada de fusão treinável para superar as limitações na extração simultânea de características fotométricas e de profundidade, alcançando o melhor desempenho entre os métodos existentes no conjunto de dados NYU Depth V2.

Mehfuz A Rahman, Khushal Das, Jiju Poovvancheri, Neil London, Dong Chen2026-03-09💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artigo propõe um novo sistema de detecção de alucinações visuais estruturais em imagens de personagens de desenho animado geradas por modelos Texto-para-Imagem, utilizando um Modelo Visão-Linguagem aprimorado por aprendizado em contexto com orientação de pose (PA-ICVL), que demonstra melhorias significativas de desempenho em comparação com métodos baseados apenas em imagens RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

O FALCON é um método de pré-treinamento auto-supervisionado para reconhecimento de ações em vídeos de UAVs que supera o desequilíbrio espacial típico de imagens aéreas ao integrar um autoencoder mascarado consciente de objetos com reconstrução futura de duplo horizonte, resultando em maior precisão e inferência significativamente mais rápida em comparação com abordagens supervisionadas.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

AuthFace: Towards Authentic Blind Face Restoration with Face-oriented Generative Diffusion Prior

O artigo apresenta o AuthFace, um novo quadro de trabalho que utiliza um prior de difusão generativa orientado a rostos, treinado em um conjunto de dados de alta qualidade com anotações fotográficas e uma perda de características latentes sensível ao tempo, para restaurar rostos com alta autenticidade e detalhes, superando as limitações dos métodos atuais baseados em modelos de difusão texto-para-imagem.

Guoqiang Liang, Qingnan Fan, Bingtao Fu, Jinwei Chen, Hong Gu, Lin Wang2026-03-09💻 cs

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

O artigo apresenta o LEO, uma arquitetura simples e eficaz que otimiza a fusão de múltiplos codificadores visuais em modelos de linguagem multimodal através de uma receita leve de integração, demonstrando desempenho superior em diversos benchmarks e forte capacidade de generalização para domínios especializados como a condução autónoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction

O artigo apresenta o FeatureGS, um método que aprimora a reconstrução 3D por Splatting Gaussiano ao introduzir uma função de perda geométrica baseada em autovalores, resultando em maior precisão geométrica, redução drástica de artefatos flutuantes e menor uso de memória, permitindo o uso direto dos centros dos Gaussianos para representação geométrica.

Miriam Jäger, Markus Hillemann, Boris Jutzi2026-03-09💻 cs

PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

O artigo apresenta o PoI (Pixel-of-Interest), um quadro que aprimora a regressão de coordenadas da cena para localização visual ao combinar a síntese de novas vistas refinada por difusão com uma estratégia progressiva de filtragem de pixels baseada em erro de reprojeção, garantindo assim a confiabilidade dos dados sintéticos e alcançando desempenho superior em benchmarks padrão.

Feifei Li, Qi Song, Chi Zhang, Hui Shuai, Rui Huang2026-03-09💻 cs

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Esta pesquisa oferece uma visão geral estruturada sobre como os modelos de linguagem multimodais estão transformando o ciclo de vida científico, abrangendo desde a descoberta e experimentação até a geração de conteúdo e avaliação, ao mesmo tempo que discute técnicas, tendências, desafios éticos e o potencial de integração em futuros sistemas de "IA para Ciência".

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI