How To Embed Matters: Evaluation of EO Embedding Design Choices

Este artigo apresenta uma análise sistemática das escolhas de design de incorporação em fluxos de trabalho de observação da Terra baseados em Modelos Fundacionais Geoespaciais, demonstrando como representações intermediárias compactas e bem projetadas podem substituir dados brutos massivos enquanto mantêm ou melhoram o desempenho em diversas tarefas.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

O artigo apresenta o A²-Edit, um novo framework unificado de edição de imagens que, apoiado pelo grande conjunto de dados UniEdit-500K e por técnicas inovadoras como o módulo Mixture of Transformer e a estratégia de treinamento Mask Annealing, permite a substituição precisa de objetos arbitrários usando apenas máscaras grosseiras, superando os métodos existentes em generalização e robustez.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

O artigo apresenta o MapGCLR, um método semi-supervisionado que utiliza aprendizado contrastivo geoespacial para melhorar a representação de características em visão de pássaro (BEV) na construção de mapas HD vetoriais online, superando as abordagens supervisionadas tradicionais ao aproveitar dados não rotulados com sobreposição de trajetórias.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

O artigo apresenta o UniCom, um modelo unificado multimodal que supera as limitações dos tokenizadores discretos e a instabilidade de representações contínuas ao utilizar um compressor semântico baseado em atenção para criar representações contínuas compactas, alcançando desempenho de ponta em geração e edição de imagens com alta consistência.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Este artigo apresenta o CTCNet, uma rede de cognição de tráfego multiespectral que integra conhecimento regulatório e compensação de qualidade entre modalidades óptica e térmica, juntamente com o novo benchmark Traffic-VQA, para superar as limitações de métodos existentes na compreensão de cenas de tráfego em UAVs sob condições adversas.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Este artigo apresenta o conjunto de dados eLasmobranc, uma coleção pública e curada de imagens de sete espécies de elasmobrânquios da costa mediterrânea espanhola, obtidas predominantemente fora da água com protocolos padronizados para permitir a classificação de espécies de alta precisão e apoiar o monitoramento da biodiversidade e a conservação.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Este artigo propõe um sistema de fotometria estereoscópica baseado em eventos que utiliza uma única fonte de luz rotativa e uma rede neural leve por pixel para estimar normais de superfície com alta precisão e robustez em condições de iluminação variável e alto alcance dinâmico, sem necessidade de calibração do sistema.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

O artigo "CodePercept" identifica que a percepção, e não o raciocínio, é o principal gargalo para o raciocínio visual STEM em MLLMs e propõe uma nova abordagem que utiliza código executável como meio perceptivo, fundamentado no dataset ICC-1M e avaliado pelo benchmark STEM2Code-Eval, para superar as limitações de alucinação e ambiguidade dos métodos atuais.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Este artigo apresenta o LGA-RCM-YOLO, um modelo de segmentação de instâncias de interface de fase baseado em YOLO11m que, utilizando o novo conjunto de dados CTG 2.0, supera os métodos convencionais na monitorização de processos laboratoriais em vidrarias transparentes, alcançando alta precisão e velocidade para automação.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs