cs.CV artigos | Gist.Science

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

O artigo apresenta o Splat2Real, um método que utiliza 3D Gaussian Splatting e uma estratégia de seleção de vistas chamada CN-Coverage para melhorar a robustez de percepção 3D em novas perspectivas, abordando o desafio de deslocamento de viewpoint na Inteligência Física.

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

O artigo apresenta o SLiM, um novo framework unificado que elimina a necessidade de decodificadores em modelos de mascaramento para aprendizado de representação de esqueletos, combinando modelagem mascarada e aprendizado contrastivo para alcançar desempenho superior com uma redução de 7,89 vezes no custo computacional de inferência.

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

O artigo apresenta o ROVA, um novo framework de treinamento que melhora a robustez de modelos de visão e linguagem em cenários do mundo real ao utilizar uma estratégia de aprendizado online adaptativa e uma recompensa de consistência, validada pelo novo benchmark PVRBench que demonstra ganhos significativos de precisão e raciocínio sob perturbações como clima e oclusão.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

Este artigo apresenta uma análise sistemática das escolhas de design de incorporação em fluxos de trabalho de observação da Terra baseados em Modelos Fundacionais Geoespaciais, demonstrando como representações intermediárias compactas e bem projetadas podem substituir dados brutos massivos enquanto mantêm ou melhoram o desempenho em diversas tarefas.

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

Este artigo propõe uma arquitetura FPGA pipeline otimizada para a busca de vetores de deslocamento na ferramenta de cópia de padrão intra (IPC) do JPEG XS, alcançando um alto rendimento e baixo consumo energético que viabiliza sua implementação prática em hardware.

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A $^2$ -Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

O artigo apresenta o A²-Edit, um novo framework unificado de edição de imagens que, apoiado pelo grande conjunto de dados UniEdit-500K e por técnicas inovadoras como o módulo Mixture of Transformer e a estratégia de treinamento Mask Annealing, permite a substituição precisa de objetos arbitrários usando apenas máscaras grosseiras, superando os métodos existentes em generalização e robustez.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

O artigo apresenta o MapGCLR, um método semi-supervisionado que utiliza aprendizado contrastivo geoespacial para melhorar a representação de características em visão de pássaro (BEV) na construção de mapas HD vetoriais online, superando as abordagens supervisionadas tradicionais ao aproveitar dados não rotulados com sobreposição de trajetórias.

Jonas Merkert, Alexander Blumberg, Jan-Hendrik Pauls, Christoph Stiller2026-03-12💻 cs

Bioinspired CNNs for border completion in occluded images

O artigo apresenta o BorderNet, uma arquitetura de rede neural convolucional inspirada no córtex visual que melhora a robustez na classificação de imagens ocluídas ao modelar matematicamente o processo de conclusão de bordas.

Catarina P. Coutinho, Aneeqa Merhab, Janko Petkovic, Ferdinando Zanchetta, Rita Fioresi2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

O artigo "RandMark" propõe um método de marcação d'água aleatória que utiliza uma pequena rede encoder-decoder para embutir marcas digitais em representações internas de modelos fundacionais visuais, permitindo a verificação eficaz da propriedade intelectual com baixas taxas de falsos positivos e falsos negativos.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

O artigo apresenta o UniCom, um modelo unificado multimodal que supera as limitações dos tokenizadores discretos e a instabilidade de representações contínuas ao utilizar um compressor semântico baseado em atenção para criar representações contínuas compactas, alcançando desempenho de ponta em geração e edição de imagens com alta consistência.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

O artigo apresenta o WalkGPT, um modelo de linguagem e visão grande (LVLM) pixel-grounded que integra raciocínio linguístico e segmentação para fornecer orientação de navegação acessível e consciente de profundidade, acompanhado pelo lançamento do benchmark PAVE.

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Este artigo apresenta o CTCNet, uma rede de cognição de tráfego multiespectral que integra conhecimento regulatório e compensação de qualidade entre modalidades óptica e térmica, juntamente com o novo benchmark Traffic-VQA, para superar as limitações de métodos existentes na compreensão de cenas de tráfego em UAVs sob condições adversas.

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Este artigo apresenta o conjunto de dados eLasmobranc, uma coleção pública e curada de imagens de sete espécies de elasmobrânquios da costa mediterrânea espanhola, obtidas predominantemente fora da água com protocolos padronizados para permitir a classificação de espécies de alta precisão e apoiar o monitoramento da biodiversidade e a conservação.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

O artigo apresenta o Just-in-Time (JiT), um novo framework sem necessidade de treinamento que acelera a inferência de Transformers de Difusão explorando a redundância espacial através de uma ODE aproximada e um micro-fluxo determinístico, alcançando até 7x de velocidade no modelo FLUX.1-dev com desempenho quase sem perdas.

Wenhao Sun, Ji Li, Zhaoqiang Liu2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Este artigo propõe um sistema de fotometria estereoscópica baseado em eventos que utiliza uma única fonte de luz rotativa e uma rede neural leve por pixel para estimar normais de superfície com alta precisão e robustez em condições de iluminação variável e alto alcance dinâmico, sem necessidade de calibração do sistema.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

O artigo "CodePercept" identifica que a percepção, e não o raciocínio, é o principal gargalo para o raciocínio visual STEM em MLLMs e propõe uma nova abordagem que utiliza código executável como meio perceptivo, fundamentado no dataset ICC-1M e avaliado pelo benchmark STEM2Code-Eval, para superar as limitações de alucinação e ambiguidade dos métodos atuais.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

O artigo propõe a "Condition-Degradation Guidance" (CDG), uma técnica leve e plug-and-play que substitui o prompt nulo na Orientação Livre de Classificador por uma condição semanticamente degradada, melhorando significativamente a precisão composicional e o alinhamento texto-imagem em modelos de difusão modernos sem necessidade de treinamento adicional.

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Taking Shortcuts for Categorical VQA Using Super Neurons

O artigo propõe o uso de "Super Neurônios", que são ativações escalares diretas de camadas iniciais de Modelos de Linguagem Visuais, para criar classificadores precisos em tarefas de VQA categórica que permitem uma saída antecipada extrema e alcançam acelerações de até 5,10 vezes sem necessidade de ajuste fino.

Pierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park2026-03-12🤖 cs.AI

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

Este artigo apresenta o LGA-RCM-YOLO, um modelo de segmentação de instâncias de interface de fase baseado em YOLO11m que, utilizando o novo conjunto de dados CTG 2.0, supera os métodos convencionais na monitorização de processos laboratoriais em vidrarias transparentes, alcançando alta precisão e velocidade para automação.

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

Este trabalho propõe o Alinhamento de Granularidade Semântica (SGA), uma abordagem que, ao analisar a dinâmica de otimização do Flow Matching sob uma perspectiva geométrica quadrática, intervém no campo residual vetorial para mitigar conflitos de gradiente e melhorar a eficiência e a integridade estrutural na síntese de imagens a partir de texto.

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs

← Anterior Próximo →

cs.CV