PrivacyBench: Privacy Isn't Free in Hybrid Privacy-Preserving Vision Systems

O artigo apresenta o PrivacyBench, um framework de benchmarking que revela como a combinação arbitrária de técnicas de privacidade em sistemas de visão híbridos pode levar a falhas catastróficas de convergência e custos elevados, fornecendo diretrizes sistemáticas para avaliar trade-offs entre privacidade, utilidade e custo antes da implantação.

Nnaemeka Obiefuna, Samuel Oyeneye, Similoluwa Odunaiya + 2 more2026-02-24💻 cs

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Este artigo apresenta o SCHEMA, uma metodologia de engenharia de prompts estruturada e validada empiricamente para o modelo Google Gemini 3 Pro Image, que utiliza um sistema progressivo de três níveis e componentes modulares para garantir alta conformidade, coerência e controle preciso na geração de imagens em seis domínios profissionais.

Luca Cazzaniga2026-02-24💻 cs

A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Este trabalho apresenta o Life-Bench, um benchmark abrangente baseado em pegadas digitais simuladas, e o LifeGraph, um framework baseado em grafos de conhecimento, para avaliar e melhorar a personalização multimodal avançada em modelos de linguagem visuais, destacando as limitações atuais e a necessidade de raciocínio relacional e temporal mais sofisticado.

Xia Hu, Honglei Zhuang, Brian Potetz + 4 more2026-02-24💻 cs

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

O artigo apresenta o GUIDE-US, um método de destilação de conhecimento não pareada que treina um codificador de micro-ultrassom para imitar a distribuição de embeddings de um modelo fundacional de histopatologia, permitindo a classificação não invasiva do câncer de próstata com maior sensibilidade e sem a necessidade de emparelhamento de imagens ou dados histológicos durante a inferência.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artigo propõe que o colapso de modelos em loops de feedback iterativo resulta de um fenômeno chamado ressonância neural, onde a ergodicidade e a contração direcional no espaço latente levam a uma estrutura invariante de baixa dimensão, oferecendo uma explicação unificada e uma taxonomia para diagnosticar e mitigar essa degeneração.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

O artigo apresenta o OpenVO, um novo framework de odometria visual para mundos abertos que supera as limitações de métodos existentes ao estimar o movimento egoísta em escala real a partir de vídeos monoculares não calibrados com taxas de observação variáveis, utilizando dinâmicas temporais e priores geométricos 3D para alcançar melhorias significativas de desempenho em benchmarks de condução autônoma.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Este trabalho redefine o paradigma dos modelos multimodais 3D grandes (3D LMMs) ao introduzir o pipeline automático PoseRecover para recuperar poses egocêntricas e a técnica PoseAlign para alinhar dados de nuvem de pontos, resultando em melhorias significativas e eficientes na capacidade de raciocínio espacial e resposta a perguntas direcionais em diversos benchmarks e arquiteturas existentes.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs