cs.CV artigos | Gist.Science

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

O artigo apresenta o iLLaVA, uma abordagem que acelera modelos multimodais de grande escala otimizando conjuntamente o codificador de imagem e o LLM através de uma estratégia inovadora de fusão de tokens que recicla informações descartadas, resultando em ganhos significativos de eficiência e desempenho tanto em tarefas de imagem quanto de vídeo.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

O artigo apresenta o HarmonicEval, uma métrica de avaliação automática sem referência que agrega pontuações por critério de forma bottom-up, e o benchmark MMHE, composto por 18.000 julgamentos humanos em quatro tarefas multimodais, demonstrando que essa abordagem supera as métricas convencionais ao alinhar-se melhor com os julgamentos humanos em cenários de múltiplas tarefas e critérios.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

O artigo apresenta o LangSurf, um método inovador que utiliza um campo de linguagem embutido em superfícies e um módulo de consciência contextual hierárquica para alinhar com precisão campos de linguagem 3D às superfícies de objetos, superando as abordagens anteriores e permitindo segmentação, reconhecimento e edição de instâncias em 3D com base em consultas de texto.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este artigo propõe um método que utiliza modelos de visão e linguagem pré-treinados para aprender modelos de mundo simbólicos abstratos a partir de demonstrações curtas, permitindo que robôs generalizem para zero-shot e resolvam problemas de tomada de decisão de longo horizonte em cenários complexos e variados através de planejamento.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Este artigo propõe estratégias de redução de dados baseadas em agrupamento no espaço latente para otimizar o treinamento adversário semi-supervisionado, permitindo alcançar robustez comparável com 5 a 10 vezes menos dados não rotulados e reduzir o tempo de execução em 3 a 4 vezes.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Este artigo propõe um modelo de difusão agnóstico ao problema, baseado na estimativa de um termo guiado de máxima a posteriori (MAP), que aproveita modelos pré-treinados incondicionais para resolver problemas inversos em processamento de imagens, demonstrando superioridade na preservação de estruturas e coerência em comparação com métodos existentes.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

Strengthening Generative Robot Policies through Predictive World Modeling

O artigo apresenta o GPC (Generative Predictive Control), um framework de aprendizado que combina clonagem de comportamento, modelagem preditiva do mundo e planejamento online para superar consistentemente a clonagem de comportamento em diversas tarefas de manipulação robótica, tanto em simulação quanto no mundo real.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng Yang2026-03-10🤖 cs.LG

VL-Nav: A Neuro-Symbolic Approach for Reasoning-based Vision-Language Navigation

O artigo apresenta o VL-Nav, um sistema de navegação visão-linguagem neuro-simbólico que combina raciocínio neural com orientação simbólica para decompor tarefas complexas e otimizar a exploração, alcançando altas taxas de sucesso em ambientes internos, externos e em testes do mundo real.

Yi Du, Taimeng Fu, Zhipeng Zhao, Shaoshu Su, Zitong Zhan, Zhuoqun Chen, Bowen Li, Chen Wang2026-03-10💻 cs

Prompt-SID: Learning Structural Representation Prompt via Latent Diffusion for Single-Image Denoising

O artigo apresenta o Prompt-SID, um framework de aprendizado auto-supervisionado para remoção de ruído em imagens únicas que utiliza um processo de difusão latente para gerar prompts de representação estrutural e um mecanismo de replay de escala, preservando assim detalhes estruturais e superando as limitações de métodos anteriores que dependem de pares de dados pareados ou causam perda de informação.

Huaqiu Li, Wang Zhang, Xiaowan Hu, Tao Jiang, Zikang Chen, Haoqian Wang2026-03-10💻 cs

LaVCa: LLM-assisted Visual Cortex Captioning

O artigo apresenta o LaVCa, uma abordagem baseada em modelos de linguagem grandes (LLMs) que gera legendas em linguagem natural para descrever com maior precisão e detalhe a seletividade de voxels no córtex visual humano, superando métodos anteriores e revelando diferenciações funcionais de alta granularidade.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Este estudo propõe um algoritmo que funde imagens de ressonância magnética multimodais (T1, T2, T1ce e FLAIR) segmentadas por redes U-Net em 2D e 3D e classificadas por um modelo ResNet50, alcançando uma precisão de 99,25% na subclasse de gliomas e superando técnicas existentes.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Este trabalho propõe o método LOOP (Leave-One-Out PPO), uma nova abordagem de aprendizado por reforço para o ajuste fino de modelos de difusão texto-para-imagem que combina técnicas de redução de variância do REINFORCE com a robustez e eficiência amostral do PPO, superando as limitações de ambos ao alcançar um melhor equilíbrio entre eficiência de amostragem e desempenho final.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Este artigo propõe um modelo de aprendizado profundo geométrico baseado em transformadores, que utiliza uma nova esquematização de tokenização em malhas tetraédricas com marcos anatômicos para melhorar o diagnóstico da doença de Alzheimer e prever a positividade da amiloide cerebral em indivíduos de risco médio, oferecendo uma alternativa precisa e não invasiva aos exames PET.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin Wang2026-03-10💻 cs

Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars

O artigo apresenta o Snapmoji, um sistema que gera instantaneamente avatares 3D animáveis e personalizáveis em dispositivos móveis, utilizando uma técnica de adaptação de domínio gaussiano para mapear selfies a um estilo principal e aplicar um estilo secundário, preservando a identidade do usuário e superando as limitações de plataformas existentes.

Eric M. Chen, Di Liu, Sizhuo Ma, Michael Vasilkovsky, Bing Zhou, Qiang Gao, Wenzhou Wang, Jiahao Luo, Dimitris N. Metaxas, Vincent Sitzmann, Jian Wang2026-03-10💻 cs

SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis

O artigo apresenta o SceneEval, um novo framework de avaliação e o conjunto de dados SceneEval-500, projetados para superar as limitações das métricas atuais ao medir de forma abrangente e interpretável tanto os requisitos explícitos quanto as expectativas implícitas de coerência semântica na síntese de cenas 3D internas condicionadas a texto.

Hou In Ivan Tam, Hou In Derek Pun, Austin T. Wang, Angel X. Chang, Manolis Savva2026-03-10💻 cs

Prototype Perturbation for Relaxing Alignment Constraints in Backward-Compatible Learning

Este artigo propõe uma abordagem de Aprendizado Compatível com o Passado (BCL) que relaxa as restrições de alinhamento estritas ao introduzir perturbações nos protótipos de características antigas, preservando assim a capacidade discriminativa do novo modelo sem a necessidade de um processo computacionalmente custoso de recálculo de embeddings.

Zikun Zhou, Yushuai Sun, Wenjie Pei, Xin Li, Yaowei Wang2026-03-10💻 cs

From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction

Este trabalho propõe um método unificado para a reconstrução robusta de duas mãos a partir de imagens monoculares, combinando um codificador de fusão-alinhamento que integra implicitamente priores estruturais heterogêneos de modelos de visão fundamentais com um modelo de difusão livre de penetração que gera interações 3D fisicamente plausíveis, superando assim desafios de oclusão e alinhamento.

Gaoge Han, Yongkang Cheng, Zhe Chen, Shaoli Huang, Tongliang Liu2026-03-10💻 cs

Point-based Instance Completion with Scene Constraints

Este artigo propõe um novo modelo de conclusão de instâncias baseado em nuvem de pontos que integra restrições de cena via mecanismo de atenção cruzada para lidar com objetos em escalas e poses arbitrárias, validado através de um novo dataset chamado ScanWCF que demonstra superioridade em fidelidade e qualidade de conclusão em comparação com métodos existentes.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

O artigo apresenta o LEL, um novo framework de aprendizado emsemble com restrições de continuidade de Lipschitz que melhora a estabilidade, robustez e precisão do reconhecimento de emoções baseado em EEG intra-sujeito, alcançando desempenho superior em três conjuntos de dados públicos.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

O artigo propõe o framework O-VIB, uma abordagem de compressão semântica orientada a tarefas inspirada na cognição espacial que utiliza um codificador de gargalo de informação variacional com restrições ortogonais para extrair e transmitir características multiview compactas, permitindo localização visual precisa em plataformas móveis com recursos limitados e ambientes urbanos sem GPS.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

← Anterior Próximo →