cs.CV artigos | Gist.Science

Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery

Este trabalho propõe uma decomposição funcional de Anel Tensorial reparametrizada, que utiliza Representações Neurais Implícitas e uma estrutura de base fixa para superar as limitações de dados em malhas e melhorar a recuperação de detalhes de alta frequência em tarefas de reconstrução de dados multidimensionais.

Yangyang Xu, Junbo Ke, You-Wei Wen, Chao Wang2026-03-09🤖 cs.AI

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters

O artigo propõe o FastLightGen, um método inovador de destilação que simultaneamente reduz o número de passos de amostragem e o tamanho do modelo, permitindo a geração de vídeo de alta qualidade com poucos passos e parâmetros, superando os métodos existentes em eficiência.

Shitong Shao, Yufei Gu, Zeke Xie2026-03-09💻 cs

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

O artigo apresenta o VSearcher, um agente de busca multimodal de longo horizonte que utiliza aprendizado por reforço e um pipeline de síntese de dados para transformar modelos estáticos em agentes capazes de realizar buscas complexas na web, superando modelos proprietários em tarefas de busca multimodal.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng2026-03-09💻 cs

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

O artigo apresenta o "Think-as-You-See" (TaYS), um framework unificado que permite raciocínio simultâneo e contínuo em Modelos de Linguagem e Visão Grandes (LVLMs) ao processar fluxos de vídeo em tempo real, superando as limitações dos métodos em lote e intercalados ao reduzir significativamente a latência e melhorar o desempenho em tarefas de raciocínio visual.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

O CoEditor++ é um framework de edição de imagens baseada em instruções, livre de treinamento e estruturado cognitivamente, que supera os modelos existentes em consistência visual e raciocínio semântico ao decompor a tarefa em etapas de "o que" e "como" editar, alcançando desempenho de ponta em benchmarks gerais e de conformidade.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

O artigo apresenta o RoboLayout, uma extensão do LayoutVLM que aprimora a geração de layouts de cenas 3D para agentes corporificados ao integrar restrições de alcançabilidade em um processo de otimização diferenciável e incluir uma etapa de refinamento local, permitindo a criação de ambientes semanticamente coerentes e fisicamente viáveis para diversos tipos de agentes.

Ali Shamsaddinlou2026-03-09🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Este artigo apresenta o primeiro framework computacional multimodal para prever o prognóstico da nefrite lúpica pediátrica, utilizando apenas biópsias coradas com PAS e dados clínicos estruturados por meio de um Transformer de Injeção Clínica e uma estratégia de adaptação de domínio baseada em MAE, alcançando alta precisão na previsão da resposta ao tratamento.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

O artigo apresenta o SKETCHGAIT, um novo quadro de reconhecimento de marcha que utiliza a representação visual "Sketch" para extrair estruturas densas e livres de rótulos diretamente de imagens RGB, superando as limitações das abordagens baseadas em silhuetas e parsing ao combinar streams modais independentes e fusão estrutural para alcançar desempenho robusto em diversos conjuntos de dados.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Este artigo apresenta um pipeline de previsão de trajetória para interseções urbanas baseado em gêmeos digitais e V2X, que utiliza uma função de perda inovadora combinando erro quadrático médio e uma "twin loss" para garantir precisão, diversidade e conformidade com regras de trânsito, reduzindo significativamente violações críticas sem comprometer o desempenho em tempo real.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

O artigo apresenta o AutoThinkRAG, um framework que melhora a resposta a perguntas em documentos complexos combinando um roteador de complexidade de consultas com uma arquitetura de decuplagem funcional que utiliza um modelo visual pequeno para interpretação e um LLM para raciocínio, alcançando desempenho superior ao estado da arte com custos reduzidos.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

O artigo apresenta a BISE (Extração de Sub-redes Invariantes a Vieses), uma estratégia que identifica e isola sub-redes "livres de vieses" dentro de modelos pré-treinados convencionais através de poda, permitindo mitigar vieses algorítmicos sem a necessidade de retreinamento, ajuste fino ou dados adicionais.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

O artigo apresenta o "Thinking with Spatial Code", um framework que transforma vídeos RGB em representações 3D explícitas e temporalmente coerentes, permitindo que modelos de linguagem de grande porte realizem raciocínio físico com base em variáveis espaciais estruturadas e alcancem o estado da arte no VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Este artigo propõe o primeiro framework de verificação robusta acoplado para detectores de keypoints baseados em mapas de calor, utilizando um programa linear de números mistos (MILP) para garantir a robustez conjunta de todos os keypoints e superar as limitações conservadoras das abordagens decopladas anteriores.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

O artigo apresenta o DreamCAD, um framework generativo multimodal que produz modelos CAD editáveis (BRep) a partir de supervisão em nível de pontos, permitindo treinamento em larga escala em milhões de malhas 3D não anotadas e introduzindo o conjunto de dados CADCap-1M para avançar na pesquisa de texto-para-CAD.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

O artigo propõe o método ABRA, uma abordagem de generalização de domínio que utiliza aumento de representação adversária para mitigar efeitos de lote biológico em imagens de triagem celular de alto conteúdo, estabelecendo um novo estado da arte na classificação de perturbações siRNA.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

O artigo propõe o "Post Fusion Stabilizer" (PFS), um módulo leve que estabiliza as representações de visão de pássaro em detectores de fusão Câmera-LiDAR existentes, melhorando significativamente a robustez contra falhas de sensores e mudanças de domínio sem a necessidade de reestruturar a arquitetura ou reentrenar modelos completos.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

O artigo apresenta o CBM-Suite, um framework metodológico que supera as limitações dos Modelos de Gargalo de Conceito (CBMs) ao propor uma métrica de entropia para avaliar conceitos, resolver o problema de linearidade com camadas não lineares, reduzir a lacuna de precisão via distilação e analisar sistematicamente o impacto de diferentes backbones e VLMs na interpretabilidade e desempenho.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Este artigo propõe o Interpolated FID (iFID), uma métrica simples baseada na interpolação no espaço latente que supera o FID de reconstrução tradicional ao demonstrar uma forte correlação com a qualidade de geração de modelos de difusão latente, permitindo prever com precisão o desempenho desses modelos.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Este artigo propõe a Contagem Implícita de Erros (IEC), uma abordagem de aprendizado por reforço sem referência que enumera e pondera erros em vez de verificar acertos contra um gabarito, demonstrando sua superioridade em tarefas de "virtual try-on" onde múltiplas respostas válidas tornam a geração de rubricas tradicional inviável.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

← Anterior Próximo →