Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

O artigo apresenta o "Think-as-You-See" (TaYS), um framework unificado que permite raciocínio simultâneo e contínuo em Modelos de Linguagem e Visão Grandes (LVLMs) ao processar fluxos de vídeo em tempo real, superando as limitações dos métodos em lote e intercalados ao reduzir significativamente a latência e melhorar o desempenho em tarefas de raciocínio visual.

Jialiang Zhang, Junlong Tong, Junyan Lin, Hao Wu, Yirong Sun, Yunpu Ma, Xiaoyu Shen2026-03-09💻 cs

CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning

O CoEditor++ é um framework de edição de imagens baseada em instruções, livre de treinamento e estruturado cognitivamente, que supera os modelos existentes em consistência visual e raciocínio semântico ao decompor a tarefa em etapas de "o que" e "como" editar, alcançando desempenho de ponta em benchmarks gerais e de conformidade.

Minheng Ni, Yutao Fan, Zhengyuan Yang, Yeli Shen, Yuxiang Wei, Yaowen Zhang, Lijuan Wang, Lei Zhang, Wangmeng Zuo2026-03-09💻 cs

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Este artigo apresenta o primeiro framework computacional multimodal para prever o prognóstico da nefrite lúpica pediátrica, utilizando apenas biópsias coradas com PAS e dados clínicos estruturados por meio de um Transformer de Injeção Clínica e uma estratégia de adaptação de domínio baseada em MAE, alcançando alta precisão na previsão da resposta ao tratamento.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

O artigo apresenta o SKETCHGAIT, um novo quadro de reconhecimento de marcha que utiliza a representação visual "Sketch" para extrair estruturas densas e livres de rótulos diretamente de imagens RGB, superando as limitações das abordagens baseadas em silhuetas e parsing ao combinar streams modais independentes e fusão estrutural para alcançar desempenho robusto em diversos conjuntos de dados.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Este artigo apresenta um pipeline de previsão de trajetória para interseções urbanas baseado em gêmeos digitais e V2X, que utiliza uma função de perda inovadora combinando erro quadrático médio e uma "twin loss" para garantir precisão, diversidade e conformidade com regras de trânsito, reduzindo significativamente violações críticas sem comprometer o desempenho em tempo real.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

O artigo apresenta o AutoThinkRAG, um framework que melhora a resposta a perguntas em documentos complexos combinando um roteador de complexidade de consultas com uma arquitetura de decuplagem funcional que utiliza um modelo visual pequeno para interpretação e um LLM para raciocínio, alcançando desempenho superior ao estado da arte com custos reduzidos.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

O artigo apresenta a BISE (Extração de Sub-redes Invariantes a Vieses), uma estratégia que identifica e isola sub-redes "livres de vieses" dentro de modelos pré-treinados convencionais através de poda, permitindo mitigar vieses algorítmicos sem a necessidade de retreinamento, ajuste fino ou dados adicionais.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

O artigo apresenta o DreamCAD, um framework generativo multimodal que produz modelos CAD editáveis (BRep) a partir de supervisão em nível de pontos, permitindo treinamento em larga escala em milhões de malhas 3D não anotadas e introduzindo o conjunto de dados CADCap-1M para avançar na pesquisa de texto-para-CAD.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

O artigo propõe o método ABRA, uma abordagem de generalização de domínio que utiliza aumento de representação adversária para mitigar efeitos de lote biológico em imagens de triagem celular de alto conteúdo, estabelecendo um novo estado da arte na classificação de perturbações siRNA.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

O artigo propõe o "Post Fusion Stabilizer" (PFS), um módulo leve que estabiliza as representações de visão de pássaro em detectores de fusão Câmera-LiDAR existentes, melhorando significativamente a robustez contra falhas de sensores e mudanças de domínio sem a necessidade de reestruturar a arquitetura ou reentrenar modelos completos.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

O artigo apresenta o CBM-Suite, um framework metodológico que supera as limitações dos Modelos de Gargalo de Conceito (CBMs) ao propor uma métrica de entropia para avaliar conceitos, resolver o problema de linearidade com camadas não lineares, reduzir a lacuna de precisão via distilação e analisar sistematicamente o impacto de diferentes backbones e VLMs na interpretabilidade e desempenho.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Este artigo propõe o Interpolated FID (iFID), uma métrica simples baseada na interpolação no espaço latente que supera o FID de reconstrução tradicional ao demonstrar uma forte correlação com a qualidade de geração de modelos de difusão latente, permitindo prever com precisão o desempenho desses modelos.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Este artigo propõe a Contagem Implícita de Erros (IEC), uma abordagem de aprendizado por reforço sem referência que enumera e pondera erros em vez de verificar acertos contra um gabarito, demonstrando sua superioridade em tarefas de "virtual try-on" onde múltiplas respostas válidas tornam a geração de rubricas tradicional inviável.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI