Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Este estudo propõe um framework aprimorado baseado em YOLOv8 que integra detecção de fogo e fumaça com análise de proximidade de objetos para gerar uma avaliação quantitativa de risco e alertas prioritários em canteiros de obras, alcançando alta precisão e sendo adequado para implementação em ambientes com recursos limitados.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Este artigo propõe um novo framework para geração de vídeos fisicamente plausíveis que, ao decompor fenômenos físicos em cadeias de eventos causalmente conectados por meio de raciocínio guiado por leis físicas e prompts multimodais transitivos, supera as limitações dos modelos atuais ao garantir a coerência temporal e a evolução dinâmica realista.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Este estudo diagnostica a lacuna de desempenho entre o processamento de texto em formato de imagem e em tokens textuais em Modelos de Linguagem Multimodais, identificando que erros de leitura e formatação são os principais culpados, e propõe um método de auto-distilação que elimina essa lacuna ao treinar o modelo com seus próprios raciocínios textuais, elevando drasticamente a precisão em tarefas matemáticas e em documentos reais.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

O artigo apresenta o MedKCO, um método de pré-treinamento visão-linguagem médica que supera as abordagens atuais ao adotar uma orquestração cognitiva orientada por conhecimento, combinando um currículo de dados em dois níveis com uma perda contrastiva assimétrica auto-paceada para melhorar a representação de características e a generalização em tarefas downstream.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

O artigo propõe um framework livre de treinamento para geração de vídeos composicionais que decompõe o movimento em três categorias (imobilidade, movimento rígido e não rígido) através de um paradigma de planejamento antes da geração, permitindo a síntese de múltiplas instâncias com aparências e movimentos diversos sem a necessidade de ajuste fino do modelo.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Este artigo propõe um framework baseado em transformers para a recuperação de casos de câncer de pele combinando imagens e texto, que alinha representações globais e locais para melhorar a precisão na identificação de lesões clínicas relevantes.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Agentic AI as a Network Control-Plane Intelligence Layer for Federated Learning over 6G

O artigo propõe uma camada de inteligência baseada em IA Agente para o plano de controle de redes 6G, que gerencia de forma autônoma e adaptativa o aprendizado federado, traduzindo objetivos de alto nível em ações otimizadas que consideram condições de rede e capacidades dos dispositivos para garantir baixa latência e alta eficiência.

Loc X. Nguyen, Ji Su Yoon, Huy Q. Le, Yu Qiao, Avi Deb Raha, Eui-Nam Huh, Nguyen H. Tran, Choong Seon Hong2026-03-11💻 cs

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Este trabalho aprimora o modelo de aprendizado profundo POLISH para reconstrução de imagens de interferometria de rádio, introduzindo estratégias de treinamento em patches e transformações de intensidade não lineares que permitem a descoberta robusta de lentes gravitacionais fortes em grandes campos de visão e alto alcance dinâmico, superando significativamente os métodos tradicionais como o CLEAN.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. Bouman2026-03-11🔭 astro-ph

Progressive Split Mamba: Effective State Space Modelling for Image Restoration

O artigo apresenta o Progressive Split-Mamba (PS-Mamba), um novo framework hierárquico de espaço de estados que supera as limitações de topologia e decaimento de informação dos modelos Mamba existentes em imagens, alcançando resultados superiores em tarefas de restauração de imagem através de particionamento geométrico consistente e caminhos de atalho simétricos.

Mohammed Hassanin, Nour Moustafa, Weijian Deng, Ibrahim Radwan2026-03-11💻 cs

Point Cloud as a Foreign Language for Multi-modal Large Language Model

O artigo apresenta o SAGE, o primeiro modelo de linguagem grande multimodal (MLLM) totalmente integrado para processar nuvens de pontos brutas diretamente, tratando os dados 3D como uma "língua estrangeira" por meio de um tokenizador leve e otimização de preferências, superando assim os métodos baseados em codificadores pré-treinados em eficiência, generalização e robustez.

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs