Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artigo apresenta um novo framework de geração de imagens a partir de esboços, composto por uma rede codificadora baseada em autoatenção, um módulo de fusão que preserva coordenadas e um revisor de refinamento adaptativo, que supera os modelos existentes em fidelidade e coerência semântica em diversos domínios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

O artigo propõe a "Diagonal Distillation", um método inovador que utiliza uma estratégia de geração assimétrica e modelagem de fluxo óptico para superar as limitações de coerência temporal e latência nos modelos de vídeo autoregressivos, permitindo a geração de vídeos em streaming de alta qualidade com um aceleramento de 277,3 vezes em relação aos modelos não destilados.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

O artigo propõe o EvoPrompt, um novo framework que utiliza um projetor de prompts compartilhado entre modalidades e uma estratégia evolutiva de treinamento para adaptar modelos visão-linguagem a tarefas com poucos dados sem esquecer o conhecimento pré-treinado, alcançando desempenho state-of-the-art em aprendizado com poucos exemplos enquanto preserva as capacidades zero-shot originais.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudo demonstra que a progressão radiológica da fibroelastose pleuroparenquimatosa (PPFE) em programas de rastreio de cancro do pulmão está independentemente associada ao aumento da mortalidade e a desfechos clínicos adversos, sugerindo que a sua avaliação quantitativa pode servir como um biomarcador relevante para identificar indivíduos com maior risco respiratório.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudo apresenta uma análise abrangente e unificada de diversos métodos de imageamento não-visão direta (NLOS) baseados em tempo de voo, estabelecendo um modelo comum para avaliar suas similaridades, diferenças e limitações experimentais sob condições de hardware padronizadas, visando servir como referência para comparações objetivas futuras.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

O artigo apresenta o GeoSolver, um novo framework que utiliza o conjunto de dados Geo-PRM-2M e o algoritmo de aprendizado por reforço Process-Aware Tree-GRPO para superar os desafios de fidelidade visual e escalar o raciocínio em tempo de teste em modelos de visão e linguagem aplicados à sensoriamento remoto, alcançando desempenho state-of-the-art.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

O artigo apresenta o GeoAlignCLIP, um framework unificado que aprimora o alinhamento visão-linguagem em imagens de sensoriamento remoto através da aprendizagem de consistência multi-granular e do uso do novo conjunto de dados RSFG-100k, superando métodos existentes em tarefas complexas e de alta granularidade.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo Yang2026-03-11💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabalho introduz o paradigma de Modelagem Linguística Panorâmica (PLM) e o conjunto de dados PanoVQA para cenas adversas, propondo uma abordagem unificada de raciocínio 360° que supera as limitações dos modelos de visão-linguagem tradicionais baseados em imagens de campo de visão estreito.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen2026-03-11💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artigo propõe um método de classificação de imagens inspirado em saccades oculares que utiliza mapas de atenção do modelo DINO para focar o processamento em regiões relevantes, alcançando desempenho superior ou equivalente ao processamento completo da imagem e demonstrando a eficácia da atenção de Vision Transformers como guia para visão ativa biologicamente inspirada.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond2026-03-11💻 cs