ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Este relatório apresenta o desafio ICDAR 2025 sobre Tradução de Imagem de Documento de Ponta a Ponta, que envolveu 69 equipes na tradução de textos em documentos com layouts complexos através de duas trilhas (com e sem OCR), demonstrando que abordagens com grandes modelos estabelecem um novo paradigma promissor para essa tarefa.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

O artigo apresenta o FCDM, um modelo de difusão totalmente convolucional baseado no ConvNeXt que, ao utilizar apenas 50% dos FLOPs do DiT-XL/2, alcança desempenho competitivo com significativamente menos etapas de treinamento e maior eficiência, demonstrando que arquiteturas convolucionais modernas são uma alternativa viável e eficiente para a geração de imagens.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

O artigo apresenta o RiO-DETR, o primeiro detector baseado em transformers capaz de realizar detecção de objetos orientados em tempo real, superando desafios como periodicidade angular e convergência lenta através de designs nativos de tarefa que estabelecem um novo equilíbrio entre velocidade e precisão.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

O artigo apresenta o PromptDLA, um framework inovador de Análise de Layout de Documentos que utiliza um prompter sensível ao domínio e conhecimento descritivo como pistas para integrar priores específicos de cada domínio, superando as limitações da fusão direta de datasets e alcançando desempenho state-of-the-art em múltiplos benchmarks.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

O artigo apresenta o MetaDAT, um método de previsão de trajetória que combina um framework de meta-aprendizado para pré-treinamento e um mecanismo de atualização adaptativa de dados em tempo de teste, superando os métodos atuais ao lidar com mudanças de distribuição e garantindo alta precisão e eficiência em cenários desafiadores.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Este trabalho introduz o "Open-World Motion Forecasting", um novo cenário e framework de ponta a ponta para previsão de trajetória que supera as limitações de taxonomia fixa e percepção perfeita ao aprender continuamente novas classes de objetos a partir de imagens de câmera, mitigando o esquecimento catastrófico através de pseudo-rotulagem filtrada por modelos de linguagem visual e amostragem de replay baseada em variância de características.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

O artigo apresenta o OncoAgent, um agente de IA inovador que converte diretrizes clínicas textuais em contornos tridimensionais de volumes-alvo para radioterapia de forma zero-shot e sem treinamento, demonstrando desempenho superior e maior aceitação clínica em comparação a modelos supervisionados tradicionais.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

O artigo apresenta o EvoDriveVLA, um novo framework de destilação colaborativa entre percepção e planejamento que supera as limitações de modelos Vision-Language-Action para condução autônoma ao integrar restrições perceptivas autoancoradas e otimização de trajetória guiada por oráculos, alcançando desempenho superior em avaliações de circuito aberto e fechado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

O artigo apresenta o TopoOR, uma nova representação topológica unificada para salas cirúrgicas que supera as limitações estruturais dos grafos de cena tradicionais ao modelar interações de ordem superior e preservar a geometria e multimodalidade essenciais para tarefas críticas de segurança, como a detecção de violações de esterilidade e a previsão de ações robóticas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

O artigo apresenta o OmniEarth, um novo benchmark abrangente para avaliar modelos de visão e linguagem em tarefas de observação da Terra, que organiza 28 tarefas em dimensões de percepção, raciocínio e robustez utilizando dados de satélite e instruções verificadas para revelar as limitações atuais desses modelos em cenários geoespaciais complexos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

O artigo apresenta o PruneSID, uma abordagem de compressão de tokens visuais sem treinamento que combina análise de componentes semânticos e supressão de não-máximos intra-grupo para eliminar redundâncias preservando a essência da informação, alcançando desempenho state-of-the-art e aceleração significativa em Modelos de Linguagem e Visão (VLMs).

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artigo apresenta um novo framework de geração de imagens a partir de esboços, composto por uma rede codificadora baseada em autoatenção, um módulo de fusão que preserva coordenadas e um revisor de refinamento adaptativo, que supera os modelos existentes em fidelidade e coerência semântica em diversos domínios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

O artigo propõe a "Diagonal Distillation", um método inovador que utiliza uma estratégia de geração assimétrica e modelagem de fluxo óptico para superar as limitações de coerência temporal e latência nos modelos de vídeo autoregressivos, permitindo a geração de vídeos em streaming de alta qualidade com um aceleramento de 277,3 vezes em relação aos modelos não destilados.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

O artigo propõe o EvoPrompt, um novo framework que utiliza um projetor de prompts compartilhado entre modalidades e uma estratégia evolutiva de treinamento para adaptar modelos visão-linguagem a tarefas com poucos dados sem esquecer o conhecimento pré-treinado, alcançando desempenho state-of-the-art em aprendizado com poucos exemplos enquanto preserva as capacidades zero-shot originais.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs