cs.CV artigos | Gist.Science

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

O artigo apresenta o PromptDLA, um framework inovador de Análise de Layout de Documentos que utiliza um prompter sensível ao domínio e conhecimento descritivo como pistas para integrar priores específicos de cada domínio, superando as limitações da fusão direta de datasets e alcançando desempenho state-of-the-art em múltiplos benchmarks.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

O artigo apresenta o CIGPose, um framework baseado em redes neurais gráficas e intervenção causal que elimina correlações espúrias do contexto visual para gerar estimativas de pose corporal inteira mais robustas e anatomicamente plausíveis, estabelecendo um novo estado da arte no conjunto de dados COCO-WholeBody.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

O artigo apresenta o MetaDAT, um método de previsão de trajetória que combina um framework de meta-aprendizado para pré-treinamento e um mecanismo de atualização adaptativa de dados em tempo de teste, superando os métodos atuais ao lidar com mudanças de distribuição e garantindo alta precisão e eficiência em cenários desafiadores.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Este trabalho introduz o "Open-World Motion Forecasting", um novo cenário e framework de ponta a ponta para previsão de trajetória que supera as limitações de taxonomia fixa e percepção perfeita ao aprender continuamente novas classes de objetos a partir de imagens de câmera, mitigando o esquecimento catastrófico através de pseudo-rotulagem filtrada por modelos de linguagem visual e amostragem de replay baseada em variância de características.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

O artigo apresenta o GIIM, uma abordagem baseada em grafos que melhora o diagnóstico médico automatizado ao modelar simultaneamente as dependências intra-visão e inter-visão das anomalias, garantindo robustez mesmo na presença de dados incompletos.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

O artigo apresenta o OncoAgent, um agente de IA inovador que converte diretrizes clínicas textuais em contornos tridimensionais de volumes-alvo para radioterapia de forma zero-shot e sem treinamento, demonstrando desempenho superior e maior aceitação clínica em comparação a modelos supervisionados tradicionais.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

O artigo apresenta o EvoDriveVLA, um novo framework de destilação colaborativa entre percepção e planejamento que supera as limitações de modelos Vision-Language-Action para condução autônoma ao integrar restrições perceptivas autoancoradas e otimização de trajetória guiada por oráculos, alcançando desempenho superior em avaliações de circuito aberto e fechado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

O artigo apresenta o TopoOR, uma nova representação topológica unificada para salas cirúrgicas que supera as limitações estruturais dos grafos de cena tradicionais ao modelar interações de ordem superior e preservar a geometria e multimodalidade essenciais para tarefas críticas de segurança, como a detecção de violações de esterilidade e a previsão de ações robóticas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artigo apresenta o Corpus Patrologia Graeca, o primeiro recurso aberto de grande escala com OCR e anotações linguísticas para as edições gregas polítonas do século XIX, alcançando taxas de erro recordes e fornecendo um novo conjunto de dados anotado para estudos filológicos e treinamento de modelos de IA.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

O artigo apresenta o OmniEarth, um novo benchmark abrangente para avaliar modelos de visão e linguagem em tarefas de observação da Terra, que organiza 28 tarefas em dimensões de percepção, raciocínio e robustez utilizando dados de satélite e instruções verificadas para revelar as limitações atuais desses modelos em cenários geoespaciais complexos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

O artigo apresenta o PruneSID, uma abordagem de compressão de tokens visuais sem treinamento que combina análise de componentes semânticos e supressão de não-máximos intra-grupo para eliminar redundâncias preservando a essência da informação, alcançando desempenho state-of-the-art e aceleração significativa em Modelos de Linguagem e Visão (VLMs).

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artigo apresenta um novo framework de geração de imagens a partir de esboços, composto por uma rede codificadora baseada em autoatenção, um módulo de fusão que preserva coordenadas e um revisor de refinamento adaptativo, que supera os modelos existentes em fidelidade e coerência semântica em diversos domínios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

O artigo propõe a "Diagonal Distillation", um método inovador que utiliza uma estratégia de geração assimétrica e modelagem de fluxo óptico para superar as limitações de coerência temporal e latência nos modelos de vídeo autoregressivos, permitindo a geração de vídeos em streaming de alta qualidade com um aceleramento de 277,3 vezes em relação aos modelos não destilados.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

O artigo propõe o EvoPrompt, um novo framework que utiliza um projetor de prompts compartilhado entre modalidades e uma estratégia evolutiva de treinamento para adaptar modelos visão-linguagem a tarefas com poucos dados sem esquecer o conhecimento pré-treinado, alcançando desempenho state-of-the-art em aprendizado com poucos exemplos enquanto preserva as capacidades zero-shot originais.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

O artigo apresenta o RESBev, um método plug-and-play que aprimora a robustez da percepção em visão de pássaro (BEV) para veículos autônomos ao reformular a recuperação de dados corrompidos como um problema de previsão semântica latente, utilizando um modelo de mundo para reconstruir características BEV limpas diante de degradações de sensores e ataques adversariais.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudo demonstra que a progressão radiológica da fibroelastose pleuroparenquimatosa (PPFE) em programas de rastreio de cancro do pulmão está independentemente associada ao aumento da mortalidade e a desfechos clínicos adversos, sugerindo que a sua avaliação quantitativa pode servir como um biomarcador relevante para identificar indivíduos com maior risco respiratório.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph Jacob2026-03-11🧬 q-bio

← Anterior Próximo →