cs.CV artigos | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

O artigo apresenta o OmniEarth, um novo benchmark abrangente para avaliar modelos de visão e linguagem em tarefas de observação da Terra, que organiza 28 tarefas em dimensões de percepção, raciocínio e robustez utilizando dados de satélite e instruções verificadas para revelar as limitações atuais desses modelos em cenários geoespaciais complexos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

O artigo apresenta o PruneSID, uma abordagem de compressão de tokens visuais sem treinamento que combina análise de componentes semânticos e supressão de não-máximos intra-grupo para eliminar redundâncias preservando a essência da informação, alcançando desempenho state-of-the-art e aceleração significativa em Modelos de Linguagem e Visão (VLMs).

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artigo apresenta um novo framework de geração de imagens a partir de esboços, composto por uma rede codificadora baseada em autoatenção, um módulo de fusão que preserva coordenadas e um revisor de refinamento adaptativo, que supera os modelos existentes em fidelidade e coerência semântica em diversos domínios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

O artigo propõe a "Diagonal Distillation", um método inovador que utiliza uma estratégia de geração assimétrica e modelagem de fluxo óptico para superar as limitações de coerência temporal e latência nos modelos de vídeo autoregressivos, permitindo a geração de vídeos em streaming de alta qualidade com um aceleramento de 277,3 vezes em relação aos modelos não destilados.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

O artigo propõe o EvoPrompt, um novo framework que utiliza um projetor de prompts compartilhado entre modalidades e uma estratégia evolutiva de treinamento para adaptar modelos visão-linguagem a tarefas com poucos dados sem esquecer o conhecimento pré-treinado, alcançando desempenho state-of-the-art em aprendizado com poucos exemplos enquanto preserva as capacidades zero-shot originais.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

O artigo apresenta o RESBev, um método plug-and-play que aprimora a robustez da percepção em visão de pássaro (BEV) para veículos autônomos ao reformular a recuperação de dados corrompidos como um problema de previsão semântica latente, utilizando um modelo de mundo para reconstruir características BEV limpas diante de degradações de sensores e ataques adversariais.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Este estudo demonstra que a progressão radiológica da fibroelastose pleuroparenquimatosa (PPFE) em programas de rastreio de cancro do pulmão está independentemente associada ao aumento da mortalidade e a desfechos clínicos adversos, sugerindo que a sua avaliação quantitativa pode servir como um biomarcador relevante para identificar indivíduos com maior risco respiratório.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabalho propõe uma estratégia de pós-treinamento baseada em aprendizado por reforço, utilizando uma extensão multimodal do GRPO e recompensas híbridas, para capacitar modelos unificados de visão e linguagem a gerar saídas intercaladas de texto e imagem de alta qualidade sem depender de grandes conjuntos de dados específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabalho apresenta o conjunto de dados DynHiL-EQA e o framework DIVRR, uma solução sem treinamento que refina a visão e seleciona memória adaptativamente para melhorar a robustez e a eficiência de agentes de Resposta a Perguntas Corporificadas (EQA) em ambientes dinâmicos e com presença humana.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Este estudo apresenta uma análise abrangente e unificada de diversos métodos de imageamento não-visão direta (NLOS) baseados em tempo de voo, estabelecendo um modelo comum para avaliar suas similaridades, diferenças e limitações experimentais sob condições de hardware padronizadas, visando servir como referência para comparações objetivas futuras.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

O artigo apresenta o GeoSolver, um novo framework que utiliza o conjunto de dados Geo-PRM-2M e o algoritmo de aprendizado por reforço Process-Aware Tree-GRPO para superar os desafios de fidelidade visual e escalar o raciocínio em tempo de teste em modelos de visão e linguagem aplicados à sensoriamento remoto, alcançando desempenho state-of-the-art.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

O artigo apresenta o GeoAlignCLIP, um framework unificado que aprimora o alinhamento visão-linguagem em imagens de sensoriamento remoto através da aprendizagem de consistência multi-granular e do uso do novo conjunto de dados RSFG-100k, superando métodos existentes em tarefas complexas e de alta granularidade.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Este trabalho introduz o paradigma de Modelagem Linguística Panorâmica (PLM) e o conjunto de dados PanoVQA para cenas adversas, propondo uma abordagem unificada de raciocínio 360° que supera as limitações dos modelos de visão-linguagem tradicionais baseados em imagens de campo de visão estreito.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

O artigo apresenta o BinaryAttention, um método inovador que utiliza atenção QK de 1 bit com operações de bits e um viés aprendível para acelerar significativamente os Transformers de visão e difusão, superando em velocidade o FlashAttention2 enquanto mantém ou melhora a precisão.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

O artigo apresenta o ParTY, um novo framework que melhora a síntese de movimentos humanos a partir de texto ao introduzir mecanismos de orientação por partes do corpo e alinhamento semântico, resolvendo o compromisso entre a expressividade de movimentos específicos e a coerência do corpo inteiro.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Este artigo propõe um método de classificação de imagens inspirado em saccades oculares que utiliza mapas de atenção do modelo DINO para focar o processamento em regiões relevantes, alcançando desempenho superior ou equivalente ao processamento completo da imagem e demonstrando a eficácia da atenção de Vision Transformers como guia para visão ativa biologicamente inspirada.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Anterior Próximo →