cs artigos | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

O artigo apresenta o OmniEarth, um novo benchmark abrangente para avaliar modelos de visão e linguagem em tarefas de observação da Terra, que organiza 28 tarefas em dimensões de percepção, raciocínio e robustez utilizando dados de satélite e instruções verificadas para revelar as limitações atuais desses modelos em cenários geoespaciais complexos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

O artigo apresenta o MORE-R1, um modelo inovador que aprimora a extração de relações entre objetos visuais e entidades textuais em Grandes Modelos de Linguagem e Visão (LVLMs) ao integrar um processo de raciocínio passo a passo otimizado por Aprendizado por Reforço, alcançando desempenho superior ao estado da arte no benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

O artigo apresenta o PruneSID, uma abordagem de compressão de tokens visuais sem treinamento que combina análise de componentes semânticos e supressão de não-máximos intra-grupo para eliminar redundâncias preservando a essência da informação, alcançando desempenho state-of-the-art e aceleração significativa em Modelos de Linguagem e Visão (VLMs).

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

O artigo apresenta o StyleVLA, um modelo de Visão-Linguagem-Ação (VLA) baseado em física e treinado com um grande conjunto de dados instrucionais, que supera modelos proprietários ao gerar trajetórias de direção autônoma não apenas seguras, mas também fisicamente viáveis e adaptadas a estilos de condução diversos.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Este artigo apresenta um novo framework de geração de imagens a partir de esboços, composto por uma rede codificadora baseada em autoatenção, um módulo de fusão que preserva coordenadas e um revisor de refinamento adaptativo, que supera os modelos existentes em fidelidade e coerência semântica em diversos domínios.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

O artigo propõe a "Diagonal Distillation", um método inovador que utiliza uma estratégia de geração assimétrica e modelagem de fluxo óptico para superar as limitações de coerência temporal e latência nos modelos de vídeo autoregressivos, permitindo a geração de vídeos em streaming de alta qualidade com um aceleramento de 277,3 vezes em relação aos modelos não destilados.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

Este artigo relata a síntese e busca feedback sobre o Modelo de Artefatos para Engenharia de Requisitos Regulatórios (AM4RRE), uma abordagem proposta para integrar a conformidade por projeto ao ciclo de vida de desenvolvimento de software, superando os desafios de coordenação entre múltiplas perspectivas e a falta de processos sistemáticos na indústria.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

O artigo apresenta o SurgFed, um framework de aprendizado federado multi-tarefa que utiliza seleção de canais e agregação hiper-rede guiadas por linguagem para superar os desafios de diversidade de tecidos e tarefas na compreensão de vídeos cirúrgicos, demonstrando desempenho superior em cinco conjuntos de dados públicos.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

O artigo apresenta o EmbC-Test, uma solução baseada em RAG e LLMs que automatiza a geração de testes para software embarcado em C, reduzindo o tempo de teste manual em até 66% e alcançando uma taxa de sucesso de 85% na validação em tempo de execução.

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo OksanenWed, 11 Ma💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Este artigo apresenta uma técnica híbrida de verificação algébrica baseada em raciocínio multimodular e paralelismo que evita o uso de aritmética de inteiros grandes, demonstrando melhorias significativas na verificação de circuitos aritméticos através da ferramenta TalisMan2.0.

Clemens Hofstadler, Daniela Kaufmann, Chen ChenWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

O artigo apresenta o Context-Nav, uma abordagem sem treinamento específico que aprimora a navegação de instâncias em ambientes 3D ao utilizar alinhamentos texto-imagem densos para guiar a exploração global e realizar verificações espaciais conscientes do ponto de vista para validar candidatos, alcançando desempenho de ponta sem necessidade de ajuste fino.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Este artigo investiga a confiabilidade de Modelos Visuais-Linguísticos (VLMs) em assistentes de direção, identificando limitações como inconsistência de respostas e raciocínio temporal deficiente, e propõe o benchmark FutureVQA e uma abordagem de ajuste auto-supervisionado com raciocínio em cadeia de pensamento para melhorar a consistência e a capacidade de prever cenários futuros sem necessidade de rótulos temporais.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

O artigo apresenta o RuleSafe, um novo benchmark de manipulação articulada com tarefas não-Markovianas de longo horizonte, e propõe a VQ-Memory, uma representação temporal compacta baseada em VQ-VAE que melhora significativamente o planejamento e a generalização em modelos de manipulação robótica.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

O artigo apresenta o RESBev, um método plug-and-play que aprimora a robustez da percepção em visão de pássaro (BEV) para veículos autônomos ao reformular a recuperação de dados corrompidos como um problema de previsão semântica latente, utilizando um modelo de mundo para reconstruir características BEV limpas diante de degradações de sensores e ataques adversariais.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

O artigo apresenta o DCAU-Net, um novo framework de segmentação de imagens médicas que combina uma Atenção Cruzada Diferencial (DCA) para destacar estruturas discriminativas com complexidade reduzida e uma Estratégia de Fusão de Características Canal-Espacial (CSFF) para integrar adaptativamente informações semânticas e detalhadas, resultando em maior precisão e robustez.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Este estudo propõe e valida um método baseado em modelos de linguagem grandes (LLMs) para gerar expressões multimodais dinâmicas e semanticamente alinhadas em agentes pedagógicos de realidade virtual, demonstrando que tal abordagem melhora significativamente a eficácia percebida, o engajamento e a presença social dos aprendizes, ao mesmo tempo que reduz o cansaço e o tédio.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Este trabalho propõe uma estratégia de pós-treinamento baseada em aprendizado por reforço, utilizando uma extensão multimodal do GRPO e recompensas híbridas, para capacitar modelos unificados de visão e linguagem a gerar saídas intercaladas de texto e imagem de alta qualidade sem depender de grandes conjuntos de dados específicos.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Este trabalho apresenta o conjunto de dados DynHiL-EQA e o framework DIVRR, uma solução sem treinamento que refina a visão e seleciona memória adaptativamente para melhorar a robustez e a eficiência de agentes de Resposta a Perguntas Corporificadas (EQA) em ambientes dinâmicos e com presença humana.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

O artigo apresenta o NS-VLA, um novo framework neuro-simbólico que combina codificadores simbólicos, solucionadores e aprendizado por reforço online para superar as limitações de modelos VLA existentes, resultando em maior eficiência de dados, generalização zero-shot e capacidade de exploração expandida em tarefas de manipulação robótica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Compartmentalization-Aware Automated Program Repair

Este trabalho apresenta um framework de reparo automático de programas baseado em LLMs, projetado especificamente para identificar e corrigir vulnerabilidades em interfaces entre compartimentos, superando as limitações das abordagens existentes ao integrar um fuzzer especializado, técnicas de análise para aumentar a consciência sobre compartimentalização e validação de correções.

Jia Hu, Youcheng Sun, Pierre OlivierWed, 11 Ma💻 cs

← Anterior Próximo →