cs 件の論文 | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

本論文は、地球観測における視覚言語モデル（VLM）の性能を包括的に評価するための新しいベンチマーク「OmniEarth」を提案し、知覚・推論・頑健性の 3 つの次元で 28 のタスクを定義し、既存モデルが地理空間的に複雑なタスクにおいて依然として課題を抱えていることを示しています。

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

本論文は、視覚オブジェクトとテキストエンティティ間の関係抽出タスク（MORE）において、既存手法の限界を克服し、教師あり微調整（SFT）による高品質な段階的推論データセットの構築と、グループ相対方策最適化（GRPO）を用いた強化学習を組み合わせることで、大規模視覚言語モデル（LVLM）の推論能力を飛躍的に向上させ、最先端の性能を達成した「MORE-R1」を提案するものです。

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

← 前へ次へ →

cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Streaming Autoregressive Video Generation via Diagonal Distillation

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

RESBev: Making BEV Perception More Robust

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Compartmentalization-Aware Automated Program Repair