RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

本論文は、Web と OS を横断する現実的な攻撃シナリオを評価するための新たなテストフレームワーク「RedTeamCUA」とベンチマーク「RTC-Bench」を提案し、最先端のコンピュータ使用エージェント(CUA)が間接的なプロンプト注入攻撃に対して深刻な脆弱性を有していることを実証しています。

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

本論文は、衛星画像やストリートビュー映像から都市の社会経済指標を予測する大規模視覚言語モデル(LVLM)の能力を評価するための包括的なベンチマーク「CityLens」を提案し、17 の都市にまたがる多様なタスクにおけるモデルの現状と課題を明らかにしています。

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

本論文は、認知心理学に基づき動的推論や視点取得など 4 つの主要カテゴリと 50 の細分化されたサブカテゴリを含む包括的な空間推論ベンチマーク「OmniSpatial」を提案し、現在の視覚言語モデルの限界を明らかにするとともに、空間推論能力の向上に向けた 2 つの戦略を提示するものである。

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

本論文は、大規模マルチモーダルモデルにおける Few-Shot 視覚質問応答タスクにおいて、タスク関連の視覚特徴から蒸留されたソフトプロンプトをメタ学習で適応させることで、従来のインコンテキスト学習やパラメータ効率型微調整を上回る性能を達成する手法を提案しています。

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

本論文は、電子健康記録(EHR)の多様なモダリティを統合するマルチモーダル AI の予測精度と公平性を同時に最適化するため、各モダリティの公平性貢献度に基づいて重み付けを行う「FAME」という新しいフレームワークを提案し、その有効性を検証したものである。

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

AgentSynth は、情報非対称性を利用したスケーラブルかつ低コストなパイプラインにより、一般化されたコンピュータ操作エージェント向けの高品質なタスクと軌跡データを自動生成し、その複雑さを精密に制御しながら 6,000 以上の多様なタスクを構築する手法を提案しています。

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

本論文は、異なるアーキテクチャを持つ大規模から小規模なビジョン言語モデル間での知識蒸留を可能にする汎用フレームワーク「GenRecal」を提案し、その特徴表現を再較正する機構を通じて、既存のオープンソースおよびクローズドソースのモデルを上回る性能を実現することを示しています。

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

この論文は、長文処理における LLM の失敗要因を「タスクノイズ」「モデルノイズ」「アグリゲータノイズ」の 3 要素に分解する理論的枠組みを提案し、これに基づいてチャンク分割と集約によるマルチエージェント処理の有効条件を明らかにし、場合によっては単一ショットの高性能モデルよりも軽量モデルのチャンク処理が優位になる理由を解明しています。

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

この論文では、主観的評価と高い相関を示す新しい指標「TTSDS2」を提案し、11,000 件以上の主観評価データ、データ漏洩を防ぐマルチリンガルテストデータセット生成パイプライン、および 14 言語に対応する継続更新ベンチマークを含む包括的な評価リソースを公開しています。

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Cognitive models can reveal interpretable value trade-offs in language models

この論文は、認知科学における認知モデルを大規模言語モデルの価値トレードオフの解釈に適用し、プロンプト操作や推論コスト、さらにはポストトレーニングのダイナミクスを通じて、モデルの行動プロファイルや社会的振る舞いを体系的に評価・診断できることを示しています。

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

本論文は、特許先行技術検索における分野間ギャップを明確に評価できるよう、IPC3 重なり方式に基づいてインドメインとアウトドメインを明示的に区分した新しいベンチマークデータセット「DAPFAM」を提案し、あらゆる検索設定においてアウトドメインの性能が大幅に劣るという課題を明らかにしたものである。

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

この論文は、言語類型論における意味マップの構築において、データ駆動型の推論と専門家の知識を組み合わせ、可視化インターフェースを通じてスケーラビリティと解釈可能性の両立を実現するインタラクティブなシステム「XISM」を提案し、その有効性を示したものです。

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

本論文は、多段質問応答タスクにおいて、強化学習を用いて質問の難易度に応じて検索ステップを適応的に削減する「FrugalRAG」という 2 段階の微調整フレームワークを提案し、極めて少ないデータ量で高精度かつ検索コストを大幅に削減する効率性の高い RAG を実現することを示しています。

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL