Grounding Synthetic Data Generation With Vision and Language Models

本論文は、リモートセンシング分野における合成データの解釈可能な生成と評価を可能にするビジョン・言語統合フレームワークを提案し、実画像と合成画像、セグメンテーションマップ、説明文を含む大規模データセット「ARAS400k」を構築することで、合成データを用いた拡張学習が実データのみを用いた学習よりも高い性能を発揮することを示しました。

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

LLM エージェントが知識の検索劣化やルール合成の困難さ、古くなった知識の検出に直面する課題に対し、確定的なルール検索、ベイズ推論に基づく矛盾認識メモリ、そしてパレート最適化を用いたプロンプト進化ループ「COMPASS」を統合した PRECEPT 枠組みが、テスト時適応において大幅な性能向上と頑健性を達成することを示しています。

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p2^2: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

本論文は、顧客体験管理におけるパーソナ適応を考慮した双制御環境下でのマルチモーダルエージェントの堅牢性を評価するため、FOCAL の成果を踏まえて 12 の新規指標を提案し、GPT-5 や GPT-4.1 などの最先端モデルを用いた電信・小売分野での評価結果を示す MM-tau-p2^2ベンチマークを提案するものです。

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

LLM による静的テキストから動的 HTML アプリケーション(MiniApp)への生成シフトを評価するため、実世界データに基づくベンチマーク「MiniAppBench」と、ブラウザ自動化を用いたエージェント評価フレームワーク「MiniAppEval」を提案し、現在の LLM が高品質な MiniApp 生成において依然として課題を抱えていることを明らかにした論文です。

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

この論文は、動画編集における背景の整合性と前景の品質向上という課題に対し、拡散モデルの「ハルシネーション(幻覚)」を検知して動的にキー・バリューの融合比率と CFG スケールを調整する学習不要なフレームワーク「KV-Lock」を提案し、既存手法を上回る結果を示しています。

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

この論文は、時系列異常検出におけるグラフニューラルネットワーク(GNN)の応用を促進し、再現性のある実験と評価を可能にするオープンソースフレームワークを提案するとともに、その有効性と解釈性の向上、および評価手法に関する重要な課題を明らかにしています。

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

この論文は、ドキュメント、画像、音声・映像ストリームを統一的に扱う「Omni Parsing」フレームワークを提案し、検出・認識・解釈の 3 段階のプロセスと証拠に基づく論理的推論を通じて、非構造化データを追跡可能な構造化知識へ変換する「Logics-Parsing-Omni」モデルとベンチマーク「OmniParsingBench」を開発したことを報告しています。

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

本研究は、高齢者の心血管リスク管理における手動コーディングの限界を克服するため、3,482 人の患者の非構造化電子健康記録を用いて、従来の機械学習や生成 LLM、および構造化データとの融合手法を比較評価し、長距離依存性を捉えることに特化したカスタム Transformer 構造が最も高い性能を示したことを明らかにしました。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答(VQA)研究について述べています。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本論文は、既存のタスク指向対話モデルが特定のデータセットに依存する課題を解決するため、LLM のフルパラメータ微細化と指示・スキーマの両方のアライメント機構を導入し、低リソース環境やノイズに対する頑健性と汎用性を大幅に向上させた統合エンドツーエンドフレームワーク「ESAinsTOD」を提案するものである。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

RLHF における高コストな選好データ収集の課題を解決するため、不確実性推定と新しい探索手法を用いて最も有益な回答を動的に特定するアクティブラーニングパイプライン「ActiveUltraFeedback」を提案し、従来の手法の 6 分の 1 のデータ量で同等以上の性能向上を実現したことを示しています。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本論文は、Muon 最適化アルゴリズムが抱く等方的な制約の限界を克服し、Shampoo 由来の統計量を用いた曲率感知の事前条件付けを導入することで、大規模言語モデルの学習効率を大幅に向上させる新しい最適化手法「Mousse」を提案する。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

本論文は、マルチモーダル大規模言語モデルの安全性評価を「有害な意図」から「隠れた結果」へと転換し、因果的盲点を克服するために新しいベンチマーク「OOD-MMSafe」と、動的な自己蒸留報酬を用いた「CASPO」フレームワークを提案するものである。

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

この論文は、進化する認知、オンザフライの文脈判断、弾力的なメモリ編成の 3 つの主要コンポーネントを統合し、外部再学習なしに経験から学習しながら動的環境で適応的な意思決定を可能にする自律型エージェントフレームワーク「AutoAgent」を提案し、その有効性を示したものです。

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

この論文は、査読者のコメントが著者によってどのように修正や反論に結びついたかを示す「反論(rebuttal)」を教師信号として活用し、LLM が具体的かつ実行可能な査読フィードバックを生成するための新しい手法「RbtAct」と大規模データセット「RMR-75K」を提案し、その有効性を示したものである。

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

この論文は、実世界の一人称視点動画から構築された新しいベンチマーク「EXPLORE-Bench」を提案し、マルチモーダル大規模言語モデルが長期的な物理的帰結を推論する能力に依然として大きな課題があることを示すとともに、段階的推論による性能向上の可能性と計算コストのトレードオフを分析しています。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

この論文は、大規模視覚言語モデルの内部アテンション機構から対象概念を主に表す視覚トークンを抽出してメモリとして活用する効率的な手法「Ego」を提案し、追加学習や外部モジュールなしで単一・複数概念および動画の個人化において最先端の性能を達成することを示しています。

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI