AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答(VQA)研究について述べています。

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本論文は、既存のタスク指向対話モデルが特定のデータセットに依存する課題を解決するため、LLM のフルパラメータ微細化と指示・スキーマの両方のアライメント機構を導入し、低リソース環境やノイズに対する頑健性と汎用性を大幅に向上させた統合エンドツーエンドフレームワーク「ESAinsTOD」を提案するものである。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

RLHF における高コストな選好データ収集の課題を解決するため、不確実性推定と新しい探索手法を用いて最も有益な回答を動的に特定するアクティブラーニングパイプライン「ActiveUltraFeedback」を提案し、従来の手法の 6 分の 1 のデータ量で同等以上の性能向上を実現したことを示しています。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本論文は、Muon 最適化アルゴリズムが抱く等方的な制約の限界を克服し、Shampoo 由来の統計量を用いた曲率感知の事前条件付けを導入することで、大規模言語モデルの学習効率を大幅に向上させる新しい最適化手法「Mousse」を提案する。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

本論文は、マルチモーダル大規模言語モデルの安全性評価を「有害な意図」から「隠れた結果」へと転換し、因果的盲点を克服するために新しいベンチマーク「OOD-MMSafe」と、動的な自己蒸留報酬を用いた「CASPO」フレームワークを提案するものである。

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi Lee2026-03-11🤖 cs.AI

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

この論文は、進化する認知、オンザフライの文脈判断、弾力的なメモリ編成の 3 つの主要コンポーネントを統合し、外部再学習なしに経験から学習しながら動的環境で適応的な意思決定を可能にする自律型エージェントフレームワーク「AutoAgent」を提案し、その有効性を示したものです。

Xiaoxing Wang, Ning Liao, Shikun Wei, Chen Tang, Feiyu Xiong2026-03-11🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

この論文は、査読者のコメントが著者によってどのように修正や反論に結びついたかを示す「反論(rebuttal)」を教師信号として活用し、LLM が具体的かつ実行可能な査読フィードバックを生成するための新しい手法「RbtAct」と大規模データセット「RMR-75K」を提案し、その有効性を示したものである。

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman Cohan2026-03-11🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

この論文は、実世界の一人称視点動画から構築された新しいベンチマーク「EXPLORE-Bench」を提案し、マルチモーダル大規模言語モデルが長期的な物理的帰結を推論する能力に依然として大きな課題があることを示すとともに、段階的推論による性能向上の可能性と計算コストのトレードオフを分析しています。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha2026-03-11🤖 cs.AI

Ego: Embedding-Guided Personalization of Vision-Language Models

この論文は、大規模視覚言語モデルの内部アテンション機構から対象概念を主に表す視覚トークンを抽出してメモリとして活用する効率的な手法「Ego」を提案し、追加学習や外部モジュールなしで単一・複数概念および動画の個人化において最先端の性能を達成することを示しています。

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

生物の空間認知メカニズムに着想を得たトレーニング不要のツール「World2Mind」は、3D 再構成と楕円パラメータを用いたアロセントリック空間木(AST)の構築により、マルチモーダル基盤モデルの空間推論能力を大幅に向上させ、テキストのみのモデルでも高度な 3D 空間推論を可能にします。

Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Hang Su, Yubin Wang2026-03-11🤖 cs.AI

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

本論文は、シミュレーションベース推論(SBI)を用いてニュートリノ事象生成器 GENIE のモデルパラメータを推定する手法を検証し、MicroBooNE 実験データに基づく従来手法と比較してわずかに異なるパラメータ値を導き出し、異なるシミュレーションコード(NuWro)の近似も可能であることを示した。

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ciprijanovic, Giuseppe Cerati2026-03-11⚛️ hep-ph

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

この論文は、大規模言語モデルが外部化せずに推論を行う可能性の限界を定量化する新概念「不透明な直列深さ」を提案し、Gemma 3 モデルや MoE 構造などのアーキテクチャに対する数値的上限を計算する自動化手法を開示することで、モデルが外部化されていない推論を行う潜在的な能力を評価する枠組みを提供しています。

Jonah Brown-Cohen, David Lindner, Rohin Shah2026-03-11🤖 cs.AI

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

この論文は、スプリット学習における通信オーバーヘッドを削減するため、ラベル情報を活用してチャネルの重要度を評価し、重要度の低いチャネルを適動的に剪定して中間特徴データを圧縮する「ACP-SL」という新しい手法を提案し、その有効性を示したものです。

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

本論文は、複数の具象化エージェントから同時に収集された長時間の第一人称視点動画を理解する新たな課題を定義し、その評価のためのベンチマーク「MA-EgoQA」と、エージェント間の共有メモリと動的検索を活用するベースラインモデル「EgoMAS」を提案しています。

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

この論文は、アクセシビリティ技術や産業用ノイズ監視のニーズに基づき、音声認識を超えた背景音の理解や雑音の局所化など多様な音声理解能力を評価する新しいベンチマーク「SCENEBench」を提案し、最先端の大型音声言語モデルの現状と課題を明らかにしたものである。

Laya Iyer, Angelina Wang, Sanmi Koyejo2026-03-11🤖 cs.AI