Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

本論文は、観光・ホスピタリティ分野における意思決定支援に焦点を当て、画像から得られる有用な情報を定量化する「情報性(Informativeness)」という新たな枠組みを提案し、これに基づいて構築された専用データセットを用いた評価により、最先端の視覚言語モデルがドメイン固有の微調整を経て初めて信頼性の高い意思決定支援が可能になることを明らかにしています。

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

この論文は、粒子フィルタリング(特に逐次モンテカルロ法)の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本論文は、産業・医療・航空など多様な領域における微妙な視覚的差異の識別を評価する新たなベンチマーク「VLM-SubtleBench」を提案し、既存の VLM が人間のレベルに達するまでには、属性や状態などの細かな違いに対する推論能力において依然として大きな課題が残っていることを明らかにしています。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

この論文は、画像のピクセルをエージェントとしてモデル化し、ヘドニックゲームにおける coalition 形成を画像セグメンテーションという視覚的テストベッドとして検証し、メカニズム設計パラメータが均衡構造に与える影響を定量化することを提案しています。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

この論文は、多様な農家の事情に合わせた意思決定を支援するため、AI 気象予測モデルと「変化する農家の期待」を反映した統計モデルを融合させた確率的なモンスーン予報システムを開発し、2025 年にインドの 3800 万人の農家に展開して効果を実証したことを報告しています。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

本論文は、電子カルテデータ上でタスク条件付き事前学習を行うことで、従来の自己回帰モデルよりも効率的かつ高精度に、微調整なしで多様な臨床予測タスクをゼロショットで実行できる新しい基礎モデル「EveryQuery」を提案し、MIMIC-IV における 39 個のタスクの 82% で性能向上を実証した研究です。

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

本論文は、外部トラッキング装置を必要とせず、事前の CT 画像とライブ内視鏡映像のみを用いて、短期反応エージェントと長期戦略エージェント、そして世界モデルクリティックを階層的に統合した自律型気管支鏡ナビゲーションシステムを提案し、その生体前臨床試験における有効性を実証したものである。

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

本論文は、リレーショナルデータベースにおける不均衡データ問題に初めて着目し、関係性ごとのゲート制御と関係性ガイドの少数派合成を用いて不均衡なエンティティ分類を改善する深層学習手法「Rel-MOSS」を提案し、既存手法を上回る性能を実証したものである。

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

SWE-Fuse は、問題記述のノイズを軽減する問題フリー軌道学習とエントロピーに基づく RLVR 学習を融合させることで、SWE-bench において既存のモデルを大幅に上回るソフトウェア問題解決能力を実現する新しいトレーニングフレームワークです。

Xin-Cheng Wen, Binbin Chen, Haoxuan Lan, Hang Yu, Peng Di, Cuiyun Gao2026-03-10💻 cs

AI Agents, Language, Deep Learning and the Next Revolution in Science

本論文は、データ生成と理解の間の格差に対処するため、大規模言語モデルや深層学習に基づく人間監督型の AI エージェントが科学的方法の次の進化となり、特に素粒子物理学における「Dr. Sai」システムを通じて、複雑化する科学の発見を拡張する新たなパラダイムを提唱しています。

Ke Li, Beijiang Liu, Bruce Mellado, Changzheng Yuan, Zhengde Zhang2026-03-10💻 cs

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

この論文は、台風やパンデミックなどの大規模社会イベント下での人間移動を生成する際、既存の手法が抱えるイベント注釈付きデータセットの欠如と習慣的パターンとイベント制約の競合を解決するため、初めてイベント注釈付きデータセットを構築し、Fuzzy-Trace 理論に基づく自己整合型 LLM フレームワーク「ELLMob」を提案するものです。

Yusong Wang, Chuang Yang, Jiawei Wang, Xiaohang Xu, Jiayi Xu, Dongyuan Li, Chuan Xiao, Renhe Jiang2026-03-10🤖 cs.LG

Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

本論文は、大規模言語モデル(LLM)を用いた自動アルゴリズム設計において、推論過程を段階的に分解し多エージェントシステムとフィードバック機構を導入した「EvoStage」を提案し、チップ配置やベイズ最適化などの実務課題において人間や既存手法を上回る高性能なアルゴリズムを生成できることを実証しています。

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning

この論文は、事前学習モデルの知識限界を克服し、人間と協働して継続的に学習・改善する自律型マルチエージェントシステムを実現するため、メタ認知ポリシーを学習し、即時の判断と長期的な能力向上を分離する「二重ループ方策最適化」を採用した HILA フレームワークを提案し、数学や問題解決のベンチマークで先行するマルチエージェントシステムを上回る性能を実証したものである。

Wei Yang, Defu Cao, Jiacheng Pang, Muyan Weng, Yan Liu2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

本論文は、動的環境におけるマルチロボット探索の課題を解決するため、実行の信頼性(フィデリティ)推定をタスク割当と運動実行に統合し、自律的な適応と衝突回避を実現するハイブリッド学習・計画フレームワーク「VORL-EXPLORE」を提案するものである。

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs