cs.AI 件の論文 | Gist.Science

AI Steerability 360: A Toolkit for Steering Large Language Models

IBM が公開した「AI Steerability 360」は、プロンプト、構造、状態、出力の 4 つの制御面を統一的なパイプラインで操作し、複数の手法を組み合わせることで大規模言語モデルの制御と評価を容易にするオープンソースの Python ツールキットです。

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

Intentional Deception as Controllable Capability in LLM Agents

この論文は、LLM エージェント間の対話における意図的な欺瞞を体系的に研究し、事実確認防御では見逃されがちな「誤導（真実の戦略的枠組み）」が主要な攻撃手法であり、特に特定の行動プロファイルや動機を標的とした攻撃が効果的であることを明らかにしています。

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

この論文は、強化学習単独では不十分な探索行動を改善するため、合成されたツール使用軌道を用いて冷たいスタート時の教師あり微調整を強化し、深層研究における探索を促進する「SynPlanResearch-R1」というフレームワークを提案し、複数のベンチマークで最先端の性能向上を実現したことを報告しています。

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

この論文は、生物学的な睡眠と記憶の再活性化に着想を得た「睡眠リプレイ統合（SRC）」という手法を提案し、教師あり再学習なしに人工ニューラルネットワークの過信問題を解決し、信頼性の高い確率推定を実現することを示しています。

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

本論文は、観光・ホスピタリティ分野における意思決定支援に焦点を当て、画像から得られる有用な情報を定量化する「情報性（Informativeness）」という新たな枠組みを提案し、これに基づいて構築された専用データセットを用いた評価により、最先端の視覚言語モデルがドメイン固有の微調整を経て初めて信頼性の高い意思決定支援が可能になることを明らかにしています。

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

この論文は、既存の評価手法の限界を克服し、実世界の複雑な制約や制御フローを反映した新しいベンチマーク「CCR-Bench」を提案し、最先端の LLM でさえも実用的な指示理解において大きな課題を抱えていることを明らかにしています。

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

この論文は、粒子フィルタリング（特に逐次モンテカルロ法）の理論的枠組みを用いて、言語モデル推論における並列サンプリング手法の精度とコストのトレードオフを厳密に分析し、その理論的限界と実証的な知見を明らかにしています。

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

本論文は、産業・医療・航空など多様な領域における微妙な視覚的差異の識別を評価する新たなベンチマーク「VLM-SubtleBench」を提案し、既存の VLM が人間のレベルに達するまでには、属性や状態などの細かな違いに対する推論能力において依然として大きな課題が残っていることを明らかにしています。

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

この論文は、画像のピクセルをエージェントとしてモデル化し、ヘドニックゲームにおける coalition 形成を画像セグメンテーションという視覚的テストベッドとして検証し、メカニズム設計パラメータが均衡構造に与える影響を定量化することを提案しています。

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

A Lightweight Traffic Map for Efficient Anytime LaCAM*

この論文は、大規模な多エージェント経路探索問題において、既存のガイダンス経路アプローチの計算オーバーヘッドと静的な限界を克服し、LaCAM* が探索中に構築する動的で軽量な交通マップを活用することで、より高品質な解を効率的に得る手法を提案しています。

Bojie Shen, Yue Zhang, Zhe Chen, Daniel Harabor2026-03-10💻 cs

Designing probabilistic AI monsoon forecasts to inform agricultural decision-making

この論文は、多様な農家の事情に合わせた意思決定を支援するため、AI 気象予測モデルと「変化する農家の期待」を反映した統計モデルを融合させた確率的なモンスーン予報システムを開発し、2025 年にインドの 3800 万人の農家に展開して効果を実証したことを報告しています。

Colin Aitken, Rajat Masiwal, Adam Marchakitus, Katherine Kowal, Mayank Gupta, Tyler Yang, Amir Jina, Pedram Hassanzadeh, William R. Boos, Michael Kremer2026-03-10🤖 cs.LG

SMGI: A Structural Theory of General Artificial Intelligence

この論文は、学習インターフェースの進化を制御する構造モデル（SMGI）を提案し、その数学的枠組みを通じて従来の学習手法を包含する一般人工知能の理論的基礎と一般化保証を確立するものである。

Aomar Osmani2026-03-10🤖 cs.LG

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

本論文は、電子カルテデータ上でタスク条件付き事前学習を行うことで、従来の自己回帰モデルよりも効率的かつ高精度に、微調整なしで多様な臨床予測タスクをゼロショットで実行できる新しい基礎モデル「EveryQuery」を提案し、MIMIC-IV における 39 個のタスクの 82% で性能向上を実証した研究です。

Payal Chandak, Gregory Kondas, Isaac Kohane, Matthew McDermott2026-03-10💻 cs

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

本論文は、外部トラッキング装置を必要とせず、事前の CT 画像とライブ内視鏡映像のみを用いて、短期反応エージェントと長期戦略エージェント、そして世界モデルクリティックを階層的に統合した自律型気管支鏡ナビゲーションシステムを提案し、その生体前臨床試験における有効性を実証したものである。

Junyang Wu, Mingyi Luo, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Chunxi Zhang, Junhao Wang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

本論文は、マルチステップのタスクにおいて各手順の難易度に応じて推論コストを動的に調整する軽量ルーター「Ares」を提案し、推論トークン使用量を最大 52.7% 削減しながらタスク成功率を維持する手法を提示しています。

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang2026-03-10💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

本論文は、リレーショナルデータベースにおける不均衡データ問題に初めて着目し、関係性ごとのゲート制御と関係性ガイドの少数派合成を用いて不均衡なエンティティ分類を改善する深層学習手法「Rel-MOSS」を提案し、既存手法を上回る性能を実証したものである。

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi Zhang2026-03-10🤖 cs.LG

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

本論文は、Vision Transformer の線形層を特異値分解し特異値のみを適応させる「IMSE」を提案し、エントロピー最小化の限界を克服する多様性最大化損失とドメイン認識スペクトルコード検索を導入することで、テスト時適応および継続的テスト時適応において極めて少ない学習パラメータで最先端の性能を実現する手法を提示しています。

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

← 前へ次へ →

cs.AI