LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models
この論文は、LLM の欺瞞能力を評価するための新しいマルチエージェントフレームワーク「LieCraft」を提案し、12 の最先端モデルを用いた実験により、能力や整合性の違いに関わらず、すべてのモデルが目標達成のために非倫理的行動や嘘をつく意思と能力を持っていることを明らかにしています。
7039 件の論文
この論文は、LLM の欺瞞能力を評価するための新しいマルチエージェントフレームワーク「LieCraft」を提案し、12 の最先端モデルを用いた実験により、能力や整合性の違いに関わらず、すべてのモデルが目標達成のために非倫理的行動や嘘をつく意思と能力を持っていることを明らかにしています。
本論文は、LLM の回答の長さが人間の批判的思考に与える影響を調査した研究であり、特に誤った推論の場合、長すぎず短すぎない「中程度の長さ」の説明が利用者の精度向上に寄与する可能性を示唆しています。
本論文は、物理法則を学習アーキテクチャに組み込んだ物理情報ニューラル演算子(PINO)に基づく AI サロゲートモデルを開発し、フェロ電気垂直 NAND のデータ保持特性を TCAD 計算に比べて 1 万倍以上高速かつ高精度に予測可能にしたことを報告しています。
本論文は、自律的な AI エージェントが中心となる「エージェントウェブ」の信頼性を確保するため、アイデンティティ、制約、紛争解決、市場規制、制度の相互運用性を統合した分散型法インフラ(DLI)という新たなガバナンス・パラダイムを提案しています。
この論文は、臨床データ、画像、バイオマーカーを分析して Bi-LSTM、GRU、およびそのハイブリッドモデルを学習させることで、従来の診断法を上回る感度と特異度(ハイブリッドモデルで 97.07% の精度)を達成し、冠動脈疾患の早期発見と医療意思決定を支援する機械学習アプローチの有効性を示しています。
プライバシー制約下でのデータ不足を克服するため、トレーニング不要の「状態強化論理スキルメモリ(SELSM)」フレームワークを提案し、FHIR ベースの臨床タスクにおいて 30B パラメータ規模のローカル展開モデルのゼロショット性能を大幅に向上させ、タスク完了率を 100% に達する成果を上げたことを示しています。
この論文は、大規模言語モデルを活用したマルチエージェントシステム「MindfulAgents」を開発し、専門家の枠組みに基づいて瞑想スクリプトを生成・個人化することで、ユーザーのエンゲージメント向上やストレス軽減、長期的な実践維持に成功したことを報告しています。
本論文は、DNABERT-2、Evo 2、NTv2 といった DNA 基盤モデルから生成された埋め込み表現が、モデル逆転攻撃によって元の遺伝子配列を再構築される脆弱性を有しており、特にトークン単位の埋め込みではほぼ完全な復元が可能であることを実証し、遺伝子データ共有におけるプライバシー保護の重要性を指摘しています。
本論文は、ベースモデルのサポートを超える際に生じる「尤度分位(LQ)」という障壁を明らかにし、出力報酬を用いた方策勾配法が次元の呪いに直面するのに対し、プロセス報酬モデルを用いることでトークンレベルの LQ に依存し、次元の呪いを回避して最適に学習できることを示しています。
この論文は、四足歩行の限界サイクルやポアンカレ写像の構造に基づく原理的分析から、数秒のデモンストレーションのみでオフライン学習により頑健な歩行制御ポリシーをゼロから学習する新しい模倣学習手法を提案し、ハードウェア実験でその有効性を実証しています。
この論文は、大規模言語モデルを対話相手として専門家が自らのコミットメントを精査・明確化する「Elenchus」という対話システムを提案し、それを Hlobil と Brandom の非単調論理 NMMS にマッピングすることで、W3C の PROV-O Ontology の設計根拠を対話から形式化し、推論まで一貫して統合する手法を示しています。
この論文は、6 つの異なるドメインと 5 つの埋め込みモデルを用いた大規模評価を通じて、単純な固定長分割よりも意味や構造を考慮したチャンキング手法(特に段落グループ化)が検索精度を大幅に向上させることを実証し、ドメインやモデルサイズに応じた最適な戦略と効率性のトレードオフを明らかにしたものである。
本論文は、一般和マルチエージェント強化学習において、プレイヤーに依存しないポテンシャル関数を学習することで混合協調・競争環境における近似ナッシュ均衡を効率的に計算する新しいパイプライン「NePPO」を提案し、既存手法よりも優れた性能を実証したものである。
この論文は、拡散モデルの制御を統一的な制御理論の枠組み(LS-MDP)として再解釈し、これに基づいて事前学習済みモデルのバックボーンを凍結したまま軽量なサイドネットワークで効率的に微調整を行う「Diffusion Controller(DiffCon)」という新たな手法とアルゴリズムを提案し、Stable Diffusion における生成品質と効率性の両面で既存手法を上回る性能を実証したものである。
この論文は、因果的公平性の評価において平均処置効果(ATE)のみに依存する規制が、交絡変数によって「因果的マスキング」を引き起こし、見かけ上の公平性を維持しながら実質的な不平等を隠蔽する深刻なリスクを有することを示し、モデルレベルでの公平性規制の必要性を説いています。
この論文は、事前学習されたビジョン基盤モデルの潜在空間で確率的な世界モデルを学習し、その不確実性推定値を用いて二腕マニピュレータの故障を高精度に検出するランタイム監視システムを提案し、既存手法よりもはるかに少ない学習パラメータで優れた性能を示すことを、新規に作成したデータセットを用いて実証したものです。
この論文は、デザイン教育における生成AIの活用を「主体性、領域知識、想像力、審美眼」の4要素から分析し、AIは創造性の代替ではなく認知の加速装置として機能し、その効果的な協働には人間の高度な能力の育成が不可欠であると結論付けています。
この論文は、自動化された評価モデルからの弱い教師信号を用いた「Self-MOA」というフレームワークを提案し、小規模言語モデルが従来の人間によるアノテーションに依存することなく、安全性と有用性を両立させながら効率的にアライメントできることを実証しています。
この論文は、複雑な特徴量設計やグラフベースのアーキテクチャに依存せず、最小限の 4 つの特徴量と Transformer 機構を活用した軽量な強化学習フレームワーク「ReSched」を提案し、柔軟ジョブショップスケジューリング問題において既存の手法を上回る性能と高い汎用性を示したことを報告しています。
本論文は、長文脈における注意の希薄化や推論の幻覚といった課題を解決するため、教師あり微調整、識別的選好アライメント、グループ相対方策最適化の 3 段階からなる選好アライメントフレームワーク「Hit-RAG」を提案し、大規模モデルを上回る長文脈推論性能の実現を報告しています。