Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!
この論文は、推論タスクにおける中間トークンを「思考の痕跡」や「思考」として擬人化することは、モデルの本質を誤解させ、研究の質を低下させる危険な行為であるとして、その表現を避けるよう学界に呼びかけています。
7179 件の論文
この論文は、推論タスクにおける中間トークンを「思考の痕跡」や「思考」として擬人化することは、モデルの本質を誤解させ、研究の質を低下させる危険な行為であるとして、その表現を避けるよう学界に呼びかけています。
この論文は、成人を対象とした AI 生成の非同意性画像(ディープフェイクポルノ)を容易に作成可能にする「悪意ある技術生態系」の存在を指摘し、NIST の報告書に基づく現在のガバナンス手法がその生態系を効果的に規制できていないことと、その背景にある誤った前提を明らかにする survivor-centered(生存者中心)のアプローチを採った研究です。
本論文は、分散機械学習のパラダイムである連合学習のアーキテクチャ、ライフサイクル、非 IID データや通信オーバーヘッドといった技術的課題、プライバシー保護技術、および将来の研究方向性を含む包括的な概要を提供する調査論文である。
本論文は、PDF や Web ページなどに埋め込まれた複雑な構造を持つ人間中心の表(HCT)に対する自然言語での質問応答を評価するための大規模ベンチマーク「HCT-QA」を提案し、その構成と 25 種類の LLM および 9 種類の VLM による性能評価、ファインチューニングによる大幅な精度向上を実証しています。
本論文は、ボルツマン方程式の非線形衝突演算子を効率的に近似し、解像度に依存しない学習やゼロショット超解像を可能にする「FourierSpecNet」と呼ばれる、フーリエスペクトル法と深層学習を融合させた新しいハイブリッド枠組みを提案し、その精度と計算コストの削減効果を検証したものである。
この論文は、報酬モデルを推論タスクとして再定義し、高品質な推論チェーンの蒸留と検証可能な報酬による強化学習を通じて、より解釈性が高く高性能な「推論型報酬モデル(ReasRMs)」の一種である RM-R1 を提案し、既存の巨大モデルやプロプライエタリモデルを上回る性能を実証したものである。
この論文は、178 のベンチマークを SDLC(ソフトウェア開発ライフサイクル)の観点から体系的に分析し、実装フェーズへの偏りやデータ汚染対策の欠如といった課題を明らかにするとともに、CodeLLM とエージェントの実用性向上に向けた今後の研究方向性を示唆しています。
本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。
この論文は、推論時の活性化制御(アクティベーション・ステアリング)技術、特に kNN ベースの条件付き手法「K-CAST」を導入することで、大規模言語モデルが内容の妥当性と論理的妥当性を混同するバイアスを軽減し、形式論理的推論の精度を最大 15% 向上させることを実証しています。
本論文は、既存の評価手法が抱える情報の非効率性という課題を解決するため、LLM の内部価値境界を探索して適応的にテスト質問を生成・拡張し、モデル間の価値差をより明確かつ有益に測定する新たなアルゴリズム「AdAEM」を提案し、その有効性を検証したものである。
本論文は、環境・社会・ガバナンス(ESG)およびサステナビリティ分野における大規模言語モデル(LLM)の能力を評価・強化するための包括的なベンチマーク「ESGenius」を提案し、専門家の検証を受けた 1,136 問の質問と 231 件の基礎文書からなるコーパスを用いた評価により、ゼロショット設定では限界があるものの、信頼性の高い情報源に基づく検索拡張生成(RAG)手法を適用することでモデルの性能が大幅に向上することを示しています。
本論文は、データレイクから洞察を得るための複雑なデータ処理パイプラインの設計と実行を評価する新しいベンチマーク「KramaBench」を提案し、現在の AI システムが個々のタスクや草案の生成では一定の成果を収めるものの、実用的なエンドツーエンドのパイプラインを構築する能力には依然として大きな課題があることを明らかにしています。
本論文は、視覚的に極めて類似した図形から正解を識別する高度な推論能力を評価する新たなベンチマーク「VisioMath」を提案し、現在の多モーダルモデルが画像とテキストの整合性不足により類似図形の比較推論で失敗しやすいことを明らかにするとともに、アライメント指向の戦略による性能向上を実証しています。
この論文は、既存の倫理評価が過剰に単純化されたシナリオに依存している点を批判し、道徳的関連性の識別を含む多面的な枠組みを用いた実験を通じて、ノイズの多い情報から道徳的要素を見極める能力において現在のLLMが人間より劣る可能性を示唆し、AI の道徳的コンピテンス評価の再考を促すものである。
この論文は、言語モデルの特定の潜在特徴や動作を誘発する入力生成手法を「文脈修正」として定式化し、その能力と安全性への応用を評価するベンチマーク「ContextBench」を提案するとともに、LLM 支援や拡散モデルによる修正を加えた進化型プロンプト最適化(EPO)が、誘発効果と言語的流暢さのバランスにおいて最先端のパフォーマンスを達成することを示しています。
本論文は、大規模言語モデル(LLM)の重みを固定したまま、ユーザーの入力に応じてシステムプロンプトを適応的に調整する「Sysformer」というトランスフォーマーモデルを提案し、有害な入力への拒否率や安全な入力への対応精度を大幅に向上させ、高度な脱獄攻撃に対しても堅牢性を高めることを実証しています。
本論文は、ノイズやハードウェア制約に直面する実用的な量子ハードウェアにおいて、変分パラメータの最適化を不要としつつ、浅い量子特徴マップを反復的に結合するハイブリッド量子古典フレームワーク「反復量子特徴マップ(IQFMs)」を提案し、量子畳み込みニューラルネットワークや古典的ニューラルネットワークと同等以上の性能を実現する手法を提示しています。
この論文は、異なる AI モデルやモダリティ間でも高レベルな概念を共通の疎な潜在空間で表現し、解釈可能性を大幅に向上させる新たなフレームワーク「SPARC」を提案し、その有効性を示すものです。
この論文は、MOOCs、スマートティーチング、AI という 3 つの教育パラダイムをそれぞれ構造化された曝露、適応的配分、効率性増幅という補完的な次元として統合し、一貫した教授論的ロジックに基づく統一された教育枠組みを提案するものである。
この論文は、工業製品の欠陥検出において、正規と異常の両方の分布を明示的にモデル化する「ExDD」フレームワークと、ドメイン固有のテキスト条件付き潜在拡散モデルによる合成データ生成を組み合わせることで、従来の単一クラス異常検出の限界を克服し、KSDD2 データセットで高い検出精度を達成したことを提案しています。