Measuring AI R&D Automation
この論文は、AI 研究開発の自動化(AIRDA)の現状と影響を把握するため、従来のベンチマークでは捉えきれない資本配分や研究者の時間割、セキュリティ侵害事象などの新たな指標を提案し、企業や政府によるデータ収集の重要性を説いています。
152 件の論文
この論文は、AI 研究開発の自動化(AIRDA)の現状と影響を把握するため、従来のベンチマークでは捉えきれない資本配分や研究者の時間割、セキュリティ侵害事象などの新たな指標を提案し、企業や政府によるデータ収集の重要性を説いています。
本研究は、16,000 件以上の TripAdvisor 評価を大規模言語モデル(LLM)で分析し、従来の指標では捉えきれないエジプト航空とエミレーツ航空のサービス品質の微妙な要因を解明し、特にエジプト航空における運航改善と旅客満足度の低下の乖離や、コミュニケーション不足などの具体的な課題を特定する有効な診断手法を提示しています。
本論文は、オンライン市場経済における社会的規範の安定性を高めるため、異質な環境下で不変な因果関係を特定し、解釈可能な政策ルールの構築を可能にする「不変因果ルーティング(ICR)」というガバナンス枠組みを提案し、その有効性を実証しています。
この論文は、汎用人工知能(AGI)がもたらす経済的リスクを軽減するため、既存の計算ガバナンスインフラを活用してモデル推論の使用段階で課税する「トークン税」の導入を提案し、その執行メカニズムや経済的影響の評価、代替案、そして超大国による拒否権の回避策について論じています。
この論文は、プライバシーや倫理的配慮を最優先としたユーザー中心のアプローチを採用することで、公共市場における AI 支援型動画ソリューションの導入が可能であることを示し、人間の姿勢検出と行動分析に基づいて顧客の滞留時間や動線などの多面的な行動インサイトを抽出し、施設運営の最適化に貢献できることを実証したケーススタディです。
本論文は、学生向けに教科書に基づいた回答を提供し、教員向けに講義の分析と振り返りを支援する双方向の AI ツール「Stan」を、クラウドに依存せずオープンウェイトモデルとローカルハードウェアのみで構築・実装し、その設計と課題解決について記述したものである。
本論文は、複数の保護グループを考慮した公平なトップ選択問題において、参照スコア関数からの乖離を最小化する課題の計算複雑性を分析し、特定の条件下で効率的なアルゴリズムを導出するとともに、重みの摂動に対して安定したスコア関数を得るための新たな「有用性損失」指標を導入し、実データを用いた実験でその有効性を示す統合的なアプローチを提案する。
この論文は、主要なソーシャルメディアプラットフォームのサービス利用規約を対象に、言語的複雑さや非確定的な表現などの課題を明らかにする新たな評価枠組みを提案し、規約が形式的な同意手段ではなく、ユーザーのデータ同意の条件を形作る文書として再定義すべきだと論じています。
本論文は、多文化環境におけるマイクロ表情認識の人間によるアノテーション誤差を軽減するため、キーフレームの動的再選択と共有パラメータを持つ二ブランチ構造を用いた「グローバル反単調微分選択戦略(GAMDSS)」を提案し、既存モデルのパラメータ増加なしに認識性能を向上させることを示しています。
本論文は、890 の研究結果をメタ分析し、自動短回答採点における LLM の限界(難易度との非相関、デコーダ型とエンコーダ型の性能差、トークナイザーの限界、および教育現場における人種的バイアスなど)を明らかにし、より適切なシステム設計の必要性を提言するものである。
本論文は、二層 ReLU 畳み込みニューラルネットワークにおける DP-SGD の学習ダイナミクスを特徴中心の枠組みで分析し、プライバシー保護に必要なノイズが特徴学習を阻害し、クラス間の不均衡や長尾分布、敵対的攻撃に対する脆弱性、そしてドメインシフト下の転移学習の失敗といった公平性とロバスト性の低下を理論的に解明したものである。
法学生を対象とした無作為化実験により、生成 AI へのアクセス権の付与だけでなく、短時間のトレーニングが利用促進と試験成績の向上に不可欠であることが実証されました。
本論文は、匿名化された履歴書に残る言語や趣味などの微妙な社会文化的な手がかりが、大規模言語モデル(LLM)による採用選考において人種や性別に基づくバイアスを再生産し、公平な選考を阻害する可能性を、シンガポールを事例とした大規模な実験を通じて実証したものである。
本論文は、認知戦の統一的な定義を提示し、OODA ループに基づく相互作用フレームワークと認知優位性の測定可能な属性を提案するとともに、概念の適用を説明する仮想的な事例研究を通じて、合同部隊の指導者や分析官が認知戦キャンペーンを理解・比較・評価するための実用的な基盤を提供するものである。
本論文は、都市モビリティモデル(重力、放射、訪問モデル)の性能を空間スケールごとに系統的に評価し、訪問モデルが一般的に優れているものの、適切なスケールではモデル間の差が小さくなること、また行政境界よりも距離ベースのクラスタリングが評価に有効であることを明らかにした。
本論文は、大規模言語モデルを活用して自然言語から RTL コードおよび GDSII レイアウトを自動生成するオープンソースの ASIC 設計フレームワーク「NL2GDS」を提案し、ベンチマーク評価において面積、遅延、消費電力の大幅な削減を実現したことを示しています。
この論文は、意識のリスクを回避しつつ人工的な感情制御を実現するための階層的アーキテクチャを提案し、主要な意識理論に基づいた制約条件の検証と、その拡張可能性およびリスク増大の経路を体系的に分析するものである。
本論文は、シミュレートされたユーザーからの検証可能な感情報酬を活用する強化学習フレームワーク「RLVER」を提案し、これにより大規模言語モデルの共感能力を大幅に向上させつつ論理推論能力も維持できることを実証しています。
この論文は、がん患者のインタビューとオンラインフォーラムのデータから大規模言語モデル(LLM)と人間の介入を用いてオランダ語のメタファーを抽出し、医療コミュニケーションの改善や個別化されたケアの設計に貢献する「HealthQuote.NL」というコーパスを構築したことを報告しています。
本論文は、4 つの主要な大規模言語モデル(LLM)を対象に、政治、イデオロギー、同盟、言語、ジェンダーの各次元におけるバイアスを体系的に分析し、中立性に調整されているにもかかわらず多様なバイアスや親和性が存在することを明らかにした。