TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks
本論文は、Kaggle 風のタスクにおけるデータサイエンスエージェントの性能を評価するベンチマーク「TML-Bench」を提案し、10 のオープンソース LLM を複数の時間制約下で評価した結果、MiniMax-M2.1 モデルが最も優れた総合性能を示したことを報告しています。
7281 件の論文
本論文は、Kaggle 風のタスクにおけるデータサイエンスエージェントの性能を評価するベンチマーク「TML-Bench」を提案し、10 のオープンソース LLM を複数の時間制約下で評価した結果、MiniMax-M2.1 モデルが最も優れた総合性能を示したことを報告しています。
この論文は、異なるドメインで微調整されたモデルの合併時に生じる特異部分空間の競合を、すべてのモデルの主要特異ベクトルを結合して共通直交基底を求め、競合する特異方向を剪除する「SCORE」という手法で解決し、ドメイン一般化性能を向上させることを提案しています。
本論文は、大規模言語モデルのより深い層にある注意ヘッドの脆弱性を特定し、そのアブレーション影響に基づくヘッド選択戦略と境界認識摂動法を組み合わせた新しい脱獄フレームワーク「SAHA」を提案し、既存手法を大幅に上回る成功率を達成したことを示しています。
本論文は、LLM の安全性メカニズムが「危険性の認識」と「拒絶の実行」という二つの独立したサブ空間に分離しているという仮説を提唱し、これを検証して「拒絶を消去する攻撃」を開発するとともに、モデル間のアーキテクチャ的差異を明らかにした。
この論文は、患者が生成したテキストから構造化された患者の声(生活経験や社会的要因など)を抽出するためのベンチマーク「PVminer」と、それを用いた教師あり微調整大規模言語モデル「PVminerLLM」を提案し、小規模モデルでも高い精度で非臨床的な健康要因を大規模に分析可能であることを示しています。
この論文は、ニュースの地域性(国内・世界)に関する多様性を高めることを目的とした「双方向較正アルゴリズム的ナッジ」と「LLM ベースの提示ナッジ」を 120 名の米国人読者を対象に 5 週間にわたり実証研究した結果、アルゴリズム的ナッジが多様なニュースの接触と消費を成功裡に増加させたこと、および長期的な較正されたニュースへの曝露が読者の習慣を国内と世界のニュースのバランスを重視する方向へ変容させる可能性を示したことを報告しています。
この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。
この論文は、AI エージェントの安全性対策が虚偽で広告されていないことを検証可能にするため、信頼実行環境(TEE)を用いて特定のオープンソースガードルールの実行を暗号的に証明する「Proof-of-Guardrail」というシステムを提案し、その実装と評価、および悪意ある開発者によるガードルールの回避という新たなリスクについても論じています。
本論文は、大規模なマルチモーダル生成ワークロードのリアルタイム配信を可能にする適応型モジュールシステム「StreamWise」を提案し、ハードウェアの多様性や品質・リソースの動的調整を通じて、低遅延・低コストかつ高品質なポッドキャスト動画生成を実現しています。
本論文は、LLM が多義的な概念を単一の解釈に収束させる「曖昧性の収束」という現象を定義し、そのプロセス・出力・生態系における認識論的リスクを分類し、曖昧性を維持・管理するための多層的な緩和策を提案するものである。
この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。
本論文は、対話型可視分析(CVA)における大規模言語モデルの評価課題を解決するため、開発者やエンドユーザーからのインタビューに基づき、実世界シナリオに対応するテストケース、解釈可能な評価指標、そしてプログラミング不要の対話型ツールキット「Lexara」を提案し、その有効性を実証したものである。
この論文は、対比プロンプティングを用いたホワイトボックス分析により、大規模言語モデル(GPT-J-6B)の内部における信頼の表現が、人間の信頼モデル(特にカステルフランキの社会認知モデル)と高い整合性を示すことを明らかにし、人間-AI 協働システムの設計や社会認知理論の発展に貢献する知見を提供しています。
この論文は、CNN と Vision Transformer の長所を組み合わせつつ、冗長な特徴表現によるボトルネックを回避するために 4 つの独立した融合モデルを最終予測段階でアンサンブルする手法を提案し、リモートセンシング画像分類において既存のアーキテクチャを上回る高い精度と計算効率を達成したことを示しています。
この論文は、検証済みの実行軌跡から自律的に有効なツールシーケンスを特定・合成し、新しい高レベルのプリミティブとして登録することで、静的なツール構成から経験駆動型の自己進化型医療エージェント「MACRO」を提案し、多様な医療画像タスクにおけるオーケストレーション精度とドメイン間汎化性能を向上させる手法を報告しています。
本論文は、基盤モデルやエージェント AI の進歩に伴う計算病理学の臨床応用における技術的・経済的・規制上の課題を国際的な専門家の視点から分析し、患者ケアへの責任ある統合と実用化に向けた現状と障壁を評価するレビューです。
本論文は、自己教師あり表現再構成損失(SSRR)を導入することで、低遅延のストリーミング型ニューラルオーディオコーデックにおいて、高知覚性を実現しつつ単一 GPU での効率的な学習を可能にする「JHCodec」を提案し、最先端の性能を達成したことを示しています。
この論文は、大規模言語モデルによる長編物語生成における一貫性欠如の問題を特定し、5 つのカテゴリーと 19 のサブタイプからなるエラー分類体系を定義した評価ベンチマーク「ConStory-Bench」と自動検出ツール「ConStory-Checker」を提案し、事実や時間軸における矛盾が物語の中間部分やエントロピーの高い領域で頻発する傾向を実証的に明らかにしたものです。
本論文は、単一の最適化参照分子のみから学習する必要がある分子最適化タスクにおいて、参照分子の中間推論経路を文脈として活用しつつ探索と利用をバランスさせる「参照誘導方策最適化(RePO)」を提案し、既存の教師あり微調整や強化学習手法を上回る性能を達成することを示しています。
本論文は、LLM を活用してシミュレータコードからアーキテクチャ知識を抽出しボトルネック分析を行う「LUMINA」という GPU 設計空間探索フレームワークを提案し、従来の機械学習ベース手法や人手による探索に比べてはるかに少ないステップ数で A100 を凌駕する高性能・低面積の GPU 設計を効率的に発見できることを示しています。