BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models
この論文は、大規模言語モデル(LLM)のツール選択における提供者偏りを特定し、その原因を分析した上で、関連ツールのフィルタリングと均一サンプリングによる偏り低減手法を提案するベンチマーク「BiasBusters」を提示するものである。
2384 件の論文
この論文は、大規模言語モデル(LLM)のツール選択における提供者偏りを特定し、その原因を分析した上で、関連ツールのフィルタリングと均一サンプリングによる偏り低減手法を提案するベンチマーク「BiasBusters」を提示するものである。
本論文は、採掘現場の監視映像から安全違反を直接検出する新しいビジョン・言語フレームワーク「MonitorVLM」を提案し、ドメイン固有のデータセット、条項フィルタ、行動拡大モジュールの導入により、既存の基盤モデルを大幅に上回る精度で安全監視の自動化を実現したことを示しています。
この論文は、ウェアラブル EEG による睡眠ステージ分類において、ラベル不足を克服し臨床レベルの精度を達成するために、教師なし学習(SSL)を体系的に評価し、汎用モデルを上回るドメイン特化型パイプラインの有効性を実証したものである。
この論文は、標準的な音声活動検出(VAD)モデルの特定の層に対してハイパーネットワークを用いてパーソナライズされた重みを生成する「HyWA」という手法を提案し、既存の条件付け手法と比較して精度の向上とアーキテクチャの再利用による展開の容易さを両立させることを示しています。
本論文は、クロスモーダル注意機構、Grad-CAM++ による帰属分析、および「提示 - 修正」フィードバックループを統合した説明可能なバイアス意識生成フレームワークを提案し、マルチモーダル MNIST やファッション MNIST などのベンチマークにおいて、高い精度、ロバスト性、公平性を達成したことを示しています。
本論文は、大規模データに依存せず多視点生成とカスタマイズ忠実性を両立させるため、幾何学的潜在レンダリングと補完技術を採用した新しい拡散モデル「MVCustom」を提案し、カメラポーズ制御とプロンプトベースのカスタマイズを幾何学的整合性を持って実現する手法を提示しています。
この論文は、実世界のデータセットにおけるカーネル回帰の学習曲線を、データ共分散行列と目標関数の多項式分解という 2 つの統計量のみから予測する「エルミート固有構造仮説(HEA)」を提案し、その有効性を理論的・実験的に実証するとともに、MLP の学習過程における Hermite 多項式の獲得にも言及しています。
この論文は、LLM 推論における KV キャッシュの効率的な管理を実現するため、PCA による特徴量非相関化、適応量子化、エントロピー符号化を組み合わせた軽量な変換符号化器「KVTC」を提案し、推論精度を維持しつつ最大 20 倍(特定用途では 40 倍以上)の圧縮率を達成し、既存の手法を上回るメモリ効率化を実現することを示しています。
この論文は、高温超伝導の分野における専門家の知識を評価基準として、6 つの LLM システムを比較検証し、キュレーテッド文献に基づく RAG 方式のシステムが既存のクローズドモデルを上回る包括的かつ証拠に裏打ちされた回答を提供できることを示しています。
本論文は、外部ツールの活用を促すために冷間起動と強化学習の 2 段階トレーニングを採用し、実世界のマルチモーダル推論を評価する RealX-Bench を導入することで、ツールを状況に応じて適応的に選択・組み合わせる自律型マルチモーダルモデル「DeepEyesV2」の構築とその有効性を示しています。
この論文は、条件付けされた変数の情報を明示的に除去する潜在フローマッチングに基づく「What We Don't C」という手法を提案し、生成モデルを用いて学習表現から捕捉されていない要因を解離・発見する新たなアプローチを示しています。
本論文は、周波数空間とピクセル空間の両方で勾配に基づいた適応的データ拡張を行う「D-GAP」を提案し、ドメインシフトに対する汎化性能を大幅に向上させる手法を提示しています。
本論文は、自動車テレメトリデータに見られる「緩やかなドリフト」と「急激なスパイク」という異なる時間スケールの動的特性を、双経路エンコーダとデコーダを用いて明示的に分離することで、既存手法よりも頑健な異常検知を実現する「STREAM-VAE」を提案しています。
遠隔 sensing 分野において、散在するドキュメントや複雑な制約条件による基盤モデルの選定課題を解決するため、160 以上のモデルを網羅する構造化データベース「RS-FMD」を構築し、自然言語クエリから制約条件を考慮して最適なモデルを自動選定・説明するエージェント「REMSA」を提案し、専門家の評価によるベンチマークでその有効性を実証した論文です。
本論文は、医療データにおけるプライバシー漏洩リスクに対処するため、医療概念の階層構造と幾何学的制約を統合し、特定知識の効率的な忘却と汎用医療能力の維持を両立させる階層的二重戦略のアンラーニング手法を提案し、MedMCQA や MHQA などのデータセットで高い忘却率と知識保持率を達成したことを示しています。
この論文は、SEC 提出書類や傷害報告などの業界標準データを Isaac Sim の物理シミュレーションと統合し、タスク成功だけでなく実世界の経済的採算性を評価する初の物理ベースのベンチマーク「CostNav」を提案し、既存の 7 つのナビゲーション手法がいずれも経済的に成立していないことを示しています。
インドの数学オリンピック問題を対象とした、AI と人間の協働パイプラインにより構築され、312 件の人間検証済み Lean 4 定理を含む新しいベンチマーク「IndiMathBench」を提案し、大規模言語モデルにおける自動形式化の現状と課題を明らかにした。
この論文は、生成された動画フレームの各領域における不確実性を高密度に推定し、物理的現実と一致しない「幻覚」を検知・可視化することで、ロボット制御などのタスクにおける信頼性を向上させる新しい不確実性定量化手法「C3」を提案するものです。
この論文は、フラグメントベースの言語モデル、強化学習、モンテカルロ木探索を統合した「Trio」というフレームワークを提案し、既存の手法を凌駕する結合親和性、薬物様性、合成容易性、および分子多様性を備えた解釈可能な閉ループ型分子発見を実現することを示しています。
この論文は、異なる環境間で最大リスクを最小化する(MaxRM)という原則に基づき、平均二乗誤差、負の報酬、後悔の 3 つのリスク指標に対応するランダムフォレストの新しい変種を提案し、その計算効率性、統計的整合性、および未見のテスト分布に対する保証を実証しています。