Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models
この論文は、政治学者が自然言語処理モデルを選択する際、特定のタスクやリソースに応じて汎用モデルの微調整が専門特化モデルに匹敵する性能を発揮しうることを実証し、コストと精度のバランスを考慮した実践的な意思決定フレームワークを提示している。
1061 件の論文
この論文は、政治学者が自然言語処理モデルを選択する際、特定のタスクやリソースに応じて汎用モデルの微調整が専門特化モデルに匹敵する性能を発揮しうることを実証し、コストと精度のバランスを考慮した実践的な意思決定フレームワークを提示している。
この論文は、ALiBi 位置符号化に起因する BLOOM 系列モデルにおけるアテンションヘッドの崩壊現象を特定し、ターゲットとした重みの再初期化と勾配マスクによる「外科的修復」手法を開発することで、単一の消費向け GPU でモデルの機能回復とさらなる性能向上を実現したことを報告しています。
本論文は、未 poses の動画から幾何学と姿勢を最適化し、視覚基盤モデルから高次元のセマンティック特徴を 3D ガウスに蒸留する効率的なパイプライン「X-GS-Perceiver」と、それを活用して物体検出やゼロショットキャプション生成などの下流タスクを可能にする「X-GS-Thinker」を含む、3D ガウススプラッティングとマルチモーダルモデルを統合する拡張可能なオープンフレームワーク「X-GS」を提案し、リアルタイムなセマンティック強化 SLAM を実現するものである。
この論文は、プライバシー保護と再現性を確保しつつ、オープンソースのローカル展開型大規模言語モデル(Qwen2.5-72B)を用いて、放射線診断レポートから RECIST 基準に準拠した腫瘍の経時的な情報を高精度に抽出するパイプラインを提案し、その有効性を示したものである。
この ECIR 2025 の基調講演では、大規模言語モデルが事前学習で獲得したパラメトリック知識と検索された文脈知識の相互作用、特に両者の矛盾やモデルが文脈を無視する現象を解明するための評価手法や診断テストに関する研究が紹介されます。
本研究は、高齢者の心血管リスク管理における手動コーディングの限界を克服するため、3,482 人の患者の非構造化電子健康記録を用いて、従来の機械学習や生成 LLM、および構造化データとの融合手法を比較評価し、長距離依存性を捉えることに特化したカスタム Transformer 構造が最も高い性能を示したことを明らかにしました。
この論文は、食材、調理法、栄養価の分析を通じて意味的、語彙的、ドメイン的視点を融合させ、料理の類似度を推定する手法を開発し、専門家による検証を通じてどの要素が判断に最も影響を与えるかを明らかにした研究です。
本論文は、既存のタスク指向対話モデルが特定のデータセットに依存する課題を解決するため、LLM のフルパラメータ微細化と指示・スキーマの両方のアライメント機構を導入し、低リソース環境やノイズに対する頑健性と汎用性を大幅に向上させた統合エンドツーエンドフレームワーク「ESAinsTOD」を提案するものである。
RLHF における高コストな選好データ収集の課題を解決するため、不確実性推定と新しい探索手法を用いて最も有益な回答を動的に特定するアクティブラーニングパイプライン「ActiveUltraFeedback」を提案し、従来の手法の 6 分の 1 のデータ量で同等以上の性能向上を実現したことを示しています。
本論文は、Muon 最適化アルゴリズムが抱く等方的な制約の限界を克服し、Shampoo 由来の統計量を用いた曲率感知の事前条件付けを導入することで、大規模言語モデルの学習効率を大幅に向上させる新しい最適化手法「Mousse」を提案する。
本論文は、食品栄養データベースを用いた RAG システムにおいて、LLM が自然言語を構造化メタデータに変換して検索を行う手法の有効性を評価し、明示的な制約条件を持つクエリでは高い精度を示すが、メタデータ形式で表現できない複雑な制約を含むクエリでは依然として信頼性の高い検索が困難であることを明らかにしている。
本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。
この論文は、査読者のコメントが著者によってどのように修正や反論に結びついたかを示す「反論(rebuttal)」を教師信号として活用し、LLM が具体的かつ実行可能な査読フィードバックを生成するための新しい手法「RbtAct」と大規模データセット「RMR-75K」を提案し、その有効性を示したものである。
この論文は、実世界の一人称視点動画から構築された新しいベンチマーク「EXPLORE-Bench」を提案し、マルチモーダル大規模言語モデルが長期的な物理的帰結を推論する能力に依然として大きな課題があることを示すとともに、段階的推論による性能向上の可能性と計算コストのトレードオフを分析しています。
本論文は、ファインチューニングに依存せず、ドメインオントロジーからの候補抽出と構造化証拠に基づく LLM の条件付け、および自信度に応じた再帰的ループを備えた「FoodOntoRAG」というパイプラインを提案し、オントロジーのドリフト下でも頑健かつ解釈可能な食品エンティティリンキングを実現するものである。
本論文は、欧州議会のスピーチとその翻訳・通訳を含む英独語対訳コーパス「EPIC-EuroParl-UdS」の更新版を提示し、メタデータの修正やアライメント情報の追加などを通じて、情報理論的アプローチによる言語変異研究や通訳におけるフィラー予測タスクへの応用を可能にするものである。
本論文は、CERN の CMS 実験など大規模科学コラボレーションにおける機密性を保ちつつ、内部ドキュメントから高精度に知識を抽出・回答するためのオンプレミス型 RAG ベースの AI アシスタント「MITRA」のプロトタイプとその評価結果を提示しています。
本論文は、自然言語の指示から実行可能で追跡可能な評価ワークフローを自動的に生成し、大規模言語モデルの評価における手作業の負担を軽減し、再現性と透明性を向上させるアージェントシステム「One-Eval」を提案するものである。
この論文は、長文脈推論における Chain-of-Agents の情報損失を削減し、推論精度を向上させるために、チャンク間の依存関係を Chow-Liu 木で学習し、その木構造に基づいた順序でチャンクを処理する手法を提案し、複数のベンチマークで既存の順序付け手法を上回る性能を実証したものです。
この論文は、最新のトランスフォーマー言語モデルが次単語予測の精度を上げすぎた結果、人間の読書時間の予測には単純な n-gram 統計量に基づいたモデルの方が適していることを示しています。