cs.CL 件の論文 | Gist.Science

Build, Borrow, or Just Fine-Tune? A Political Scientist's Guide to Choosing NLP Models

この論文は、政治学者が自然言語処理モデルを選択する際、特定のタスクやリソースに応じて汎用モデルの微調整が専門特化モデルに匹敵する性能を発揮しうることを実証し、コストと精度のバランスを考慮した実践的な意思決定フレームワークを提示している。

Surgical Repair of Collapsed Attention Heads in ALiBi Transformers

この論文は、ALiBi 位置符号化に起因する BLOOM 系列モデルにおけるアテンションヘッドの崩壊現象を特定し、ターゲットとした重みの再初期化と勾配マスクによる「外科的修復」手法を開発することで、単一の消費向け GPU でモデルの機能回復とさらなる性能向上を実現したことを報告しています。

Palmer SchallonWed, 11 Ma💬 cs.CL

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

本論文は、未 poses の動画から幾何学と姿勢を最適化し、視覚基盤モデルから高次元のセマンティック特徴を 3D ガウスに蒸留する効率的なパイプライン「X-GS-Perceiver」と、それを活用して物体検出やゼロショットキャプション生成などの下流タスクを可能にする「X-GS-Thinker」を含む、3D ガウススプラッティングとマルチモーダルモデルを統合する拡張可能なオープンフレームワーク「X-GS」を提案し、リアルタイムなセマンティック強化 SLAM を実現するものである。

Yueen Ma, Irwin KingWed, 11 Ma💬 cs.CL

Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

この論文は、プライバシー保護と再現性を確保しつつ、オープンソースのローカル展開型大規模言語モデル（Qwen2.5-72B）を用いて、放射線診断レポートから RECIST 基準に準拠した腫瘍の経時的な情報を高精度に抽出するパイプラインを提案し、その有効性を示したものである。

Luc Builtjes, Alessa HeringWed, 11 Ma💬 cs.CL

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

この ECIR 2025 の基調講演では、大規模言語モデルが事前学習で獲得したパラメトリック知識と検索された文脈知識の相互作用、特に両者の矛盾やモデルが文脈を無視する現象を解明するための評価手法や診断テストに関する研究が紹介されます。

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

本研究は、高齢者の心血管リスク管理における手動コーディングの限界を克服するため、3,482 人の患者の非構造化電子健康記録を用いて、従来の機械学習や生成 LLM、および構造化データとの融合手法を比較評価し、長距離依存性を捉えることに特化したカスタム Transformer 構造が最も高い性能を示したことを明らかにしました。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI

Fusing Semantic, Lexical, and Domain Perspectives for Recipe Similarity Estimation

この論文は、食材、調理法、栄養価の分析を通じて意味的、語彙的、ドメイン的視点を融合させ、料理の類似度を推定する手法を開発し、専門家による検証を通じてどの要素が判断に最も影響を与えるかを明らかにした研究です。

Denica Kjorvezir, Danilo Najkov, Eva Valencič, Erika Jesenko, Barbara Koroišic Seljak, Tome Eftimov, Riste StojanovWed, 11 Ma💬 cs.CL

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

本論文は、既存のタスク指向対話モデルが特定のデータセットに依存する課題を解決するため、LLM のフルパラメータ微細化と指示・スキーマの両方のアライメント機構を導入し、低リソース環境やノイズに対する頑健性と汎用性を大幅に向上させた統合エンドツーエンドフレームワーク「ESAinsTOD」を提案するものである。

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang CheWed, 11 Ma🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

RLHF における高コストな選好データ収集の課題を解決するため、不確実性推定と新しい探索手法を用いて最も有益な回答を動的に特定するアクティブラーニングパイプライン「ActiveUltraFeedback」を提案し、従来の手法の 6 分の 1 のデータ量で同等以上の性能向上を実現したことを示しています。

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas KrauseWed, 11 Ma🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

本論文は、Muon 最適化アルゴリズムが抱く等方的な制約の限界を克服し、Shampoo 由来の統計量を用いた曲率感知の事前条件付けを導入することで、大規模言語モデルの学習効率を大幅に向上させる新しい最適化手法「Mousse」を提案する。

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai ChenWed, 11 Ma🤖 cs.AI

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

本論文は、食品栄養データベースを用いた RAG システムにおいて、LLM が自然言語を構造化メタデータに変換して検索を行う手法の有効性を評価し、明示的な制約条件を持つクエリでは高い精度を示すが、メタデータ形式で表現できない複雑な制約を含むクエリでは依然として信頼性の高い検索が困難であることを明らかにしている。

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušic SeljakWed, 11 Ma💬 cs.CL

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

本論文は、複数の音声入力に対する大規模音声言語モデルの理解能力を評価する包括的ベンチマーク「MUGEN」を提案し、入力数の増加に伴う性能低下という根本的な課題を明らかにするとともに、音声の順序を多様化するトレーニング不要の手法が精度向上に有効であることを示しています。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

この論文は、査読者のコメントが著者によってどのように修正や反論に結びついたかを示す「反論（rebuttal）」を教師信号として活用し、LLM が具体的かつ実行可能な査読フィードバックを生成するための新しい手法「RbtAct」と大規模データセット「RMR-75K」を提案し、その有効性を示したものである。

Sihong Wu, Yiling Ma, Yilun Zhao, Tiansheng Hu, Owen Jiang, Manasi Patwardhan, Arman CohanWed, 11 Ma🤖 cs.AI

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

この論文は、実世界の一人称視点動画から構築された新しいベンチマーク「EXPLORE-Bench」を提案し、マルチモーダル大規模言語モデルが長期的な物理的帰結を推論する能力に依然として大きな課題があることを示すとともに、段階的推論による性能向上の可能性と計算コストのトレードオフを分析しています。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun ZhaWed, 11 Ma🤖 cs.AI

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

本論文は、ファインチューニングに依存せず、ドメインオントロジーからの候補抽出と構造化証拠に基づく LLM の条件付け、および自信度に応じた再帰的ループを備えた「FoodOntoRAG」というパイプラインを提案し、オントロジーのドリフト下でも頑健かつ解釈可能な食品エンティティリンキングを実現するものである。

Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome EftimovWed, 11 Ma💬 cs.CL

EPIC-EuroParl-UdS: Information-Theoretic Perspectives on Translation and Interpreting

本論文は、欧州議会のスピーチとその翻訳・通訳を含む英独語対訳コーパス「EPIC-EuroParl-UdS」の更新版を提示し、メタデータの修正やアライメント情報の追加などを通じて、情報理論的アプローチによる言語変異研究や通訳におけるフィラー予測タスクへの応用を可能にするものである。

Maria Kunilovskaya, Christina PollkläsenerWed, 11 Ma💬 cs.CL

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

本論文は、CERN の CMS 実験など大規模科学コラボレーションにおける機密性を保ちつつ、内部ドキュメントから高精度に知識を抽出・回答するためのオンプレミス型 RAG ベースの AI アシスタント「MITRA」のプロトタイプとその評価結果を提示しています。

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

本論文は、自然言語の指示から実行可能で追跡可能な評価ワークフローを自動的に生成し、大規模言語モデルの評価における手作業の負担を軽減し、再現性と透明性を向上させるアージェントシステム「One-Eval」を提案するものである。

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao ZhangWed, 11 Ma💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

この論文は、長文脈推論における Chain-of-Agents の情報損失を削減し、推論精度を向上させるために、チャンク間の依存関係を Chow-Liu 木で学習し、その木構造に基づいた順序でチャンクを処理する手法を提案し、複数のベンチマークで既存の順序付け手法を上回る性能を実証したものです。

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. CWed, 11 Ma💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

この論文は、最新のトランスフォーマー言語モデルが次単語予測の精度を上げすぎた結果、人間の読書時間の予測には単純な n-gram 統計量に基づいたモデルの方が適していることを示しています。

James A. Michaelov, Roger P. LevyWed, 11 Ma💬 cs.CL

← 前へ次へ →