cs.CL 件の論文 | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 は、事前学習中に可微分なアテンションマスクを導入し推論時のハードプルーニングと整合させることで、トークン単位で計算リソースを適応的に割り当て、推論コストを均一に支払うことなく生成品質を向上させる新しいフレームワークを提案しています。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

本論文は、大規模言語モデルの推論能力、専門性、プロンプト設計戦略の相互作用を分析し、Verilog コード生成におけるモデルクラスごとの反応パターンや一般化可能な傾向を明らかにする実証研究である。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

この論文は、外部 API に依存せずローカル LLM と決定論的な品質管理を用いて講義資料から多肢選択問題を生成するエンドツーエンドのパイプラインを提案し、その有効性と教育ワークフローにおけるプライバシーや環境負荷への貢献を論じています。

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

この論文は、LLM ベースのマルチエージェントシステムの評価においてモデルだけでなくシステム全体の構成要素（トポロジーやオーケストレーションなど）を包括的に評価する新しいフレームワーク「MASEval」を提案し、フレームワークの選択がモデルの選択と同様に性能に大きな影響を与えることを示しています。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

この論文は、スパースオートエンコーダ（SAE）が学習した特徴量が表面の文字化（トークン化）に依存せず、意味の抽象レベルで表現されていることを、異なる文字体系（ラテン文字とキリル文字）で書かれた同じ意味のセルビア語を用いた Gemma モデルの分析により実証し、モデルの規模が大きいほどこの「文字体系不変性」が強化されることを示しています。

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

この論文は、プライバシー規制を回避しつつ多言語医療データにおける個人識別情報の匿名化システムを開発・評価するための、10 言語対応かつ 2,500 件以上の注釈を備えた合成データベンチマーク「MultiGraSCCo」を提案し、医療専門家による翻訳の質と文化的適切性を検証したものである。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

この論文は、電極触媒の組成を科学文献から導出された埋め込み表現（Word2Vec やトランスフォーマー）で符号化し、ラベルなしで導電性や誘電率といった概念との類似性に基づいて候補をフィルタリングする手法を提案し、Word2Vec の軽量モデルが多くの材料ライブラリにおいて、実験値に近づきつつも候補数を大幅に削減できることを示しています。

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

この論文は、ドラフトモデルが生成の将来方向を予測する「ConFu」という新しいスペキュレイティブデコーディングフレームワークを提案し、EAGLE-3 を凌ぐトークン受理率と生成速度の向上を実現したことを報告しています。

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

この論文は、科学論文の表データに関する深い言語推論と複雑な計算を必要とする質問に特化したベンチマーク「SciTaRC」を提案し、現在の最先端 AI モデルがその 23% 以上（Llama-3.3-70B-Instruct では 65.5%）で失敗し、正しい戦略が提供されても計画の実行に普遍的なボトルネックが存在することを明らかにしています。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

この論文は、欠落者捜査の最初の 72 時間を支援し、複数のタスク特化型 LLM と合意形成エンジン、そして QLoRA 微調整を組み合わせることで、信頼性の高い構造化情報抽出を実現する「Guardian」というエンドツーエンドシステムを提案しています。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

本論文は、大規模言語モデルを用いて臨床的質的データを分析する際のスケーラビリティと再現性の課題を解決するため、反復的なコードブックの洗練と完全な追跡可能性を組み合わせた自動化フレームワークを提案し、複数のデータセットにおいて既存手法を上回る性能と専門家の分析との整合性を示したことを報告しています。

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

この論文は、単一の推論経路の中間状態から抽出した特徴量に基づいて推論の信頼性を評価し、必要に応じてのみ複数経路のサンプリングを行うことで、精度を維持しつつ推論コストを最大 80% 削減する効率的な大規模言語モデルの推論フレームワークを提案しています。

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。

← 前へ次へ →

cs.CL