PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 は、事前学習中に可微分なアテンションマスクを導入し推論時のハードプルーニングと整合させることで、トークン単位で計算リソースを適応的に割り当て、推論コストを均一に支払うことなく生成品質を向上させる新しいフレームワークを提案しています。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

Fish Audio S2 Technical Report

この論文では、自然言語による指示制御、マルチスピーカー・マルチターン生成に対応し、高品質なストリーミング推論を実現するオープンソースの音声合成システム「Fish Audio S2」およびそのトレーニング手法とリソースの公開について紹介しています。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

この論文は、LLM ベースのマルチエージェントシステムの評価においてモデルだけでなくシステム全体の構成要素(トポロジーやオーケストレーションなど)を包括的に評価する新しいフレームワーク「MASEval」を提案し、フレームワークの選択がモデルの選択と同様に性能に大きな影響を与えることを示しています。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

この論文は、スパースオートエンコーダ(SAE)が学習した特徴量が表面の文字化(トークン化)に依存せず、意味の抽象レベルで表現されていることを、異なる文字体系(ラテン文字とキリル文字)で書かれた同じ意味のセルビア語を用いた Gemma モデルの分析により実証し、モデルの規模が大きいほどこの「文字体系不変性」が強化されることを示しています。

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

この論文は、プライバシー規制を回避しつつ多言語医療データにおける個人識別情報の匿名化システムを開発・評価するための、10 言語対応かつ 2,500 件以上の注釈を備えた合成データベンチマーク「MultiGraSCCo」を提案し、医療専門家による翻訳の質と文化的適切性を検証したものである。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

この論文は、電極触媒の組成を科学文献から導出された埋め込み表現(Word2Vec やトランスフォーマー)で符号化し、ラベルなしで導電性や誘電率といった概念との類似性に基づいて候補をフィルタリングする手法を提案し、Word2Vec の軽量モデルが多くの材料ライブラリにおいて、実験値に近づきつつも候補数を大幅に削減できることを示しています。

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

この論文は、科学論文の表データに関する深い言語推論と複雑な計算を必要とする質問に特化したベンチマーク「SciTaRC」を提案し、現在の最先端 AI モデルがその 23% 以上(Llama-3.3-70B-Instruct では 65.5%)で失敗し、正しい戦略が提供されても計画の実行に普遍的なボトルネックが存在することを明らかにしています。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

本論文は、大規模言語モデルを用いて臨床的質的データを分析する際のスケーラビリティと再現性の課題を解決するため、反復的なコードブックの洗練と完全な追跡可能性を組み合わせた自動化フレームワークを提案し、複数のデータセットにおいて既存手法を上回る性能と専門家の分析との整合性を示したことを報告しています。

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

この論文は、単一の推論経路の中間状態から抽出した特徴量に基づいて推論の信頼性を評価し、必要に応じてのみ複数経路のサンプリングを行うことで、精度を維持しつつ推論コストを最大 80% 削減する効率的な大規模言語モデルの推論フレームワークを提案しています。

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

この論文は、遠隔患者モニタリングで生成される膨大なデータを臨床スタッフが処理する課題を解決するため、自律型 AI エージェント「Sentinel」を開発し、従来の医師による監視を上回る感度とスケーラビリティで臨床的トリアージを可能にしたことを報告しています。

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

本論文は、マルチモーダル大規模言語モデルにおけるテキスト画像入力時の性能低下(モダリティギャップ)を体系的に分析し、その原因が計算やフォーマットなどの「読解エラー」の増幅にあることを明らかにするとともに、モデル自身のテキスト推論履歴を用いた自己蒸留法によって画像入力時の精度を劇的に向上させる手法を提案するものです。

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

この論文は、大規模言語モデルが生物学的解決策よりも合成的な解決策を好むバイアスを持っていることを示し、PMC の論文に基づく少量のファインチューニングによってそのバイアスを是正し、生物学的アプローチへの志向性を高めることができることを実証しています。

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL