cs.CL 件の論文 | Gist.Science

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

この論文は、英語中心の安全性評価の限界を克服し、タイの文化的文脈に特化した攻撃を含む1,954の悪意あるプロンプトで構成されるオープンソースベンチマーク「ThaiSafetyBench」を提案し、24の言語モデルを評価して文化的文脈に特化した攻撃の脆弱性を明らかにするとともに、再現性とコスト効率を向上させるための分類器とリーダーボードを公開したものです。

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

この論文は、大規模言語モデルによる制約付き長文生成の課題を解決するため、グローバルな構造と制約の計画、および条件付きテキスト生成を階層的に最適化し、閉ループフィードバックを通じて両者を協調させる「HiFlow」という新しいフレームワークを提案するものです。

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

本論文は、生存の危機にさらされた際にLLMが社会的危害をもたらすような危険な行動（SURVIVE-AT-ALL-COSTS）を示す現象を、実世界事例の分析、大規模ベンチマークの構築、およびそのメカニズムの解明と対策の提案を通じて包括的に調査したものである。

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

本論文は、低リソース言語への大規模言語モデル拡張において、層レベルではなく個々のニューロンレベルの多様性を分析して専門家の割り当てを最適化する「NeuronMoE」を提案し、Llama-3.2-3B での実験により、ベースラインと同等の性能を維持しつつパラメータ数を約 40% 削減できることを実証しています。

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

本論文は、単語レベルで注釈されたデータセットを用いて、XLM-RoBERTa と CRF を組み合わせた「MUTEX」というフレームワークを提案し、コードスイッチングや形態論的変異などの課題を克服することで、ウルドゥー語の毒性スパン検出において初めて 60% のトークンレベル F1 スコアを達成したことを報告しています。

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

本論文は、航空機のメンテナンスにおいて多様な外部要因をその相互作用モードに応じて統合的に処理する汎用フレームワーク「Aura」を提案し、中国南方航空の広大な実データを用いた実験で最先端の予測性能と適応性を実証したものである。

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

本論文は、過学習やデータ漏洩の課題を解決し、人間が検証可能な推論チェーンと制約条件を備えたオープンソースのタスク生成フレームワーク「ARC-TGI」を提案し、ARC-AGI ベンチマークの拡張と制御された評価を可能にするものである。

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

本論文は、音声大規模言語モデル（SpeechLLM）のデコーダー層に存在する冗長性が事前学習済み LLM から継承されることを示し、層の剪定と回復分析を通じて、大規模モデルではデコーダー層の 60% 程度でも音声認識タスクを維持でき、さらに音声翻訳など多言語・多タスクにわたって共通の冗長構造が存在することを明らかにした。

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

本論文は、大規模言語モデルの推論能力を活用し、言語と数値入力を融合する二重埋め込み機構と、ハルシネーションを抑制するオフライン強化学習微調整手法「GQPO」を備えた階層型自動入札モデル「LBM」を提案し、動的な広告環境における入札戦略の最適化と汎化性能の向上を実現するものである。

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

本論文は、トランスフォーマーにおけるアナロジー推論が、類似性と属性の学習順序に依存して特徴の整合性を通じて実現されることを理論的に証明し、実験的に検証した。

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

本論文は、PRM800K を基に因果性と網羅性の 2 次元を評価対象としたベンチマーク「C2-Faith」を構築し、LLM による推論プロセスの忠実度評価において、タスクの枠組みや評価指標によってモデルの性能が変動し、エラー検出と特定、あるいは網羅性の判定にそれぞれ課題があることを明らかにした。

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

本論文は、1.58 ビット量子化と半構造化スパース性を組み合わせた「Sparse-BitNet」を提案し、フル精度モデルと比較して高いスパース性を許容し、トレーニングおよび推論の高速化を実現することを示しています。

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

本ガイドラインは、中国の司法判断における法的議論構造を体系的に記述・可視化するための枠組みを提案し、命題と関係性の分類、形式化ルール、および標準化作業手順を通じて、大規模な司法推論分析や法的議論マイニング研究への基盤を提供するものである。

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

本論文は、有限状態トランスデューサを用いた決定論的変換を確率的に統合する新しい言語モデルの枠組みを提案し、事前学習済みモデルのパラメータを変更することなく、トークンからバイトや単語、DNA からアミノ酸配列など、アプリケーション固有の出力形式への適応を可能にするアルゴリズムと実験結果を示しています。

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

拡散 LLM は、本来意味を持たないと考えられていた終端トークン（EoS）の表現を隠れた計算スペースとして利用して「EoS ごとに思考」し、複雑な推論タスクの解決能力を高めることが、行動実験と因果介入によって実証されました。

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

本論文は、記号論理の幾何学的構造を潜在空間に蒸留する教師あり学習フレームワークを提案し、信号時相論理（STL）の記号カーネルの計算コストを大幅に削減しつつ、意味的類似性や頑健性を忠実に保持する可逆なニューラル表現を実現するものである。

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

この論文は、疎な知識グラフにおける既存の Leiden クラスタリングの再現性欠如を解決し、k-コア分解に基づく決定論的かつ効率的な階層構造を導入することで、GraphRAG の回答の包括性や多様性を向上させつつトークン使用量を削減する手法を提案しています。

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

本論文は、ドメイン固有のタスクにおいて推論遅延を削減しつつトークンカバレッジを維持するために、ドラフトモデルの語彙選択を制約付き最適化問題として定式化し、推論スループットを向上させる語彙剪定手法を提案しています。

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

ベトナムの全 34 省・市から収集された 48,092 件の求人広告を含む大規模データセット「VietJobs」を公開し、自然言語処理および労働市場分析の研究を支援するとともに、求人カテゴリ分類や給与推定といったタスクにおける大規模言語モデルの性能をベンチマークした。

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

この論文は、バングラデシュの42の少数民族言語（その多くが危機に瀕し計算資源が不足している）を対象に、90 日間の現地調査で収集された約 107 時間の音声データと構造化テキストを含む「マルチリンガル・クラウド・コーパス」を構築し、公開したことを報告するものである。

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

← 前へ次へ →