What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

この論文は、大規模言語モデルの安全性向上のためのデータフィルタリング戦略が有害コンテンツの削減に寄与する一方で、差別の対象となる脆弱な集団のデータ表現をさらに低下させるという副作用を、体系的なベンチマーク研究を通じて明らかにしたものである。

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

Efficient Estimation of Word Representations in Vector Space

この論文は、大規模なデータセットから単語の連続ベクトル表現を効率的に学習する2つの新しいモデルアーキテクチャを提案し、従来の手法よりもはるかに低い計算コストで高い精度を達成し、構文・意味的な単語類似性測定において最先端の性能を示すことを報告しています。

Tomas Mikolov, Kai Chen, Greg Corrado + 1 more2013-01-16💬 cs.CL