VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
VQA-MHUG は、画像と質問の両方に対する人間の注視データを収集した新規データセットであり、これを用いた分析により、5 つの最先端 VQA モデルにおいてテキストに対する人間の注視との相関が性能向上の重要な予測因子であることが初めて示されました。
1867 件の論文
VQA-MHUG は、画像と質問の両方に対する人間の注視データを収集した新規データセットであり、これを用いた分析により、5 つの最先端 VQA モデルにおいてテキストに対する人間の注視との相関が性能向上の重要な予測因子であることが初めて示されました。
本論文は、画像とテキストの両方における人間のような注意を統合する初の手法「MULAN」を提案し、VQAv2 データセットにおいて既存の手法よりも少ない学習パラメータで最高精度を達成したことを示しています。
本論文は、13 のインド言語およびノイズ環境下での欧州言語データセットを用いた評価を通じて、注意機構を必ずしも必要としない CRNN に基づく言語識別モデルが、98% を超える高い精度と優れた頑健性を達成することを示しています。
本論文は、著者帰属分析に対する防御手法に関する先駆的な研究(Brennan et al., 2012)を再現・複製した結果、元の研究に統制群が欠けていたため防御手法の有効性が過大評価されていた可能性を示しつつ、自動翻訳を用いた「往復翻訳」が既存の著者帰属手法の効果を低下させる新たな証拠を発見したことを報告するものである。
本論文は、MOSES ツールキットと距離再順序化手法を用いて、Samanantar および OPUS データセットを基に英語と 15 のインド低資源言語間の統計的機械翻訳モデルを開発し、BLEU、METEOR、RIBES などの指標でその翻訳品質を評価した研究をまとめたものである。
本論文は、意味を保持したままの改変による敵対的攻撃が自動信頼性評価モデル、特に大規模言語モデルの堅牢性を脅かすことを実証し、4 つの誤情報検出タスクにおける被害モデルと攻撃手法を評価するための新しいベンチマーク「BODEGA」を提案しています。
この論文は、ブラジルポルトガル語の AAC 向けに構築したコーパスを用いて BERTimbau を微調整し、ピクトグラムの予測においてキャプション、同義語、定義、画像など異なる表現手法を評価した結果、同義語が最も低いパープレキシティを示す一方でキャプションが最高精度を達成したことを明らかにしています。
本論文は、事前学習済み大規模言語モデルの微細な隠れたヘイトスピーチの検出能力を向上させるため、表面形式と意味を近づけつつクラス間距離を拡大する新しいフレームワーク「FiADD」を提案し、ヘイトスピーチ検出だけでなく皮肉やスタンス検出など他のタスクでも有効性を実証したものである。
この論文は、低資源言語であるボド語向けに初の言語モデル「BodoBERT」を開発し、BiLSTM-CRF と BodoBERT の組み合わせによるアンサンブル深層学習モデルを用いて品詞タグ付けタスクで F1 スコア 0.8041 の成果を達成したことを報告しています。
この論文は、最大尤度モデルを用いて AI 学会のピアレビュー(ICLR 2024 など)を分析し、提出されたレビューの 6.5%〜16.9% が LLM によって大幅に修正または生成された可能性があり、その使用は低自信度や締め切り間近のレビューで顕著であることを明らかにした。
本論文は、待機専用(Wait-Only)制約を課した非ブロッキングブロードキャストプロトコルにおいて、状態カバビリティ問題が P 完全、構成カバビリティ問題が PSPACE 完全であることを示すことで、一般の Ackermann 困難な決定可能性を大幅に改善したことを述べています。
この論文は、語彙をトピックに分類して文脈に即したトークンを「グリーンリスト」化し、生成品質を損なわずにパラフレーズや語彙的改ざんに対する頑健性を高める軽量なトピックベースのLLM透かし手法を提案するものである。
この論文は、Reddit 上の 1 億件以上のコメントを分析し、英国政治における「トリガーワード」の言及が、エンゲージメントの向上や怒り・憎悪を含む感情的な対立の激化をもたらすことを実証的に示しています。
この論文は、世界中の実際の食事摂取データから作成され人間によって検証された栄養推定用ベンチマーク「NutriBench」を提案し、最先端の言語モデルによる炭水化物推定精度の評価、専門家との比較、および糖尿病患者への血糖値への影響シミュレーションを通じて、LLM の栄養推定における可能性と課題を明らかにしています。
本論文では、大規模言語モデル(LLM)の推論プロセスにおけるエネルギー消費を監視・分析するフレームワーク「MELODI」と、それによって生成された包括的なデータセットを提案し、プロンプトの特性とエネルギー消費量の相関を明らかにすることで、LLM の持続可能な展開に向けた新たな基盤を提供しています。
本論文は、事前学習モデルのバイアスやノイズが低ランク適応(LoRA)によって無制限に継承される「破滅的継承」問題を解決するため、一貫性・多様性・SVD 正則化を組み合わせたバイアス軽減型 LoRA(BA-LoRA)を提案し、その有効性を検証したものです。
本論文は、オントロジーバージョン管理(OV)をオントロジー整合(OM)システムとして再利用する際の問題点を分析し、整合結果を基に候補を削減して性能を向上させる「クロスリファレンス」メカニズムを導入した「OM4OV」という新しいパイプラインを提案し、その有効性を検証したものである。
この論文は、人間の評価データにおける不一致が単なるノイズではなくタスクの未定義や回答スタイルなど多様な要因に起因することを示し、従来の報酬モデルや評価手法の限界を指摘するとともに、多様な選好を特定・軽減する手法を提案するものである。
本論文は、HTML の階層構造の理解と UI 画像とコードの対照的整合性を向上させる新たなファインチューニング手法「WAFFLE」を提案し、UI デザインから Web ページを自動生成するタスクにおいて既存手法を大幅に上回る性能を達成したことを示しています。
本研究は、5 つのデータセットと 2 つのコーディング枠組みを用いて、チャット AI(ChatGPT)が協働問題解決におけるコミュニケーションデータの自動コーディングを一定の精度で実行可能であることを示し、モデルの新旧やタスク特性による性能差、およびフィードバックに基づくプロンプト改善の有効性について実証的な知見を提供しています。