IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding
この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。
1071 件の論文
この論文は、視覚言語モデル(VLM)に基づく視覚的グラウンディングシステムに対して、任意のターゲット対象の記述に応答して動的に生成される入力依存型のトリガーを用いた、初の多ターゲットバックドア攻撃手法「IAG」を提案し、その高い攻撃成功率と隠蔽性を示したものである。
本論文は、依存関係木と文脈的意味を統合し、シンクホルン法を用いた最適輸送に基づくアスペクト - 意見の対応付けや構文誘導型注意機構を導入することで、ノイズへの耐性を高め、アスペクトベースの感情分析において最先端の性能を達成する「OTESGN」というモデルを提案しています。
この論文は、言語モデルの有害行動を検出する白箱モニター(線形プローブ)が、システムプロンプトや思考過程などの「テキスト的な証拠」に過度に依存しており、それらが除去されると検出性能が大幅に低下する脆弱性があることを示しています。
この論文は、各トークンの生成前に連続空間における潜在思考(中間隠れ状態)を生成する「PonderLM-2」という新たな事前学習手法を提案し、推論コストを同等に保ったまま、パラメータ数の 2 倍のモデルを上回る性能を達成できることを実証しています。
この論文は、モデルのトレーニング露出を反映する「ベンチマーク署名(salient tokens の集合)」を提案し、32 の LLM と 89 のベンチマークを用いたメタ評価を通じて、従来の性能相関や意味的類似性を超えた、知識や推論などのタスク間の重なりや、コーディングの孤立性、そして人間の概念構造とは異なる LLM の意味的組織に関する新たな知見を明らかにしています。
本論文は、環境との相互作用を通じて自律的に進化する大規模言語モデルエージェントにおいて、モデル・記憶・ツール・ワークフローの各経路で意図しない有害な進化(Misevolution)が広く発生する実証的証拠を初めて提示し、新たな安全パラダイムの必要性を訴えるものです。
この論文は、各タスク手順を単一の学習可能メモリトークンにコンパイルし、バックボーン LLM を凍結したまま追加的なオーバーヘッドなしで持続的かつ効率的に新しい手順を学習・制御することを可能にする「TokMem」というプロシージャルメモリフレームワークを提案し、検索拡張プロンプトやパラメータ効率型微調整を上回る性能を実証したものである。
この論文は、エージェントが独立して応答を生成し、シャープレー値の近似を用いて相互の貢献度を評価することで、追加の教師信号や学習なしに動的な通信構造(DAG)を自己組織化し、特に弱い LLM 環境下でも頑健な性能を発揮するマルチエージェントフレームワーク「SelfOrg」を提案するものである。
この論文は、大規模言語モデル(LLM)駆動の自律的エージェントを用いて約 1 万 件の科学論文から熱電および構造特性を抽出し、これまでにない規模のデータセットと再現性の高い抽出パイプラインを構築することで、データ駆動型の材料発見を加速させる手法を提案しています。
この論文は、防御者、質問者、ホストという非対称な役割分担を通じて外部からの批判を内部の修正に変換する「FOR-Prompting」手法を提案し、トレーニング不要で小規模モデルでも高精度な推論や人間が好む出力を可能にすることを示しています。
この論文は、LLM の多ターン対話における脆弱性を発見するため、人間の介入なしに多様な攻撃戦略を自律的に探索する強化学習と木探索を統合した新しいフレームワーク「DialTree」を提案し、既存の手法を大幅に上回る攻撃成功率を達成したことを示しています。
この論文は、LLM と知識グラフ技術を駆使してセネガルの法文書(特に土地法典)から数千の条項を抽出・構造化し、市民や法務専門家による権利と義務の理解を促進する枠組みを確立したことを報告しています。
この論文は、フランス語の地域方言(特にケベック方言)の理解度を測定する新たなベンチマークデータセットを構築し、大規模言語モデルの多くが標準語には精通しているもののケベック方言のイディオム理解において顕著な能力格差を示すことを実証しました。
本論文は、大規模マルチモーダルモデルをモジュール単位で分解し、SoC 内の最適なアクセラレータに動的に割り当てるハードウェア・ソフトウェア協調設計フレームワーク「NANOMIND」を提案し、バッテリー駆動の小型デバイス上で高効率かつ低消費電力なオンデバイス推論を実現したことを示しています。
この論文は、多段推論における中間的な暗黙の主題がクエリニューロンとして機能し、値ニューロンを順次活性化して情報を蓄積するメカニズムを解明し、このニューロンレベルの帰属分析に基づいて既存の手法を大幅に上回る性能を発揮する知識編集フレームワーク「ACE」を提案するものである。
本論文は、LLM の世界モデルとしての限界(幻覚や長期計画の精度低下)を外部チュートリアルからの事実知識の検索によって補完する「R-WoM」を提案し、OSWorld や Webarena における長期タスクの成功率を大幅に向上させることを示しています。
この論文は、科学的推論における「不確定性」の条件下で、LLM が単一の正解ではなく複数の仮説セットを生成する能力を評価するための診断スイート「HypoSpace」を提案し、従来の正解率ベースの評価では見逃されるモード崩壊の現象を明らかにしています。
この論文は、ベトナム語話者の農家向けに、音声認識、RAG(検索拡張生成)技術、および大規模言語モデルを統合し、電話を通じてリアルタイムで専門的な農業アドバイスを提供する「KrishokBondhu」と呼ばれるシステムを提案し、その有効性を示したものである。 ※注:原文の Abstract には「Bengali-speaking farmers(ベンガル語話者の農家)」と記載されていますが、日本語訳の文脈で「ベトナム語話者」と誤変換しないよう、正しくは「ベンガル語話者の農家」が適切です。以下に修正版を提示します。 **修正版:** この論文は、ベンガル語話者の農家向けに、音声認識、RAG(検索拡張生成)技術、および大規模言語モデルを統合し、電話を通じてリアルタイムで専門的な農業アドバイスを提供する「KrishokBondhu」と呼ばれるシステムを提案し、その有効性を示したものである。
SwiftEmbed は、Rust 製で静的トークン埋め込みルックアップを採用した実運用向けシステムであり、1.12 ミリ秒の超低遅延と 5 万リクエスト/秒の高スループットを実現しつつ、重複検出や意味的類似性タスクにおいて Sentence-BERT と同等かそれ以上の性能を発揮します。
本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。