FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval
本論文は、構成画像検索(CIR)モデルが難易度の高い負例において片方のモダリティに偏って注目する「焦点の偏り」を特定する解釈手法 FBCIR を提案し、これに基づいてバランスの取れた推論を促すデータ拡張ワークフローを開発することで、モデルの頑健性を向上させることを示しています。
3680 件の論文
本論文は、構成画像検索(CIR)モデルが難易度の高い負例において片方のモダリティに偏って注目する「焦点の偏り」を特定する解釈手法 FBCIR を提案し、これに基づいてバランスの取れた推論を促すデータ拡張ワークフローを開発することで、モデルの頑健性を向上させることを示しています。
本論文は、擬似ラベルの信頼性と特徴の忠実度を同時に向上させるため、多様な視覚手がかりを統合したモジュールと擬似ラベルの進化融合手法を提案し、教師なし擬装物体検出において最先端の性能を達成する「EReCu」という統一的なフレームワークを提示しています。
この論文は、バッチ内の他のトークンに依存せず動的な計算割り当てと負荷分散を実現する「Expert Threshold」ルーティング手法を提案し、従来の Token-choice MoE よりも優れた性能と効率的な学習を達成したことを示しています。
本論文は、CLIP などの大規模視覚言語モデルのワンショット適応における安定性と可塑性のジレンマを解決するため、ゼロショット知識と視覚プロトタイプの融合、サポートセットの拡張、分布の補正、マルチスケール RBF カーネルの Ensemble といった多段階のトレーニングフリー手法「ReHARK」を提案し、11 のベンチマークで既存手法を大幅に上回る SOTA 性能を達成したことを報告しています。
この論文は、テキスト、画像、音声、動画、文書など多様なモダリティに特化したツールを中央のスーパーバイザーが動的に調整・統合する自律型 AI フレームワークを提案し、既存の階層型ベースラインと比較して回答までの時間を 72%、会話のやり直しを 85%、コストを 67% 削減しながら精度を維持できることを実証しています。
この論文は、現実世界の複雑な長期的タスクに対応するため、垂直構造を考慮した言語駆動型の多階層 3D 環境生成フレームワーク「MANSION」と、1,000 棟以上の多様な建物を収録したデータセット「MansionWorld」を提案し、既存のエージェントが空間推論において顕著な性能低下を示すことを実証しています。
本論文は、データ収集、学習、実行を単一の VLM 駆動コントローラーで統合し、自己リセットループを可能にする「絡み合った行動ペア(EAP)」を導入することで、長期的なロボットタスクの成功率を 25% 向上させ、人間の介入を 53.7% 削減するアジェンティックフレームワーク「RoboClaw」を提案するものである。
この論文は、臨床診断や投資判断など検証が困難な高リスクな意思決定において、最先端の LLM が「問題の特定はできるが修正ができず、誤ったパターンを高度化しながら繰り返す」という「ヘリコイド動力学」と呼ばれる失敗様式を示すことを明らかにし、信頼性の高い AI 連携に向けた仮説と対策を提案しています。
この論文は、最適化や学習に依存せず、持続的な環境記憶とインセンティブ場を介した適応的相互作用の動的構造そのものとして、多エージェントシステムにおける協調的知性の出現を説明する理論的枠組みを提示しています。
本論文は、自然言語の曖昧さを克服し、複数の目的を同時に満たす大規模言語モデルのタスクを形式数学言語とインフルエンス図を用いて定義し、期待効用最大化を指示する「UtilityMax Prompting」フレームワークを提案し、映画推薦タスクにおいて自然言語ベースラインを上回る精度と NDCG の改善を実証したものである。
本論文は、複素数演算をネイティブに活用して複素スペクトログラムの構造を捉え、位相量子化とブロック行列計算を導入した複素数値ニューラルボコーダ「ComVo」を提案し、合成音質の向上と学習時間の短縮を実現したことを報告しています。
この論文は、大規模言語モデルとオントロジー技術を用いて乳がんなどの化学療法データから臨床表現型や治療転帰を抽出し、生存分析モデルを構築することで、治療結果の早期予測精度を向上させ、個別化医療の実現に貢献する手法を提案しています。
この論文は、7 つのオープンソース大規模言語モデルを評価し、推論や誤字修正などの構造化タスクでは有用である一方、説明テキストの好みは評価者によって大きく異なるものの、限定的な臨床的シナリオにおいて日本語の病理報告書作成を支援できる可能性を示した。
この論文は、電子カルテのビッグデータを用いて、生存分析を分類タスクに再構築する新たなフレームワークを提案し、糖尿病や高血圧などの 5 つの慢性疾患のリスク予測において、LightGBM や XGBoost などの既存モデルと同等かそれ以上の性能を発揮し、さらに医師による臨床検証を受けた説明可能性を有することを示しています。
この論文は、視覚言語モデル(VLM)のゲームプレイ性能向上において、正確な記号情報が不可欠であり、モデル自身が視覚入力から記号を抽出する際の精度がボトルネックとなることを示しています。
本論文は、自律型 LLM エージェント「OpenClaw」のセキュリティ脅威を、初期化から実行までの 5 層のライフサイクル枠組みを用いて包括的に分析し、既存の防御手法の限界を指摘するとともに、各段階における包括的な防御戦略を提案しています。
本論文は、2 つの点雲間の関係性を捉えるクロス・パーシステンス図の密度を初めて体系的に研究し、その存在証明と統計的基盤の確立、点雲座標からの直接予測を行う機械学習フレームワークの設計、およびノイズ導入による識別精度向上などの発見を通じて、トポロジカル・データ分析の新たな応用可能性を開拓したものである。
MedPruner は、スライスレベルの冗長性を除去し、累積アテンション重みに基づく動的なトークン選択を行うトレーニング不要の階層的トークン剪定フレームワークであり、3D 医療画像理解における計算コストを大幅に削減しながらモデルの性能を維持または向上させることを可能にします。
本論文は、グラフ知覚理論に基づいた人間の視覚的解釈を模倣し、視覚知覚と論理推論を段階的に分離する「VisDoT」フレームワークを提案することで、チャート理解や視覚推論の性能を大幅に向上させ、GPT-4o を凌駕する最先端の結果を達成したことを報告しています。
本論文は、離散化されたルームインスタンストークンを用いてレイアウトと記号推論を統合し、テキスト指示から一貫性があり制御可能な建築平面図の理解・生成・編集を可能にするマルチモーダル大規模言語モデル「HouseMind」を提案するものである。