Enhanced Continual Learning of Vision-Language Models with Model Fusion
本論文は、視覚言語モデルの継続的学習における catastrophic forgetting を解決し、ゼロショット性能を維持・向上させるため、モデル融合を活用した新規アプローチ「ConDU」を提案し、MTIL ベンチマークで最先端の性能を達成したことを報告しています。
5277 件の論文
本論文は、視覚言語モデルの継続的学習における catastrophic forgetting を解決し、ゼロショット性能を維持・向上させるため、モデル融合を活用した新規アプローチ「ConDU」を提案し、MTIL ベンチマークで最先端の性能を達成したことを報告しています。
この論文は、低コストで製造可能かつ信頼性と安全性を向上させたチェーン駆動のサンドイッチ脚式中型四足歩行ロボット「Stoch3」の設計と、平坦地や斜面での歩行実験結果を報告し、オープンソース化された研究プラットフォームを紹介するものである。
この論文は、動的ネットワークにおいて限られた数のビザンチン故障が存在する条件下で、信頼性のある通信を可能にする必要十分条件を特定し、メッセージ損失や計算遅延、認証付きメッセージなどの状況への拡張を論じています。
この論文は、グラフを再帰的に強連結成分に分解する「非循環接続木(A-C 木)」という新しい分解手法を提案し、これを前処理として利用することでダイクストラ法などの単一始点最短経路アルゴリズムの計算時間を、グラフの「ネスト幅」に依存するより良い複雑度へ改善することを示しています。
この論文は、テキストおよび画像チェッカーによって定義された決定境界付近のトークンを探索する進化的検索手法「TCBS-Attack」を提案し、複数の制約条件下で黒箱設定におけるテキスト生成画像モデルのフルチェーン防御を効果的に突破する新しい攻撃手法を提示しています。
この論文は、単一の画像から高忠実度かつリアルタイムで駆動可能な 3D ヘッドアバターを生成する新しい手法「SEGA」を提案し、大規模な 2D データと FLAME 構造に基づく階層的 UV 空間ガウススプラッティングフレームワークを組み合わせることで、未知の人物への汎化性能と表情のリアルさを大幅に向上させることを示しています。
本論文は、既存のグラフ透かし評価がランダムな辺の改変に限定されているのに対し、コミュニティ構造を利用したより高度な「クラスター認識型攻撃」が、同程度の構造歪みで透かしの帰属精度を大幅に低下させることを初めて実証し、現在の防御策の脆弱性と新たな防御の必要性を明らかにしたものである。
本論文は、ラベル付きデータが不足する医療分野において、キーポイント検出器に依存しない教師なし学習による記述子学習手法を提案し、既存の教師あり手法と同等の精度で網膜画像の柔軟な登録を実現することを示しています。
本論文は、医療画像セグメンテーションにおける深層学習モデルの過信問題を解決するため、画像ごとに計算可能な微分可能な平均較正誤差(mL1-ACE)を補助損失として導入し、予測の信頼性と精度のバランスを制御可能にする手法を提案し、複数のデータセットでその有効性を検証したものです。
本論文は、視覚言語モデルと視覚専用モデルのそれぞれが持つ弱点を補完し、事前知識に依存せずに複数の基盤モデルの出力を自己適応的な輸送計画で統合する「SOTA」というトレーニング不要のアンサンブル手法を提案し、多様なドメインで個別モデルを上回るゼロショット分類性能を実現することを示しています。
この論文は、X のコミュニティノートが異党派間の合意を重視する設計により、政治的分極化コンテンツを意図的に過小評価(under-moderate)する傾向があり、これが米国や欧州などの選挙プロセスにおける市民議論に潜在的なリスクをもたらしていることを、2025 年 3 月までの 190 万件のデータ分析を通じて実証しています。
この論文は、インドの低資源環境にある公立学校で展開されたAI支援教材作成ツール「Shiksha Copilot」の実証研究を通じて、教師とAIの協働が事務負担の軽減や授業の活動中心化に寄与する一方で、人員不足などの構造的課題が教育変革の限界を規定していることを明らかにし、多言語・グローバルサウス文脈における教師中心のEdTech設計指針を提案するものである。
本論文は、人間中心の視点から意図・対象・表現・手法の多次元分類体系を確立し、視覚認識における XAI の評価指標やマルチモーダル大規模言語モデルの解釈性、実用応用を包括的に調査・分析することで、今後の研究の指針となるロードマップを提供する。
本論文は、静的解析と動的実行のハイブリッド手法を採用し、統計的に導かれた適応的サンプリングによってランタイムオーバーヘッドを約 27% に抑えつつ、高精度な Python 型注釈を自動生成する「RightTyper」を提案し、既存の手法を上回る性能を実証したものである。
この論文は、イタリアの音楽リスナーを対象としたインタビュー調査を通じて、アルゴリズムへの批判的理解の欠如やジェンダー表現への意識の低さなど、レコメンデーションシステムに対する心理社会的な課題を明らかにし、信頼性が高く文化的に配慮されたシステム設計の重要性を説いています。
画像のコンテンツに応じてトークンの処理順序を動的に最適化し、従来の Mamba の厳密な因果制約を打破する「コンテンツアウェア・マンバ」を提案することで、学習型画像圧縮において最先端のレート歪み性能を達成した研究です。
この論文は、音声から数式や文章を LaTeX に変換する課題に対処するため、英語とロシア語の 6 万 6 千件以上の音声データを含む大規模なオープンソースデータセットと、既存の手法を大幅に上回る性能を達成する新しいモデルを提案し、数学的コンテンツ認識の新たな基準を確立したものである。
この論文は、分散型環境におけるエージェント間の戦略的相互作用をより正確に理解するために、第三者が他者の目的を完全に知っているという従来の仮定を越え、各エージェントが他者の目的をどのように推定しているかを推論する「レベル 2 逆ゲーム」の枠組みを提案し、その非凸性を証明するとともに効率的な解法を開発したものである。
本論文は、疎な角度サンプリングやオクルージョン境界といった課題に対処し、効率的かつ高精度な光場深度推定を実現するために、エピポーラ領域におけるスペクトル正則化を導入した「深層スペクトルエピポーラ表現(DSER)」を提案するものである。
この論文は、食品衛生規制からLLM(ClaudeおよびLlama)を用いてGherkin形式の行動仕様を生成する実験を行い、生成物は高い品質を示したが、欠落や幻覚といった問題が確認されたため、安全性が重要な分野では人間の監視が不可欠であると結論付けています。