Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval
この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。
7354 件の論文
この論文は、ビジョントランスフォーマーのパッチ特徴から学習したスパースオートエンコーダの視覚単語活性化に BM25 スコアリングを適用した「BM25-V」を提案し、その高い解釈性と効率的な 2 段階検索パイプラインにより、密なリランキングと同等の精度を維持しつつ大規模画像検索を可能にすることを示しています。
この論文は、AI エージェントの安全性対策が虚偽で広告されていないことを検証可能にするため、信頼実行環境(TEE)を用いて特定のオープンソースガードルールの実行を暗号的に証明する「Proof-of-Guardrail」というシステムを提案し、その実装と評価、および悪意ある開発者によるガードルールの回避という新たなリスクについても論じています。
本論文は、大規模なマルチモーダル生成ワークロードのリアルタイム配信を可能にする適応型モジュールシステム「StreamWise」を提案し、ハードウェアの多様性や品質・リソースの動的調整を通じて、低遅延・低コストかつ高品質なポッドキャスト動画生成を実現しています。
本論文は、LLM が多義的な概念を単一の解釈に収束させる「曖昧性の収束」という現象を定義し、そのプロセス・出力・生態系における認識論的リスクを分類し、曖昧性を維持・管理するための多層的な緩和策を提案するものである。
この論文は、分類マージンの拡大と入力摂動に対する予測の一貫性を同時に強制する新しい正則化フレームワーク「MaCS」を提案し、既存のアーキテクチャや追加データなしで、視覚モデルの較正精度とロバスト性を向上させつつ精度を維持または改善できることを示しています。
本論文は、対話型可視分析(CVA)における大規模言語モデルの評価課題を解決するため、開発者やエンドユーザーからのインタビューに基づき、実世界シナリオに対応するテストケース、解釈可能な評価指標、そしてプログラミング不要の対話型ツールキット「Lexara」を提案し、その有効性を実証したものである。
この論文は、対比プロンプティングを用いたホワイトボックス分析により、大規模言語モデル(GPT-J-6B)の内部における信頼の表現が、人間の信頼モデル(特にカステルフランキの社会認知モデル)と高い整合性を示すことを明らかにし、人間-AI 協働システムの設計や社会認知理論の発展に貢献する知見を提供しています。
この論文は、CNN と Vision Transformer の長所を組み合わせつつ、冗長な特徴表現によるボトルネックを回避するために 4 つの独立した融合モデルを最終予測段階でアンサンブルする手法を提案し、リモートセンシング画像分類において既存のアーキテクチャを上回る高い精度と計算効率を達成したことを示しています。
この論文は、検証済みの実行軌跡から自律的に有効なツールシーケンスを特定・合成し、新しい高レベルのプリミティブとして登録することで、静的なツール構成から経験駆動型の自己進化型医療エージェント「MACRO」を提案し、多様な医療画像タスクにおけるオーケストレーション精度とドメイン間汎化性能を向上させる手法を報告しています。
本論文は、基盤モデルやエージェント AI の進歩に伴う計算病理学の臨床応用における技術的・経済的・規制上の課題を国際的な専門家の視点から分析し、患者ケアへの責任ある統合と実用化に向けた現状と障壁を評価するレビューです。
本論文は、自己教師あり表現再構成損失(SSRR)を導入することで、低遅延のストリーミング型ニューラルオーディオコーデックにおいて、高知覚性を実現しつつ単一 GPU での効率的な学習を可能にする「JHCodec」を提案し、最先端の性能を達成したことを示しています。
この論文は、大規模言語モデルによる長編物語生成における一貫性欠如の問題を特定し、5 つのカテゴリーと 19 のサブタイプからなるエラー分類体系を定義した評価ベンチマーク「ConStory-Bench」と自動検出ツール「ConStory-Checker」を提案し、事実や時間軸における矛盾が物語の中間部分やエントロピーの高い領域で頻発する傾向を実証的に明らかにしたものです。
本論文は、単一の最適化参照分子のみから学習する必要がある分子最適化タスクにおいて、参照分子の中間推論経路を文脈として活用しつつ探索と利用をバランスさせる「参照誘導方策最適化(RePO)」を提案し、既存の教師あり微調整や強化学習手法を上回る性能を達成することを示しています。
本論文は、LLM を活用してシミュレータコードからアーキテクチャ知識を抽出しボトルネック分析を行う「LUMINA」という GPU 設計空間探索フレームワークを提案し、従来の機械学習ベース手法や人手による探索に比べてはるかに少ないステップ数で A100 を凌駕する高性能・低面積の GPU 設計を効率的に発見できることを示しています。
本論文は、現実世界の動的な変化を反映したエージェントの適応性を評価するため、環境・データ・スキーマを統一的なグラフとして表現し、その変換を通じてスケーラブルかつ制御可能な環境進化を実現するフレームワーク「ProEvolve」を提案するものである。
本論文は、複雑な病変のセグメンテーションにおいて従来の視覚パターンマッチングから推論分析へパラダイムを転換し、Chain-of-Thought 推論とセグメンテーションを統合した新しいフレームワーク「CORE-Seg」と、そのための推論駆動型ベンチマーク「ComLesion-14K」を提案し、強化学習による適応的報酬メカニズムで最先端の性能を達成したことを報告しています。
この論文は、静的なベンチマークの限界を克服し、検証エージェントと専門家の監査による反復的な改善プロセス(AtS)を通じて事実性の評価精度を向上させる「DeepFact」という新しいフレームワークとベンチマークを提案するものです。
この論文は、BERT による感情分析とノード・トランスフォーマー・アーキテクチャを統合し、株式間の依存関係や市場のノイズを考慮することで、従来の ARIMA や LSTM などのモデルを上回る精度で株式価格を予測する新しい枠組みを提案し、その有効性を実証したものである。
この論文は、画像レベルの類似性に依存せず、指示と生成画像の間の意味的乖離とその安定性を分析することで、多様なバックドア攻撃を検出可能な新しいブラックボックス検出フレームワーク「BlackMirror」を提案するものです。
本論文は、Rectified Flow に着想を得た「RAC(Rectified Flow Auto Coder)」を提案し、従来の VAE を置き換えることで、多段階復号と双方向推論を実現し、生成品質を向上させながら計算コストを約 70% 削減することを示しています。