Maximizing Asynchronicity in Event-based Neural Networks
本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。
4049 件の論文
本論文は、イベントカメラの非同期かつスパースなデータを言語モデルの技術(線形アテンションや自己教師あり学習)を応用して処理する新しいフレームワーク「EVA」を提案し、従来の手法を凌駕する認識・検出タスクでの性能向上を実現したことを報告しています。
この論文は、最先端の生成モデルによる高品質な動画偽造を検出・説明するために、大規模なデータセット「GenBuster-200K」と包括的なベンチマーク「GenBuster-Bench」を提案し、視覚推論タスクとして偽造検出を定式化した強化学習ベースの MLLM「BusterX」を開発し、既存のモデルを上回る精度と説明性を達成したことを示しています。
この論文は、計算集約的な較正手順への依存と性能低下という既存の課題を克服し、動画生成用 Diffusion Transformer(DiT)に対してデータなしで W4A4 量子化を実現し、視覚品質を損なわずに約 2 倍の高速化を達成する「DVD-Quant」という新たなフレームワークを提案するものです。
本論文は、事前学習済み生成モデルを高品質な学習サンプルの選定指標として活用する新たな手法を提案し、少量(3,350 サンプル)ながら汎用的なテキストから画像生成モデルの美的品質と整合性を大幅に向上させる「Alchemist」という公開データセットと対応するモデルを構築・公開しました。
この論文は、既存のデータ凝縮手法が直面する課題を克服し、局所フーリエ特徴抽出と多レベル特徴分布マッチングを用いて高解像度画像の超解像タスクにおいて、DIV2K データセットを 10% に凝縮しても元のデータと同等の性能を達成する新たなインスタンスデータ凝縮フレームワークを提案するものです。
本論文は、視覚的に極めて類似した図形から正解を識別する高度な推論能力を評価する新たなベンチマーク「VisioMath」を提案し、現在の多モーダルモデルが画像とテキストの整合性不足により類似図形の比較推論で失敗しやすいことを明らかにするとともに、アライメント指向の戦略による性能向上を実証しています。
本論文は、生成された画像の欠落概念を自動検出・修正する自己反省モジュールと原子セマンティックレベルでのプロンプト最適化を組み合わせた学習不要なフレームワーク「VisualPrompter」を提案し、テキストから画像への生成において、既存手法が課題とした視覚的美しさとユーザー記述との意味的整合性の両立を達成し、複数のベンチマークで最先端性能を記録したことを示しています。
この論文は、従来のグリッド制約を回避し、画像内でトークンを連続的に配置する「SPoT」という新しいトークン化手法を提案し、理想的なサブピクセル配置の探索を通じて、必要なトークン数を大幅に削減しながら高い精度を達成するビジョン・トランスフォーマーの新たな可能性を示しています。
この論文は、異なる AI モデルやモダリティ間でも高レベルな概念を共通の疎な潜在空間で表現し、解釈可能性を大幅に向上させる新たなフレームワーク「SPARC」を提案し、その有効性を示すものです。
本論文は、動的なシーンをコンパクトな「ボトルネックトークン」に圧縮し、最小限のパッチを手がかりに次のシーンを予測する自己教師あり学習パイプライン「Token Bottleneck (ToBo)」を提案し、動画ラベル伝播やロボット操作など多様な逐次タスクにおいて優れた性能を実証するものである。
本論文は、長編動画生成モデルの物語表現能力を包括的に評価するための初のベンチマーク「NarrLV」を提案し、映画の物語理論に基づく「時間的物語原子(TNA)」の概念と MLLM を活用した評価指標を開発することで、既存モデルの限界を明確に示し、人間の評価と高い整合性を有することを示しています。
この論文は、IoT ベースの標準化された撮像システムを用いてトマトの多角度・多姿勢の画像データと詳細なアノテーションを収集し、深層学習モデルによる高精度な植物形質解析と専門家レベルの一致を実証した「TomatoMAP」データセットの構築と評価について述べています。
この論文は、工業製品の欠陥検出において、正規と異常の両方の分布を明示的にモデル化する「ExDD」フレームワークと、ドメイン固有のテキスト条件付き潜在拡散モデルによる合成データ生成を組み合わせることで、従来の単一クラス異常検出の限界を克服し、KSDD2 データセットで高い検出精度を達成したことを提案しています。
本論文は、3D ガウススプラッティングの幾何学的精度を向上させるため、点集合曲面の概念を応用し、ガウスの配置を均一化し法線整合性を高める新たな最適化手法「GSSR」を提案し、高品質なレンダリングを維持しながら詳細なシーン編集を可能にすることを示しています。
本研究は、化学文献の多様な図表やテキストから構造データへの変換を可能にするマルチエージェントシステムを開発し、従来の最先端モデルを大幅に上回る精度で化学反応情報の自動抽出を実現したことを報告しています。
この論文は、大規模視覚言語モデルの幻覚を軽減するため、モデルの隠れ状態を 2 次元セマンティックマップとして捉え、層内・層間両方のトークンを集約する「レイヤワイズ・クリスス・クロス・アテンション」と「グローバル・ローカル・ログイット融合」を組み合わせたトレーニング不要のデコーディング手法「MAP」を提案し、事実性の向上を実証しています。
本論文は、視覚言語モデル(VLM)の活性化における「視覚トークンの過剰性」と「モダリティ間の分布ギャップ」という 2 つの課題を特定し、勾配駆動の重要度因子を用いて重要なトークンを優先的に保持するポストトレーニング量子化フレームワーク「VLMQ」を提案し、低ビット設定でも最先端の性能を実現したことを示しています。
本論文は、セグメンテーションモデル(SAM)が生成する高品質なセマンティックマスクを条件として拡散モデルに組み込むことで、赤外線画像と可視光画像の融合において、重要なターゲットの保持と高忠実度の両立を実現する「SGDFuse」という手法を提案し、主観的・客観的評価および下流タスクにおける最先端性能を達成したことを示しています。
この論文は、ノルムのモレウエンベロープを用いて構築された多変量ポテンシャル関数を取り入れた「多変量エキスパートの場(Multivariate Fields of Experts)」という新しい画像事前分布学習フレームワークを提案し、深層学習ベースの正則化器に近い性能をより少ないパラメータとデータで、かつ理論的な収束保証を備えた高速な手法で達成することを示しています。
本論文は、VLM が言語の先入観に依存して発生する幻覚を抑制し、従来の OCR モデルの細かな視覚認識能力と VLM の推論能力を統合するため、自己認識結果と専門モデルの結果を比較・検証しながら画像を再確認する「推論とツールの交互」パラダイムを導入した「DianJin-OCR-R1」を提案し、その有効性を示しています。