Image Captioning via Compact Bidirectional Architecture
本論文は、従来の一方向生成の限界を克服し、左から右・右から左の双方向フローを単一モデルに密結合させることで、文レベルおよび単語レベルのアンサンブルと自己批判的学習を組み合わせ、MSCOCO ベンチマークにおいて非 VLP ベースラインモデルの中で最高水準の性能を達成する「コンパクト双方向トランスフォーマー」を提案するものである。
1383 件の論文
本論文は、従来の一方向生成の限界を克服し、左から右・右から左の双方向フローを単一モデルに密結合させることで、文レベルおよび単語レベルのアンサンブルと自己批判的学習を組み合わせ、MSCOCO ベンチマークにおいて非 VLP ベースラインモデルの中で最高水準の性能を達成する「コンパクト双方向トランスフォーマー」を提案するものである。
本論文は、複数のカメラ角度やフィールドの遮蔽といった課題に対処するため、3D サッカー場モデルとキーポイント、および検出されたラインを活用した非線形最適化パイプライン「PnLCalib」を提案し、既存手法を上回るカメラ較正精度とロバスト性を達成したことを示しています。
本論文は、因果的相互作用の注入、役割の進化に基づく走査、および局所的なパターン増幅という 3 つの主要な構成要素を導入し、人間の社会的相互作用をより効率的かつ効果的に生成するための新しいフレームワーク「TIMotion」を提案するものである。
この論文は、量子化とスパース化の不連続性が勾配伝搬に与える課題を、量子化を付加ノイズとして明示的にモデル化し、リッジ回帰に基づくノイズ除去デ量子化変換を導入することで解決し、任意の精度とスパース性で安定した超効率的なニューラルネットワークの訓練を可能にする統一フレームワークを提案しています。
本論文は、データセット凝縮において、従来のデータとラベルに加えて特徴量ラベルやアテンションラベルといった「特権情報」を合成して補助的な教師信号として活用する「DCPI」という手法を提案し、既存の手法と組み合わせることで画像認識タスクの性能を大幅に向上させることを示しています。
この論文は、潜在変数の変換を回転場とポテンシャル場に分解し、そのスパースな活性化を推論することで、独立した変換プリミティブに基づく新しい形の解離表現を学習する教師なしモデルを提案し、シーケンス変換データにおいてデータ尤度と近似等変性の両面で最先端の性能を達成することを示しています。
本論文は、事前のミッション情報とニューラルビュー合成モデルを活用し、勾配降下法で潜在表現を最適化することで、水中 ROV の帯域幅制限下でも高品質な画像伝送を可能にする新たな画像圧縮手法を提案し、人工海洋水槽での実験により既存手法を上回る圧縮率と画質、および新規物体への頑健性を実証したものである。
この論文は、視覚言語モデルの事前知識を活用したクラス指向クラスタリングと適応的クラス別閾値に基づく選択的クエリを導入することで、少数のラベル付きデータで高い精度を達成する予算効率的な能動型プロンプト学習フレームワークを提案し、複数のデータセットで既存手法を上回る性能を実証したものである。
本論文は、LiDAR ポイントクラウドを制約として導入し、歪みパラメータを考慮した座標変換や幾何学的整合損失を適用することで、空中リモートセンシングにおける浮遊物や過成長の問題を解決し、高精度な新規視点合成を実現する「ARSGaussian」を提案するとともに、対応する高密度データセット「AIR-LONGYAN」を公開するものです。
この論文は、従来の能動知覚に依存する移動ロボット探索の限界を克服し、多様な物体間関係を符号化する「3D 関係オブジェクトグラフ」を導入することで、大規模かつ複雑な環境下での能動的な物体操作を伴う探索を可能にするシステムを提案し、その有効性と汎用性を検証したものである。
この論文は、人間の視覚には映らずロボットや AR デバイスにのみ検出可能な「iMarkers」という新しい目印を提案し、そのハードウェア設計、オープンソースの検出アルゴリズム、および従来の目印との比較評価を通じて、その環境への非侵襲性と多様なロボット応用における有効性を示しています。
この論文は、ドメインシフトによる性能低下という課題に直面する Wi-Fi センシングの一般化を促進するため、200 以上の研究を体系的に分類・分析し、主要な手法やデータセットを網羅的にレビューするとともに、大規模事前学習やマルチモーダル基盤モデルとの統合などの将来展望と、データ共有プラットフォームの提案をまとめた包括的な調査論文である。
この論文は、テキスト認識と編集を単一のフレームワークに統合し、並列デコーダと循環自己教師あり微調整を用いて複雑なシーンテキスト編集の課題を解決し、最先端の性能を達成する「Recognition-Synergistic Scene Text Editing(RS-STE)」を提案するものです。
本論文は、拡散モデルと教師 - 学生協調学習を組み合わせた新たな半教師あり学習フレームワークを提案し、限られたアノテーションデータでも最先端の性能を発揮する生体医学画像セグメンテーション手法を確立したものである。
この論文は、既存のデータセットが見過ごしていた広範なシーン編集を含む大規模な局所偽造画像データセット「BR-Gen」と、ノイズ指紋を用いて偽造痕跡を画像全体に伝播させることで検出性能を向上させる「NFA-ViT」という新しいモデルを提案し、AI 生成画像の局所偽造検出における新たな基準を確立したことを示しています。
この論文は、光学画像と SAR 画像の融合による物体検出の性能向上を可能にする大規模な統合データセット「M4-SAR」と、その評価基準および新しい検出フレームワーク「E2E-OSDet」を提案し、複雑な環境下での検出精度を大幅に改善することを示しています。
この論文は、離散化による情報損失を回避し、身体部位間の相互感知を考慮した連続表現に基づく新しいフレームワーク「MARRS」を提案し、他者の動作に応じた協調的で微細な反応動作の生成を実現するものです。
この論文は、Diffusion Transformer を基盤とし、文字位置エンコーディングや位置エンコーディング補間などの新技術、さらに大規模な多言語合成データセットを活用することで、高精度かつ制御可能な多言語テキスト描画を実現する「EasyText」というフレームワークを提案するものである。
本論文は、生物学的なシナプスフィルタリング機構に着想を得たクロススケールゲーティング符号化(CSGC)と軽量残差ブロックを導入し、低消費電力かつ高精度な単眼 3 次元物体検出を実現するスパイクニューラルネットワーク「SpikeSMOKE」を提案するものである。
この論文は、物理場データ(流体力学など)の解釈を強化するため、物理的特徴を構造化されたテキストに変換する手法とデータ圧縮戦略を組み合わせた新しい大規模視覚言語モデル「FieldLVLM」を提案し、既存手法を上回る性能を実証したものです。