SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition
この論文は、対照学習におけるすべてのフレームを均等に扱う問題や異なる手話間の類似性による負のペアの区別困難さという課題に対処するため、フリーネガティブペアを用いた自己教師あり学習手法と新たなデータ拡張技術を組み合わせた新しいフレームワーク「SSL-SLR」を提案し、手話認識の精度向上を実現したものである。
4069 件の論文
この論文は、対照学習におけるすべてのフレームを均等に扱う問題や異なる手話間の類似性による負のペアの区別困難さという課題に対処するため、フリーネガティブペアを用いた自己教師あり学習手法と新たなデータ拡張技術を組み合わせた新しいフレームワーク「SSL-SLR」を提案し、手話認識の精度向上を実現したものである。
本論文は、イベントカメラの閾値設定に起因するイベントの欠損や断片化という実世界の課題に対処するため、モダリティ固有の表現を解離させてから選択的に融合する「RED」という堅牢なイベント誘導モーションデブラリング手法を提案し、合成および実世界のデータセットにおいて最先端の精度と堅牢性を達成したことを示しています。
本論文は、自己教師あり学習の VICReg 目的関数を再生核ヒルベルト空間に拡張した「Kernel VICReg」を提案し、非線形構造のデータやサンプル数が限られる環境において、従来のユークリッド空間ベースの手法よりも優れた表現学習とモデルの崩壊防止を実現することを示しています。
この論文は、分散クライアント間でのタスク継続学習におけるクラス間の知識一貫性の欠如が引き起こす忘却問題を解決するため、クラス内分布補償メカニズムとクラス意識型プロンプト集約方式を導入した新たな手法「C²Prompt」を提案し、最先端の性能を達成したことを報告しています。
この論文は、密な幾何学的再構成を必要とせず、信頼性較正された意味的証拠の仲裁、制御成長型意味トポロジー記憶、および意味的有用性に基づくサブゴール選択という 3 つの主要コンポーネントを通じて、脚付きロボットがノイズの多い異種観測から安定した探索意思決定を可能にする「意思決定駆動型意味的物体探索」手法を提案し、シミュレーションおよび実環境での実験でその有効性を検証したものである。
本論文は、マルチラベルクラスインクリメンタル学習における忘却と誤検出を解消するため、CLIP の表現をクラス固有のプロンプト空間に分離し、リプレイ不要かつパラメータ効率よく学習する「DeCLIP」フレームワークを提案するものである。
この論文は、従来のオープンワールド物体検出が抱える「未知」ラベルの単一化という課題を解決し、未知物体を「未知の動物」や「未知の破片」などの粗粒度カテゴリとして推論することで、自律走行などの実システムにおける意思決定を支援する新しい検出器「BOUND」を提案するものである。
本論文は、動画生成モデルの直感的な物理理解を評価する新しいトレーニング不要な手法「LikePhys」を提案し、人間の嗜好と高い相関を持つ指標「PPE」を用いて、モデル容量や推論設定の拡大に伴う物理理解能力の向上傾向を実証的に明らかにしています。
本論文は、ぼやけたグローバルな予測「キャンバス」を非一様マスクとして導入し、動きに応じたサンプリング順序やコンポジション型の Classifier-Free Guidance を組み合わせることで、少ないサンプリングステップで高品質な動画生成を実現する新しい自己回帰モデル「CanvasMAR」を提案するものです。
この論文は、3D 事前知識や明示的な 3D 学習データなしに、画像から抽出した幾何学的情報を活用して推論中に 3D 的な想像(メンタルモデル)を可能にする新しいフレームワーク「3DThinker」を提案し、限られた視点からの 3D 空間推論において既存の手法を上回る性能を示したことを報告しています。
本論文は、エッジデバイス上での自律ロボット向けに、注意機構を伴うアップサンプリングと残差支援境界 refinement モジュールを導入することで、境界精度と領域精度を同時に向上させる新しい走行可能領域セグメンテーション手法「AURASeg」を提案し、実機環境での有効性を検証したものである。
この論文は、既存の文化ベンチマークが見過ごしがちな社会的活動に焦点を当て、16 か国を対象とした大規模な評価基準「CULTIVate」と新たな指標を提案し、テキスト生成画像モデルがグローバル・ノースとグローバル・サウスで文化的忠実度に系統的な偏りがあることを実証しています。
本論文は、深偽検出モデルの公平性と検出精度の両立を可能にするため、モデル構造レベルでの感度チャネルの分離と特徴レベルでの分布整合を統合した二重メカニズム協調最適化フレームワークを提案し、実験により群間・群内公平性の向上と精度維持を実証したものである。
この論文は、正確な 3 次元座標の教師あり学習に依存せず、グローバルな軌跡と単眼 2 次元の運動手がかりとの整合性を学習する「LaxMotion」という枠組みを提案し、これにより 3 次元人間運動生成における汎化性能と多様性を向上させることを示しています。
この論文は、拡散モデルにおける文化的記憶の定着と一般化の曖昧さを「多モーダル象徴性」として定義し、文化的参照の認識と実現を分離評価する新たなフレームワーク「Cultural Reference Transformation (CRT)」を提案することで、単なる画像複製を超えた文脈理解に基づくモデル評価の重要性を明らかにしています。
この論文は、大規模言語モデル(LLM)とグリッドベースの整数計画法を組み合わせ、テキストプロンプトから構造化された制約を抽出し、粗い解から詳細な解へと段階的に最適化する「Co-Layout」という枠組みを提案し、既存の2段階パイプラインよりも優れた室内レイアウトと家具配置の自動生成を実現するものです。
この論文は、安全な音声記述や映画術的指示を組み合わせることで、一見 benign なプロンプトからテキスト生成動画(T2V)モデルを回避させ、意図した安全違反コンテンツを生成させる新たなジャイルブレイク手法「SPARK」を提案し、複数のモデルで高い成功率を達成したことを報告しています。
本論文は、新生児用ポータブル超低磁場 MRI の画質を物理的に整合性のある条件付き拡散モデル「MRIQT」を用いて高磁場 MRI 並みに向上させ、臨床診断に有用な高品質な画像を生成する手法を提案しています。
この論文は、医療画像解析における説明可能な AI(xAI)の評価を目的として、診断根拠となる属性とラベルの関係を完全に制御可能な合成データセット「FunnyNodules」を提案し、モデルが正しい理由で予測を行っているかを検証するための汎用的な基盤を提供するものである。
この論文は、視覚・気候・地理データを統合して推論する大規模ベンチマーク「FireScope-Bench」と、強化学習および視覚的監督を活用して推論プロセスを伴う高解像度の野火リスク予測モデル「FireScope」を提案し、言語ベースの推論が視覚生成モデルの汎化性能と解釈可能性を向上させることを実証しています。