PowerCLIP: Powerset Alignment for Contrastive Pre-Training
本論文は、画像領域とテキストフレーズの間の組合せ的意味を効率的に捉えるため、領域のべき集合と構文木を対照的に整合させる新しい事前学習フレームワーク「PowerCLIP」を提案し、計算コストを削減しながら最先端のゼロショット性能を実現することを示しています。
4762 件の論文
本論文は、画像領域とテキストフレーズの間の組合せ的意味を効率的に捉えるため、領域のべき集合と構文木を対照的に整合させる新しい事前学習フレームワーク「PowerCLIP」を提案し、計算コストを削減しながら最先端のゼロショット性能を実現することを示しています。
この論文は、敵対的制御による拡散サンプリングの品質劣化を経路空間の KL 発散として定式化し、生成スコアの接空間に敵対的勾配を射影することで分布を保持しつつ分類成功率を維持する新しい手法「DPAC」を提案し、理論的・実証的にその有効性を示したものです。
本論文は、医療用視覚言語モデルの公平性を向上させるため、パラメータ効率の高い LoRA 手法に公平性最適化を組み込んだ「MaxAccGap 損失」を提案し、緑内障診断における人種間の精度格差を大幅に縮小しながらも高い診断精度を維持する手法を確立したものである。
本論文は、情報理論的観点からトークン間の固有の冗長性を定量化する「情報一意性」を導入し、フレームグループ融合、トークン割り当て、空間的動的圧縮の 3 つのモジュールを備えたユニークな動画圧縮フレームワーク「UniComp」を提案し、限られた計算資源下で既存手法を上回る視覚情報の忠実度を実現することを示しています。
本論文は、拡散モデルのノイズ過程で位相成分を保持し振幅のみをランダム化することで、アーキテクチャの変更なしに幾何学的整合性を保つ構造整合生成を実現する「位相保存拡散(Phase-Preserving Diffusion)」を提案し、画像・動画の再レンダリングやシミュレーションから実世界への転移タスクにおいて高い性能を示すことを示しています。
本論文は、大規模言語モデルと進化的探索戦略を活用し、人間の介入や追加学習なしに混合精度量子化のための最適な代理モデルを自動発見する「TAP」という新フレームワークを提案し、最先端の性能を達成したことを報告しています。
本論文は、屋外キャンパスを歩行する 80 人以上の歩行者の視線データを収集した大規模データセット「EgoCampus」と、その環境下での歩行者の視線を予測する新手法「EgoCampusNet」を提案し、実世界における注視予測研究への新たな基盤を提供するものである。
本論文は、従来の frontal 視野の制約を克服し、19 名のドライバーから収集した約 100 万フレームの 360 度データセット「DriverGaze360」と、セマンティックセグメンテーションを補助タスクとして取り入れた「DriverGaze360-Net」を提案し、広視野環境におけるドライバーの注視予測性能を大幅に向上させたことを報告しています。
本論文は、人間の認知科学に基づき視覚情報を動的に取得しながら論理的な思考単位(CRU)に分解する「ViRC」フレームワークと、これに対応する CRUX データセットおよび段階的な学習戦略を提案し、マルチモーダル数学推論タスクにおいて基盤モデルを大幅に上回る性能を達成したことを示しています。
本論文では、解剖学的入力から線量事前分布を予測し、ビーム幾何学情報に基づいて物理的に較正された強度変調放射線治療のフラウンシーマップを直接回帰するトランスフォーマー駆動のフレームワーク「FluenceFormer」を提案し、物理情報に基づく損失関数と多様なトランスフォーマーバックボーンを用いた評価により、既存の手法を上回る高精度な計画生成を実現したことを示しています。
本論文は、拡散モデルのサンプリング遅延を低次元多様体上の幾何学的洞察に基づき並列勾配評価で補正する「EPD-Solver」を提案し、大規模モデルの微調整ではなくソルバー空間内での効率的な強化学習により、低遅延かつ高品質な画像生成を実現する手法を提示しています。
本論文は、大規模な物理法則対応動画データセット「PhyVidGen-135K」の構築と、物理的整合性を保証する新しい最適化フレームワーク「PhyGDPO」を提案し、テキストから物理的に整合性の高い動画を生成する性能を大幅に向上させたことを示しています。
本論文は、3D 生成モデルの注意機構内でソースとターゲットの構造化潜在特徴を融合させる「MorphAny3D」という学習不要なフレームワークを提案し、カテゴリを超えた高品質で時間的に一貫した 3D モーフィングを実現するものです。
本論文は、LLM の推論能力と PDDL ベースの古典的プランナー、そして行動木を統合した「EmboTeam」フレームワークを提案し、異種ロボットチームによる長期的なタスク実行の成功率を大幅に向上させることを示しています。
この論文は、サッカーのハイライト映像から人間が重要とみなす瞬間を特定するタスクにおいて、最先端のマルチモーダル基盤モデルが偶然レベルに近い性能しか示さず、単一モダリティへの依存やクロスモーダルな情報の統合不足が課題であることを明らかにし、モジュール化されたアーキテクチャと補完的な学習手法の必要性を提言しています。
本論文は、スマートグラスなどのウェアラブルデバイスによる常時オン型個人 AI アシスタントの実現に向け、数日〜数週間にわたる連続的な egocentric ビデオを理解するために、エンティティ・シーングラフを中核とした計画エージェントと構造化検索・推論ツールを組み合わせた「EGAgent」を提案し、長期ビデオ理解タスクにおいて最先端の性能を達成したことを報告しています。
本論文は、トランスフォーマーの注意機構を動的にインスタンス化される高速重み MLP として解釈し、これをランドマーククエリによる圧縮と各ランドマークに対するトップ-k 活性化キー・バリュー対の収集を組み合わせた「MiTA(Mixture of Top-k Activations)」戦略へと拡張することで、超長系列における効率的な注意メカニズムを提案しています。
本論文は、物理相互作用と背景更新を分離する「解離された動的予測」の原理に基づき、既存の高密度トランスフォーマーモデルに比べ推論速度を約 9 倍向上させつつ、ナビゲーションや操作タスクなど多様な領域で成功率を高める効率的な世界モデル「DDP-WM」を提案するものである。
本論文は、自己強制(Self Forcing)の知見に基づき、学習時の限定的な時間範囲とテスト時の無限の時間範囲の間のギャップを、学習不要な「Rolling Sink」という手法によって解消し、5 分〜30 分という超長尺の動画生成において一貫した被写体、安定した色調、整合的な構造、滑らかな動きを実現することを提案しています。
本論文は、予測の不確実性と放射線専門医が定義した関心領域との注意マップの不一致を組み合わせる二重基準戦略を採用した説明可能能動学習フレームワークを提案し、医療画像解析において少量のデータで高い性能と臨床的な解釈可能性を両立させることを実証しています。