Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery
Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。
4137 件の論文
Tensor Ring 分解を連続的な関数分解へと拡張し、周波数領域分析に基づいて潜在テンソルと固定基底の構造的重み付けによる再パラメータ化を導入することで、高周波成分のモデル化能力と学習の安定性を向上させ、画像修復や点群復元など多様な多次元データ復元タスクにおいて既存手法を上回る性能を実現する手法が提案されています。
本論文では、大規模な動画生成モデルの推論コストを削減するため、モデルサイズとサンプリングステップ数を同時に圧縮する蒸留フレームワーク「FastLightGen」を提案し、HunyuanVideo や WanX などのモデルにおいて、4 ステップサンプリングと 30% のパラメータ剪定で最適な視覚品質を達成する新たな最先端性能を確立したことを示しています。
本論文は、強化学習と大規模な合成データパイプラインを活用して、テキスト・画像検索やウェブ閲覧などの長期的なマルチターンツール使用を可能にする自律型マルチモーダル検索エージェント「VSearcher」を提案し、その有効性を新たなベンチマーク「MM-SearchExam」での評価を通じて実証しています。
本論文は、リアルタイムな動画ストリームに対応するため、フレームの受取と推論を並列化し、バッチ処理やインターリーブ方式を上回る推論精度と低遅延を実現する「Think-as-You-See (TaYS)」という新しい大規模視覚言語モデル向けストリーミング推論フレームワークを提案するものである。
CoEditor++ は、追加学習を必要とせず「何を編集するか」と「どのように編集するか」の 2 つの認知段階と反射的な自己選択メカニズムを採用することで、複雑な指示に対する高レベルな意味論的推論と視覚的一貫性を両立し、既存のオープンソースモデルやクローズドソースモデルを上回る性能を達成するトレーニングフリーの画像編集フレームワークである。
本論文は、視覚言語モデルを拡張し、到達可能性の制約を微分可能な最適化プロセスに統合することで、サービスロボットや人間など多様なエージェントの物理的制約を満たすナビゲーション可能かつ実行可能な 3D 室内シーン生成を実現する「RoboLayout」を提案しています。
本論文は、複数の専門エンコーダやモジュール結合のオーバーヘッドを排除し、単一の密なトランスフォーマー・エンコーダ(Omni-C)を用いて画像・音声・テキストなどの異種モダリティを効率的に共有表現へ圧縮する手法を提案し、リソース制約のある環境でもスケーラブルなマルチモーダル学習を実現することを示しています。
本論文は、小児ループス腎炎の予後予測において、臨床データと PAS 染色組織画像を統合した「臨床注入トランスフォーマー」とドメイン適応型 MAE を採用し、既存手法の課題を克服して高い精度を達成した初のマルチモーダル計算病理フレームワークを提案するものである。
この論文は、従来のシルエットやパース解析の限界を克服するため、ラベルなしで RGB 画像から高周波構造特徴を抽出する新しいモダリティ「SKETCH」と、それをシルエットと補完的に融合する階層的なフレームワーク「SKETCHGAIT」を提案し、ガイト認識の性能を大幅に向上させたことを示しています。
この論文は、V2X 環境における都市交差点の軌道予測において、標準的な MSE 損失とデジタルツインから導出された交通ルールや衝突回避を考慮した新規な「ツイン損失」を組み合わせることで、予測精度を維持しつつ交通違反や衝突リスクを大幅に低減する安全配慮型の予測パイプラインを提案しています。
本論文は、複雑なドキュメントの質問応答タスクにおいて、クエリの難易度に応じた経路選択と、視覚解釈と論理推論を分離した機能デカップリングアーキテクチャを導入することで、推論コストを削減しつつ最先端の性能を達成する「AutoThinkRAG」というフレームワークを提案しています。
この論文は、追加データや再学習なしに、従来のモデルから剪定によってバイアスに依存しない部分ネットワークを抽出する「BISE」という手法を提案し、効率的なバイアス軽減を実現することを示しています。
この論文は、RGB 動画を明示的な 3D 空間コードに変換し、強化学習を用いて大規模言語モデルに物理的な推論を可能にする「Thinking with Spatial Code」というフレームワークを提案し、VSI-Bench において最先端の性能を達成したことを示しています。
本論文は、従来の個別検証の限界を克服し、混合整数線形計画(MILP)を用いてキーポイント間の依存関係を考慮した結合検証フレームワークを提案することで、学習ベースのキーポイント検出器の堅牢性を初めて厳密に保証する手法を開発したものである。
この論文は、CAD 特有の注釈が不要な点レベルの教師信号を用いて編集可能な BRep を直接生成する多モーダル生成フレームワーク「DreamCAD」と、最大規模の CAD 説明文データセット「CADCap-1M」を提案し、既存手法を凌駕する性能を達成したことを報告しています。
この論文は、高内容スクリーニングにおける技術的変動によるバッチ効果をドメイン一般化問題として捉え、特徴統計を構造化された不確実性としてモデル化し、敵対的学習と分布整合を組み合わせる「ABRA」という手法を提案することで、未見のバッチに対する汎化性能を大幅に向上させ、siRNA 擾乱分類において新たな最先端性能を達成したことを示しています。
この論文は、既存のカメラ・LiDAR 融合 3D 検出モデルの中間 BEV 特徴量に対して動作する軽量モジュール「Post Fusion Stabilizer (PFS)」を提案し、ドメインシフトやセンサー故障下でも検出性能を維持・向上させることを実証しています。
本論文は、概念ボトルネックモデル(CBM)が抱える概念の事前評価指標の欠如や「線形性問題」などの課題を解決し、精度と解釈性を両立させるための包括的なフレームワーク「CBM-Suite」を提案するものである。
本論文は、VAE の再構成 FID と拡散モデルの生成 FID の相関が低いという既存の知見を踏まえ、データ点とその潜在空間の最近傍点を補間して計算する「補間 FID(iFID)」を提案し、これが拡散生成の品質と非常に高い相関(約 0.85)を示すことを実証するとともに、両者の相関関係の理論的根拠を明らかにしたものです。
この論文は、正解が一意に定まらないタスクにおける強化学習の課題を解決するため、正解との比較ではなく「誤りを列挙・重み付けする Implicit Error Counting (IEC)」手法を提案し、バーチャル試着領域での評価基準としてその有効性を示しています。