Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning
本論文は、教師あり学習と強化学習を反復的に組み合わせる「SMART-R1」という新しい微調整手法を提案し、Waymo Open Sim Agents Challenge でリアルタイムシミュレーションの性能を大幅に向上させ、首位を獲得したことを報告しています。
9968 件の論文
本論文は、教師あり学習と強化学習を反復的に組み合わせる「SMART-R1」という新しい微調整手法を提案し、Waymo Open Sim Agents Challenge でリアルタイムシミュレーションの性能を大幅に向上させ、首位を獲得したことを報告しています。
この論文は、大規模な人間評価データセットを用いて訓練された新しい報酬モデル「EditReward」を提案し、指示に基づく画像編集タスクにおける人間の嗜好との高い整合性を示すことで、高品質な合成学習データの拡張や編集モデルの性能向上に貢献することを報告しています。
Stylos は、ポーズ情報やシーンごとの最適化を必要とせず、単一の画像から多視点の 3D 画像まで、参照スタイル画像に基づいて幾何学的忠実性と視点一貫性を両立したゼロショット 3D 様式変換を実現する、単一フォワードの 3D ガウススプラッティングフレームワークです。
この論文は、既存のベンチマークが抱える難易度や多言語性の課題を克服し、多文化・多言語・多タスクな漫画データを用いて Multimodal Large Language Models の文化的意識能力を評価する新たなベンチマーク「CB」を提案し、現在のモデルと人間の間に大きな性能差があることを示したものです。
本論文は、動画の時間的整合性を明示的に捉える Video Consistency Models(VCM)を活用し、自動微分を不要としつつ少数の推論ステップで高解像度動画復元において最先端の画質と計算効率を実現する、初のゼロショット・プラグアンドプレイ型逆問題ソルバー「LVTINO」を提案するものである。
本論文は、DiT(Diffusion Transformer)の強力な事前知識をドラッグ編集に活用するため、点ベースではなく領域ベースの編集パラダイムを導入し、背景の忠実性を保ちつつ被写体の整合性を高める「DragFlow」を提案し、新しい最先端性能を達成したことを報告しています。
本論文は、大規模視覚言語モデルにおける関係性の幻覚を軽減するため、画像とテキストの記憶を蓄積し、主語・目的語・関係性に焦点を当てた多視点の質問を逐次的に提示するトレーニング不要な手法「ChainMPQ」を提案し、その有効性を複数のベンチマークで実証したものである。
本論文は、心エコー検査のプローブ誘導における個人差への対応を強化するため、超音波基盤モデルに個体固有の3D構造理解能力をオンラインで付与する「VA-Adapter」を提案し、131 万を超えるサンプルを用いた大規模実験で既存モデルを凌駕する性能を低パラメータで実現したことを示しています。
本論文は、推論時にスパティオテンプラルなレイアウトとテキスト・画像の整合性を保つために、学習不要の「テスト時最適化と記憶(TTOM)」フレームワークを提案し、パラメトリックな記憶メカニズムを用いて動画生成のコンポジション能力を飛躍的に向上させることを示しています。
この論文は、NeRF の表現力と 3D Gaussian Splatting の高速レンダリングを両立させ、従来の手法に比べて 10 倍少ないプリミティブと 6 倍少ないパラメータで高品質な新規視点合成を実現する「Splat the Net」と呼ばれる新しい体積表現手法を提案しています。
本論文は、線形アテンションの計算効率と生成モデルの画質を両立させるため、学習不安定性を解消する「ESGF」戦略、知覚と歪みのトレードオフを克服する「SNR 基盤の MoE」アーキテクチャ、そして軽量な「TAG」ガイダンスを組み合わせた画期的な超解像フレームワーク「LinearSR」を提案し、安定かつ効率的なフォトリアリスティックな画像超解像を実現したことを示しています。
本論文は、階層性と構成性を同時に表現する新たな視覚言語モデル「PHyCLIP」を提案し、双曲空間の直積に距離を導入することで、概念間の階層関係と異種概念の組み合わせを効率的に学習し、既存手法を上回る性能と解釈可能性を実現したことを示しています。
本論文は、不完全なマルチラベル画像認識の課題に対処するため、意味情報とラベル相関を捉える特徴学習と、視覚・意味空間の整合性に基づく特徴強化、そして欠損ラベルの復元を相互に促進させる協調学習フレームワーク「CSL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。
本論文は、視覚理解と生成の間の性能トレードオフを解消し、事前学習済み視覚エンコーダの適応とパッチ単位のピクセルフロー復号化を採用することで、両タスクで優れた性能を達成する統合的なピクセルフロートークナイザ「UniFlow」を提案するものです。
この論文は、自己教師あり事前学習を用いた新しい 2 段階トレーニングフレームワークを導入し、事前学習された VAE に依存することなくピクセル空間で直接学習する生成モデルを実現し、ImageNet において既存の潜在空間モデルや VAE ベースの手法を凌駕する SOTA 性能と計算効率を達成したことを報告しています。
本論文は、ハエの嗅覚回路に着想を得た Fly-CL というフレームワークを提案し、事前学習済みモデルを用いた継続的表現学習において、多共線性の解消とトレーニング時間の大幅な短縮を実現しながら最先端の性能を達成することを示しています。
本論文は、露出が切り替わる単眼動画からカメラ姿勢を不要とした 2 段階最適化アプローチにより、初めて可視化可能な 4 次元 HDR シーンを再構成する「Mono4DGS-HDR」を提案し、既存手法を凌駕する画質と速度を実現したことを報告しています。
Atkinson-Shiffrin の人間の記憶モデルに着想を得た LightMem は、感覚記憶・短期記憶・長期記憶の 3 段階構造とオフライン更新を導入することで、LLM の対話履歴活用における性能を向上させつつ、トークン数や API 呼び出しを大幅に削減する軽量かつ効率的なメモリシステムを実現します。
本論文は、Wikipedia や分類群に特化したフォーマット例を用いた多モーダル大規模言語モデルによる合成説明文を生成し、生物画像とテキストの対照学習を通じて種分類や検索タスクの性能を向上させる生物基礎モデル「BioCAP」を提案しています。
VoMP は、3D オブジェクトの体積全体にわたってヤング率、ポアソン比、密度などの機械的特性を予測する新しいフードフォワード手法であり、物理的に妥当な材料多様体上で学習されたジオメトリ・トランスフォーマーと、視覚言語モデルを活用した新しいアノテーションパイプラインにより、従来手法を大幅に上回る精度と速度を実現します。