DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds
この論文は、4D レーダーの低密度な点群データから高精度な自動運転知覚を実現するため、局所的な詳細特徴と大域的な文脈情報を双経路アーキテクチャで融合する「DRIFT」というモデルを提案し、物体検出や自由道路推定において既存手法を上回る性能を示したことを述べています。
3469 件の論文
この論文は、4D レーダーの低密度な点群データから高精度な自動運転知覚を実現するため、局所的な詳細特徴と大域的な文脈情報を双経路アーキテクチャで融合する「DRIFT」というモデルを提案し、物体検出や自由道路推定において既存手法を上回る性能を示したことを述べています。
本論文は、手術動画の質問応答タスクにおいて言語的バイアスへの頑健性と時間的根拠の把握を両立させるため、低ランク適応(LoRA)の学習可能ブランチに軽量な時間的注意機構を組み込んだ新しいパラメータ効率的微調整手法「TemporalDoRA」を提案し、新たに作成したREAL-Colon-VQAデータセットなどを用いた実験でその有効性を実証しています。
本論文は、マルチターン人間-LLM 協調コード生成における「インタラクションスメル」という新たな問題領域を定義し、実世界データに基づく分類体系の確立、主要モデル間の分布分析、そしてグローバル不変性の抽出と事前品質監査を行うマルチエージェントフレームワーク「InCE」による効果的な軽減手法の提案を通じて、この課題を体系的に解明した研究である。
本論文は、離散ウェーブレット変換を用いた周波数帯域分解と条件付き拡散モデルを組み合わせた「TriFusion-SR」という新しいフレームワークを提案し、MRI、CT、PET といった 3 種類の医療画像の融合と超解像を同時に処理することで、既存手法の限界を克服し、画質と診断精度を大幅に向上させることを示しています。
本論文は、3D ガウススプラッティングのデータ圧縮とストリーミング配信の課題を解決するため、オクトリー構造と相互情報量強化メカニズムを導入し、保存容量を 45 倍削減しながら視覚品質を 10% 以上向上させるプログレッシブ符号化方式「ProGS」を提案するものである。
本論文は、既存のロボット操作軌跡を視覚的プロンプトで編集する「Robotic Scene Cloning(RSC)」を提案し、ゼロショット学習による実世界でのロボットタスク適応と汎化性能の向上を実現する手法を提示しています。
本論文は、3D ガウススプラッティングの大容量データ問題に対処するため、複数ユーザーの行動を学習する協調的ビューポート予測と深層強化学習に基づくビットレート適応を組み合わせた、高画質かつ効率的な volumetric シーンストリーミングシステム「GSStream」を提案し、その有効性を検証したものである。
本論文は、拡散モデルにおける高忠実度動画生成の課題を解決するため、フレーム全体を行列として処理する「Matrix Attention」を導入し、大規模な動きの捕捉と効率的な計算を両立する新しいアーキテクチャ「FrameDiT」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
この論文は、ランキングアルゴリズムのデータへの微小な変化に対する感度を評価する「局所安定性」という新たな指標を提案し、その計算の困難さを克服するための近似アルゴリズムと密な領域の検出手法を開発して、大規模な実験によりその有効性を検証したものである。
この論文は、一般的な制御フローグラフに適用可能な健全かつ効率的な「冪等バックスライス」の定式化と抽出アルゴリズムを提案し、これを用いて非連続な命令シーケンスをマージする疎なコードサイズ削減最適化を実現し、LLVM テストスイートにおいて最大 7.24% のコードサイズ削減を達成したことを報告しています。
この論文は、センサーからの観測データを用いて破壊モデルの状態(変位と位相場)をベイズ推論により更新する正則化されたアンサンブルカルマンフィルタ手法を提案し、その有効性を数値例で示すものである。
LLM の推論インフラにおけるリソース効率と SLO 維持を両立するため、推論サーバーの内部状態と密接に連携し、プロアクティブなスケール制御と断片化を考慮したスケールダウンを行う「WVA」という制御平面を提案し、従来の HPA と比較して実効スループットを 37% 向上させ、リクエスト失敗を 10 倍削減する効果を実証した。
本論文は、診断・計測・セグメンテーションの各タスクを専門とする複数のエージェントを動的に調整し、静止画解析から動画ストリームの構造化臨床レポート生成までを一貫して支援する、初めての包括的な胎児超音波画像・動画解析マルチエージェントシステム「FetalAgents」を提案し、その多施設外部評価における卓越した性能を実証しています。
この論文は、安全クリティカルな自律システムにおいて、データの鮮度制約に基づいてタスクのオフセットを最適化し、Just-in-Time 方式でデータ生成を調整することで、LET パラダイムの遅延や過剰サンプリングを排除しつつ、エンドツーエンドのデータ鮮度を保証し、かつグローバル EDF の 100% のスケジューラビリティを維持する新しいタスクベースのスケジューリング枠組みを提案しています。
本論文は、連続環境における視覚言語ナビゲーション(VLN-CE)において、SFT の累積誤差や RFT のスパースな報酬という課題を解決するため、不完全な軌道から密な教師信号を抽出し、ステップごとの進捗評価と動的なバッチ処理を行う「ステップ認識型対照的アライメント(SACA)」を提案し、SOTA 性能を達成したことを示しています。
本論文は、産業現場における人間の行動理解を促進するため、現実の環境で同期された 180 組の egocentric(主観的)および exocentric(客観的)360 度動画を収集し、時間的・空間的注釈を付与した新しいデータセット「ENIGMA-360」とそのベンチマーク結果を公開するものである。
この論文は、視覚的曖昧性を克服し言語の表現力を活用して手順計画の精度を大幅に向上させる新たな手法「LAP(Language-Aware Planning)」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。
この論文は、カミキリムシの運動と感覚に着想を得て、既存のロボットアームに装着可能なバネ式連続体ロボットを開発し、人工剛毛センサーによる接触感知を組み合わせることで、狭小空間の探査と表面の知覚を実現したことを報告しています。
この論文は、2 つのパスの同時幾何学的埋め込みにおける最長辺の長さの最小化が NP 困難であることを示し、一方のパスが x 単調でもう一方が y 単調である場合、その埋め込みを含む整数グリッドの周長を 時間で最小化できることを証明しています。
この論文は、認知科学の理論的枠組みを用いることで、人間とコンピュータの相互作用(HCI)およびゲームデザインの観点から商業用ビデオゲームを研究環境として再評価し、実験室環境の限界を補完する新たなアプローチを提案するものである。