DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference
Vision-Language-Action (VLA) モデルの推論遅延を解消するため、DepthCache は学習不要で深度情報を活用して視覚トークンを圧縮し、近接作業領域の精度を維持しつつ推論速度を最大 1.28 倍向上させるフレームワークを提案しています。
5321 件の論文
Vision-Language-Action (VLA) モデルの推論遅延を解消するため、DepthCache は学習不要で深度情報を活用して視覚トークンを圧縮し、近接作業領域の精度を維持しつつ推論速度を最大 1.28 倍向上させるフレームワークを提案しています。
この論文は、拡散モデルを用いて生成した対照的画像から視覚誘発性ハルシネーションの低ランク部分空間を特定し、推論時に中間隠れ状態をその部分空間から射影することで、学習不要で大規模視覚言語モデルのハルシネーションを抑制する「CIPHER」という手法を提案しています。
従来の高コストなソフトウェア検証から、システムが少数の要因に支配される「影響の希薄性」を利用したモデルフリーの探索手法「EZR」への転換を提案し、わずか 32 回の試行でピーク性能の 90% を達成する効率的なアプローチを提示しています。
本論文は、壁や道路など 9 種類の表面にまたがる約 78,000 枚の画像を統合・再注釈した大規模な構造物損傷検出用データセット「StructDamage」を提案し、多様な深層学習モデルによる高い分類精度を実証することで、構造物の損傷検出における汎用性と再現性の向上に貢献するものです。
本論文は、質量分析イメージング(MSI)のデータ処理において、既存手法の課題を克服し、空間的・スペクトル的情報を活用した自己教師あり学習ニューラルネットワークと専門家の注釈に基づく評価手法を提案することで、より一貫性のあるピーク抽出と評価を実現するものである。
既存のベンチマークが抱える合成データ依存や評価指標の限界を克服するため、4 つの実践的シナリオと 9 言語を網羅し、翻訳品質からクロスモーダルな整合性まで多面的に評価できる新しい「IMTBench」を提案し、現状のモデル間には大きな性能差があることを示した。
この論文は、GCAM モデルを用いた分析を通じて、AI の電力需要が単純なサービス成長に比例せず、効率性の向上と所得増加のバランス、および価格弾力性の低さに依存して「効率主導型」または「需要主導型」のいずれかのレジームに収束することを明らかにし、長期的なエネルギー・気候シナリオにおける AI の電力需要を評価するための枠組みを提供しています。
この論文は、UHD 画像のデブラリングにおいて、粗から細への段階的なアップサンプリングと残差生成を流形マッチングでモデル化する自己回帰フロー手法を提案し、条件数正則化による ill-conditioned 制約の抑制を通じて、計算効率と高解像度での細部復元を両立させることを目的としています。
この論文は、複雑な視覚的特徴と抽象的な臨床テキストの間のモダリティギャップおよび意味の混在という課題を解決するため、視覚的ガイダンスを用いたテキストの細粒度意味分離とハイブリッド特徴融合モジュールを拡散トランスフォーマに統合し、医療画像生成の制御性と品質を大幅に向上させるフレームワークを提案しています。
本論文は、限られたスライド画像データにおけるがん予後予測の課題に対し、タスクベクトルのミックスアップとハイパーネットワークを用いて他種がんの一般化知識を効率的に統合する「STEPH」という新しい手法を提案し、従来の学習法や既存の転移学習手法を上回る性能と計算効率を実現したことを報告しています。
本論文は、不整地での移動とアームによる把持・収納を統合した四足歩行ロボット「BinWalker」を開発し、屋外環境における持続可能なゴミ収集の実現可能性をフィールド評価で実証したものである。
この論文は、12 万 6 千以上の科学論文から抽出された 909 件の単語規模のグラフィックを分析し、その配置、機能、視覚表現を特徴づける枠組みを提案するとともに、学術コミュニケーションの向上に向けた可能性を論じています。
この論文は、イベント駆動型のバイナリ走査戦略と FPGA 実装のスパイキングニューラルネットワーク(SNN)を統合し、データ収集のオーバーヘッドを劇的に削減しながらリアルタイムで高精度な手書き数字認識を実現する、完全統合型の電子皮膚システムを提案しています。
DSFlash は、リソース制約のあるエッジデバイスでも実用的なリアルタイム処理(RTX 3090 で 56fps)と低コストな学習環境(古型 GPU で 24 時間未満)を実現しつつ、既存の最先端手法と同等の性能を維持しながら包括的なパンオプティックなシーングラフを生成する低遅延モデルです。
本論文は、深層学習における活性化値の境界外れ値を抑制する新しい非線形量子化手法「BS-KMQ」を提案し、これによりメモリ内計算システムにおける ADC の解像度要件を低減するとともに、既存手法と比較して大幅な量子化誤差の低減、精度向上、およびエネルギー効率と速度の大幅な改善を実現することを示しています。
本論文は、画像と動画の両方に対してスケーラブルな表現を提供する初の階層的逐次 2D ガウススプラッティングフレームワーク「P-GSVC」を提案し、層間互換性を確保する同時学習戦略により、逐次学習と比較して画質を大幅に向上させることを示しています。
本論文は、異ドメイン間のレイテンシ課題を解決し、TLA+ による形式仕様検証で強一貫性を保証するとともに、YCSB ベンチマークにおいてクラシックな Raft と比較して平均レイテンシを約 33%、99 パーセンタイルのテールレイテンシを約 49% 削減する分散合意プロトコル「CD-Raft」を提案したものである。
この論文は、コードプロパティグラフを用いたグラフ畳み込みネットワーク(GCN)モデルを開発し、静的解析レポートの誤検知(False Positive)を高精度に予測することで、開発者の負担軽減とツールへの信頼性向上を実現したことを報告しています。
PET/CT 画像診断レポートの要約生成を目的とした大規模ベンチマーク「PET-F2I-41K」を構築し、臨床的に妥当な評価指標を導入してパラメータ効率型ファインチューニング手法を適用した結果、既存モデルを凌駕する高精度な生成モデル「PET-F2I-7B」を開発したことを報告する論文です。
本論文は、視覚が遮断された環境下での物体把持を可能にするため、事前学習モデルやレンダリングデータに依存せず、触覚センサーから得られる点群と法線ベクトルを用いたグラフ理論に基づく部分 - 全体登録手法「TacLoc」を提案し、YCB データセットおよび実世界物体での有効性を検証したものである。