Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review
本論文は、GAP9、STM32N6、Sony IMX500 の 3 つの代表的なプロセッサを用いたベンチマーク評価と包括的なレビューを通じて、超低電力エッジ AI プロセッサの設計動向と、特にインセンサー処理の技術的成熟度や実用的なトレードオフを明らかにしています。
1863 件の論文
本論文は、GAP9、STM32N6、Sony IMX500 の 3 つの代表的なプロセッサを用いたベンチマーク評価と包括的なレビューを通じて、超低電力エッジ AI プロセッサの設計動向と、特にインセンサー処理の技術的成熟度や実用的なトレードオフを明らかにしています。
この論文は、CLIP ベースの視覚エンコーダが抱える細粒度理解の課題と DINOv3 が持つ粗粒度抽象化の欠点を補うため、テキスト入力に応じて視覚抽象化レベルを動的に調整する「Granulon」という新しいマルチモーダル大規模言語モデルを提案し、単一のフォワードパスでピクセルから粗粒度までを統合的に推論可能にすることで、精度の向上とハルシネーションの削減を実現したことを示しています。
この論文は、3D ガウススプラッティングの品質を損なわずにロバストな透かし埋め込みを実現し、どのガウスプリミティブに情報を埋め込み、なぜそれが選択されたかを説明可能な「Trio-Experts」モジュールと「SBAG」ゲートを用いた新しいフレームワークを提案するものです。
本論文は、視覚生成エージェントにおける中間エラー修正のための体系的なリフレクション機構の欠如を解決するため、リフレクションと計画の非対称性を踏まえた「リフレクション・プラン共最適化(RPCO)」トレーニング手法を提案し、これにより単一画像および複数画像タスクにおいて既存のベンチマークで Gemini2.5 Pro を凌駕する VisionCreator-R1 を開発したことを報告しています。
この論文は、4 台のカメラからの画像を逆透視写像(IPM)で統合し、YOLOv8 を用いた物体検出と 3D 座標プロットによる空きスペースの可視化を実現する、コスト効果が高く実装容易なコンピュータビジョンベースのスマート駐車割当システムを提案しています。
本論文は、4 種類の癌でバランスよく学習された軽量な深層学習モデル「MuCTaL」を開発し、既知の癌種だけでなく未知の癌種(膵管癌など)に対しても高い汎化性能を示す、実用可能なマルチ癌種腫瘍局在化フレームワークを提案しています。
本論文は、静止画や動画のハイブリッド参照と各要素の軌跡指定を可能にする「HECTOR」という生成パイプラインを提案し、複雑な時空間制約を満たしつつ高品質で参照に忠実な動画生成を実現するものである。
本論文は、CARLA 環境における物理的パッチ攻撃を用いたブラックボックス評価により、Dolphins、OmniDrive、LeapVAD という 3 つの VLM 型自律運転アーキテクチャがすべて深刻な脆弱性を有し、安全性を脅かす多フレームにわたる失敗や物体検出の劣化を引き起こすことを明らかにしています。
本論文では、外部の視覚的クエリに基づいて未編集動画内の対象物をピクセルレベルで全て検出する新たなタスク「視覚的クエリセグメンテーション(VQS)」を提案し、そのための大規模ベンチマーク「VQS-4K」と、SAM 2 を拡張した高性能な手法「VQ-SAM」を併せて紹介しています。
この論文は、甲状腺超音波画像のセグメンテーションと悪性度評価という競合するタスクにおいて、異なるアーキテクチャ(CNN と ViT)がドメインシフト下で異なる特徴を保持する傾向を明らかにし、マルチカーネルゲートアダプタ(MKGA)を導入することで、クロスセンター環境における頑健性と診断精度を向上させる手法を提案しています。
この論文は、臨床ガイドラインと視覚言語モデルを統合し、画像特徴・概念・診断を同時に学習して構造化された臨床ナラティブを生成する「MedCBR」という新しい概念ベースの推論フレームワークを提案し、医療画像診断の精度と解釈可能性を大幅に向上させることを示しています。
本論文は、大規模マルチモーダルモデルの推論能力を活用し、高圧環境における微表情の理解と時空的推論を評価する新たなタスク(ME-VQA および ME-LVQA)を含む「2026 年微表情グランドチャレンジ(MEGC2026)」を提案するものである。
本論文は、拡散トランスフォーマー(DiT)が高解像度生成時に生じる構造的劣化やアティション希薄化の問題を、追加のサンプリングコストなしに解決し、任意の解像度とアスペクト比での高品質な画像生成を実現するトレーニング不要の手法「TIDE」を提案するものである。
この論文は、ドローン画像から植物シミュレーションの構成パラメータを生成するために、コンテキスト学習を活用したビジョン言語モデル(VLM)を初めて導入し、合成データと実世界のデータを用いてその性能と限界を評価した研究です。
本論文は、自然言語による症例検索、自動コホート構築、臨床質問応答などを統合した大規模言語モデル駆動型の「PathoScribe」フレームワークを提案し、7 万件の病理報告データを用いた評価において、従来の手動レビューに比べて時間とコストを劇的に削減しつつ、高い精度で臨床意思決定を支援できることを実証したものである。
本論文は、異なるドメイン間の画像特徴が少数のアンカーを用いて復元可能な幾何学的変換によって関連付けられているという仮説に基づき、極めてシンプルかつパラメータ効率の高い BiCLIP というフレームワークを提案し、11 のベンチマークで最先端のドメイン適応性能を達成したことを報告しています。
この論文は、音声と視覚信号の動的な変化に対応し、カタストロフィック・フォージングを回避するために、低ランクアンカリング(LRA)を用いた強固なベースライン「ATLAS」と、音声視覚セグメンテーションにおける最初のサンプルフリー継続学習ベンチマークを提案するものです。
本論文は、拡散トランスフォーマーにおけるスパースアテンションの計算コスト削減と情報損失の両立を可能にするため、クラスタセントロイドを用いたパラメータ不要の線形補償と、補償誤差を推定するエラー感知ルーティングを組み合わせた「SVG-EAR」を提案し、動画生成の品質を維持しつつ大幅な高速化を実現したものである。
本論文は、手術室の無菌環境やワークフローを乱すことなく、ガウススプラッティングに基づくマーカーレスな自動手眼較正フレームワーク「SurgCalib」を提案し、da Vinci 手術ロボットにおける高精度なツール位置推定を実現したものである。
本論文は、3D ガウススプラッティングの学習において、損失が飽和しているビューの逆伝播を適動的にスキップする「SkipGS」を提案し、再構成品質を維持しつつ学習時間を最大 23.1% 削減する手法を提示しています。