cs.CV 件の論文 | Gist.Science

Automated Dose-Based Anatomic Region Classification of Radiotherapy Treatment for Big Data Applications

この論文は、大規模な放射線治療データベースの構造化を可能にするため、メタデータに依存せず深層学習による体積線量重なりから解剖学的領域を自動分類する高精度なアルゴリズムを開発し、その有効性を検証したものである。

Justin Hink, Yasin Abdulkadir, Jack Neylon + 1 more2026-03-02🔬 physics

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

本論文は、長編動画の質問応答において形式検証に基づく神経記号アプローチの遅延オーバーヘッドを、CLIP による適応的サンプリングとバッチ処理により劇的に削減しつつ、時間的複雑なクエリに対する精度向上を維持する「LE-NeuS」と呼ばれるフレームワークを提案するものである。

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

この論文は、RGB-X センサー間の較正を不要とし、RGB のみからの COLMAP と提案されたマッチング・点の高密度化・3D ガウススプラッティングによる統合手法によって、大規模な実世界 RGB-X データ収集のボトルネックを解消する初のクロスセンサー視点合成研究を提示しています。

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

Evidential Neural Radiance Fields

本論文は、NeRF のレンダリング品質を損なうことなく単一のフォワードパスでアレイタロアとエピステミックの両方の不確実性を直接定量化し、安全クリティカルな環境での信頼性ある 3 次元シーンモデリングを可能にする「Evidential Neural Radiance Fields」を提案するものである。

Ruxiao Duan, Alex Wong2026-03-02🤖 cs.AI

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

本論文は、自律走行における鳥瞰図セマンティックセグメンテーションの課題を解決するため、逆ビュー変換ネットワークを用いたサイクル整合性を学習時に正則化として導入し、推論コストを増加させることなく既存のビュー変換モデルの性能を向上させる「CycleBEV」を提案しています。

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

本論文は、事前学習済みの視覚・言語モデルを微調整せず、ハイパー次元計算を用いた記号的演算のみで両モデル間の意味的対応付けを実現し、効率的かつ高精度な画像キャプション生成を可能にする新たなフレームワーク「HDFLIM」を提案するものです。

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

Incremental dimension reduction for efficient and accurate visual anomaly detection

この論文は、大規模画像データにおける視覚的異常検出の効率化を目指し、バッチ単位で特異値分解を逐次更新・適用することで高次元特徴を低メモリで削減し、精度を維持したまま学習を高速化するアルゴリズムを提案しています。

Teng-Yok Lee2026-03-02💻 cs

Extended Reality (XR): The Next Frontier in Education

本論文は、XR（VR、AR、MR）が教育における没入型学習環境の創出を通じて学生の関与やスキル開発を革新する可能性を論じる一方で、コストや技術的課題、プライバシー保護などの倫理的・法的な障壁を克服し、イノベーションとアクセシビリティのバランスをどう取るかについて考察しています。

Shadeeb Hossain2026-03-02💻 cs

Egocentric Visibility-Aware Human Pose Estimation

本論文は、頭部装着型デバイスを用いた egocentric 人体ポーズ推定における「見えない関節点」の問題を解決するため、可視性ラベルを備えた大規模データセット「Eva-3M」を新たに構築し、可視性を明示的に考慮した新しい推定手法「EvaPose」を提案することで、両方の主要データセットにおいて最先端の性能を達成したことを示しています。

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

本論文は、指示に基づく画像編集モデルの微小物体編集能力を評価する初のベンチマーク「DLEBench」を提案し、1889 件のサンプルと厳密な評価プロトコルを用いて、既存モデルにおけるこの分野の顕著な性能格差を実証しています。

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

この論文は、多様な点群データから構造化された 3D 建物の抽象化を可能にする新しい生成フレームワーク「BuildAnyPoint」を提案し、拡散モデルによる分布回復と自己回帰的なメッシュ生成を組み合わせた「Loca-DiT」アーキテクチャにより、既存手法を大幅に上回る高品質な建物の再構成を実現することを示しています。

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

本論文は、LLM による意味分解と QR 直交化を用いて「過去の比較」軸のみを標的とするトレーニング不要の推論時制御フレームワーク「SDLS」を提案し、放射線報告生成における過去の所見に根拠のない幻覚を抑制しながら臨床的精度を向上させることを示しています。

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

本論文は、CLIP の埋め込みと自然言語記述を統合した新しいフレームワーク「VL-WS」を提案し、これにより多様な農業環境やデータソースにわたる作物と雑草のセグメンテーションにおいて、既存の CNN ベースラインを大幅に上回る汎化性能と精度を達成したことを示しています。

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

異なる形式やプラットフォームにまたがるリモートセンシング基盤モデルの埋め込みベクトル取得を、単一の Python ライブラリ「rs-embed」を通じて、任意のモデル・場所・時期から一貫したインターフェースで効率的に行えるようにする手法が提案されています。

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop は、MLLM の浅い層をバイパスして視覚トークンを融合開始点で注入し、凹型ピラミッド剪定と早期終了メカニズムを用いて視覚トークンの 90% を削減しながら性能を維持し、トレーニングを 1.72 倍高速化する新しい階層的トークン削減フレームワークを提案します。

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

本論文は、Vuforia による環境モデリングと A*アルゴリズムを用いた NavMesh 経路探索を AR 技術と統合し、従来の静的な案内や GPS に代わる、精度・効率・ユーザー体験が向上した屋内ナビゲーションシステムの有効性を示しています。

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

EgoGraph は、複数日にわたる超長尺の第一人称視点動画における従来の断片的な処理の限界を克服し、学習不要で動的に知識グラフを構築することで、長期的なエンティティ間の依存関係と安定した記憶を可能にし、長期的な動画質問応答において最先端の性能を実現するフレームワークです。

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

本論文は、統一マルチモーダル大規模言語モデルがテキスト出力では優れた推論能力を示す一方で、画像出力では意味的等価性を維持できず、これは生成の忠実度の欠如ではなく、クロスモーダルな意味の整合性の崩壊に起因することを、新たに提案した評価ベンチマーク「VGUBench」を用いて実証したものである。

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

本論文は、2D 視覚入力だけでなく、将来の 3D 空間幾何学知識と 4D 時空履歴表現を明示的に統合することで、ロボット操作タスクにおける空間推論と長期計画能力を飛躍的に向上させるオープンソースのビジョン・ランゲージ・アクションモデル「StemVLA」を提案し、CALVIN ベンチマークで最先端の性能を達成したことを報告しています。

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

本論文は、現代の生成 AI 画像の検出精度向上のため、従来の再構成誤差（一次の差分）ではなく、その誤差自体の差分（二次の差分）を用いる「差分の差分」アプローチを提案し、高い汎化性能を実証したものである。

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

← 前へ次へ →