cs.CV 件の論文 | Gist.Science

Spectrum Shortage for Radio Sensing? Leveraging Ambient 5G Signals for Human Activity Detection

本論文は、既存の 5G などの通信信号を再利用してスペクトル不足を解決し、自己混合 RF 構造と視覚モデルを活用した学習フレームワークにより、人間の活動検出や骨格推定を可能にする新しい「環境ラジオセンシング（ARS）」システムを提案し、実機プロトタイプによる実験でその有効性を検証したものである。

Kunzhe Song, Maxime Zingraff, Huacheng Zeng2026-03-05💻 cs

An Effective Data Augmentation Method by Asking Questions about Scene Text Images

この論文は、文字の存在・位置・頻度などの属性を問う自然言語の質問を生成する VQA 発想のデータ拡張フレームワークを提案し、これにより OCR モデルの推論能力を強化し、文字誤り率と単語誤り率を大幅に低減させることを示しています。

Xu Yao, Lei Kang2026-03-05💻 cs

Hazard-Aware Traffic Scene Graph Generation

この論文は、交通事故データと深度情報を視覚特徴に統合し、危険の重大度や影響メカニズムを色分けと注記で可視化する「交通シーングラフ生成」という新たなタスクとフレームワークを提案することで、複雑な運転シナリオにおける自己中心的な危険認識能力を向上させることを目指しています。

Yaoqi Huang, Julie Stephany Berrio, Mao Shan + 1 more2026-03-05💻 cs

DM-CFO: A Diffusion Model for Compositional 3D Tooth Generation with Collision-Free Optimization

この論文は、拡散モデルを用いてテキストとグラフの制約下で欠損歯の配置を復元し、3D ガウシアンに基づく衝突検出と正則化項を導入して交差を防ぐことで、現実的で多視点整合性のある複合的な 3D 歯の生成を実現する「DM-CFO」という手法を提案しています。

Yan Tian, Pengcheng Xue, Weiping Ding + 5 more2026-03-05💻 cs

Detection and Identification of Penguins Using Appearance and Motion Features

本論文は、均質な外観や激しい姿勢変化、水面の反射といった環境ノイズに直面するペンギン施設において、連続フレームを入力とした YOLO11 の適応と追跡後の軌跡ベースの対照学習を組み合わせることで、検出精度の向上と個体識別における ID 切替の抑制を実現する統合フレームワークを提案しています。

Kasumi Seko, Hiroki Kinoshita, Raj Rajeshwar Malinda + 1 more2026-03-05💻 cs

Tracking Feral Horses in Aerial Video Using Oriented Bounding Boxes

本論文は、航空映像における群れ馬の個体追跡において、従来の軸平行境界ボックスの限界と既存の回転境界ボックス検出器の向き判別不能という課題を解決するため、IoU に基づく多数決を用いた頭部・尾部の向き推定手法を提案し、99.3% の高い精度でロバストな追跡を実現したことを報告しています。

Saeko Takizawa, Tamao Maeda, Shinya Yamamoto + 1 more2026-03-05💻 cs

Parallax to Align Them All: An OmniParallax Attention Mechanism for Distributed Multi-View Image Compression

本論文は、分散マルチビュー画像圧縮において既存の手法が抱える視差相関の非対称性を克服し、新規の「OmniParallax Attention Mechanism」を導入した「ParaHydra」と呼ばれるフレームワークを提案することで、最先端のマルチビュー圧縮コーデックを大幅に凌駕する高効率な圧縮を実現したことを報告しています。

Haotian Zhang, Feiyue Long, Yixin Yu + 7 more2026-03-05💻 cs

LeafInst - Unified Instance Segmentation Network for Fine-Grained Forestry Leaf Phenotype Analysis: A New UAV based Benchmark

本論文は、屋外環境における樹木の微細な葉の形態解析を目的として、初の UAV 画像データセット「Poplar-leaf」を構築し、多スケール・不規則形状への適応を強化した新しいインスタンスセグメンテーションネットワーク「LeafInst」を提案し、既存手法を上回る精度を達成したことを報告するものです。

Taige Luo, Junru Xie, Chenyang Fan + 5 more2026-03-05💻 cs

RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation

本論文は、マルチモーダル大規模言語モデルを用いてテキスト注釈を自動生成し、マルチモーダル変号エンコーダ、適応的トークン融合、および文脈認識推論モジュールを備えた検索拡張生成（RAG）フレームワーク「RAGTrack」を提案することで、言語ガイダンスと時間的推論により RGBT 追跡のロバスト性を大幅に向上させたことを示しています。

Hao Li, Yuhao Wang, Wenning Hao + 3 more2026-03-05💻 cs

CoRe-BT: A Multimodal Radiology-Pathology-Text Benchmark for Robust Brain Tumor Typing

本論文は、診断時にモダリティが欠落する現実的な臨床シナリオにおける脳腫瘍の分類タスクを研究するため、MRI、病理画像、病理レポートを組み合わせた 310 症例のマルチモーダルベンチマーク「CoRe-BT」を提案し、欠損モダリティ下でのロバストな学習手法の検証基盤を提供するものです。

Juampablo E. Heras Rivera, Daniel K. Low, Xavier Xiong + 5 more2026-03-05💻 cs

Extending Neural Operators: Robust Handling of Functions Beyond the Training Set

本論文は、カーネル近似と再生核ヒルベルト空間の理論を統合して、訓練データ分布外の関数やその微分を頑健に扱えるニューラル演算子の拡張枠組みを構築し、多様体上の楕円型偏微分方程式の求解を通じてその有効性を実証したものである。

Blaine Quackenbush, Paul J. Atzberger2026-03-05🤖 cs.LG

Image-based Prompt Injection: Hijacking Multimodal LLMs through Visually Embedded Adversarial Instructions

本論文は、自然な画像に視覚的に埋め込まれた敵対的指示によってマルチモーダル大規模言語モデルの動作を乗っ取る「画像ベースのプロンプトインジェクション」という新たな攻撃手法を提案し、その実用性と脅威を実証しています。

Neha Nagaraja, Lan Zhang, Zhilong Wang + 2 more2026-03-05🤖 cs.AI

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本論文は、背景の整合性、複数被写体を含むシームレスなショット遷移、および長時間ナラティブへのスケーラビリティという 3 つの課題を解決し、VBench において背景・被写体の整合性や全体の平均順位で最高スコアを達成した新しい動画生成フレームワーク「InfinityStory」を提案するものです。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen + 27 more2026-03-05💻 cs

One-Step Face Restoration via Shortcut-Enhanced Coupling Flow

本論文は、低品質と高品質のデータ間の依存関係を明示的にモデル化するデータ依存カップリングや条件付き平均推定、ショートカット制約を導入することで、従来のフローマッチング手法が抱える経路の交差や多段階サンプリングの課題を解決し、非拡散法と同等の高速性で最先端の画質を実現する「SCFlowFR」と呼ばれる一歩推論による顔復元手法を提案するものである。

Xiaohui Sun, Hanlin Wu2026-03-05💻 cs

Field imaging framework for morphological characterization of aggregates with computer vision: Algorithms and applications

本論文は、建設用骨材の形態特性評価における既存手法の限界を克服するため、個体から資材山までの多様な現場シナリオに対応し、2D 画像解析および 3D 点群データに基づく再構成・セグメンテーション・形状補完を統合したコンピュータビジョンフレームワークを開発・検証したものである。

Haohang Huang2026-03-05🤖 cs.AI

← 前へ次へ →

cs.CV