cs.CV 件の論文 | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

この論文は、Sintel データセットから抽出された高コントラストなオプティカルフローパッチの低次元モデルとして、従来のトーラスモデルの限界を説明し、運動境界付近に集中する重要な二値ステップエッジパッチを記述する新しい 3 次元多様体モデルを提案し、視覚データ推論におけるトポロジーと幾何学の微妙な相互作用を解明したものである。

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

この論文は、大腸内視鏡検査における複雑な蠕動運動を正確に再現する新しい動的ガウススプラッティング手法「ColonSplat」を提案し、その評価のために真の地対データを含む合成データセット「DynamicColon」を構築したことを述べています。

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

本論文は、重たい裾を持つコーシー CDF をゲートとして用いる新しい活性化関数 IGLU とその効率的な近似版 IGLU-Approx を提案し、これらが重なり合うデータセットにおいて勾配消失に強く、ReLU や GELU と同等かそれ以上の性能を発揮することを示しています。

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

本論文は、環境事前知識と二重トランスフォーマー・カスケード構造を統合した効率的な学習アーキテクチャを提案し、屋外テニスコートにおけるボールの着地点を高精度に予測する新しい手法を確立したものである。

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

PICS は、マスクガイドの混合専門家モデルと適応的αブレンディングを用いて、重なり合うオブジェクト間の相互作用を明示的にモデル化し、拡散ベースの画像合成における空間的整合性と物理的一貫性を大幅に向上させる自己教師ありの合成手法です。

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

この論文は、セグメント・Anything モデル 3（SAM 3）を用いたゼロショットセグメンテーション技術により、トラコーマの自動分類研究を促進するためのオープンソース前処理データセット「OPTED」を構築し、そのパイプラインと最適化されたプロンプト選定手法を公開したことを報告しています。

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

この論文は、産業設計の手法に着想を得て、参照曲面とモデリング手順に基づいて大規模言語モデルに CAD プログラムを生成させる新たなデータ拡張手法を提案し、既存データに不足していた有機的な形状やスプライン曲率を含む幾何学的多様性を大幅に向上させることを示しています。

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

本論文は、固定された学習可能クエリの限界を克服し、グローバルな意味を捉える共有潜在パターンとコンテンツ条件付き重み付けによる動的クエリ生成、および局所化・分類の一貫性に基づく品質認識アノテーション戦略を統合することで、物体検出の適応性と監督のバランスを向上させる「PaQ-DETR」を提案し、COCO や CityScapes などのベンチマークで既存 DETR モデルを 1.5%〜4.2% 上回る精度を達成したことを報告しています。

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

本論文は、エッジデバイス向けのマルチスペクトル融合物体検出において、低ランク行列分解による計算効率の向上と構造認識蒸留による精度維持を両立させた「DLRMamba」を提案し、Raspberry Pi 5 などのリソース制約環境でも既存の軽量モデルを上回る性能を実現したことを示しています。

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

本論文は、可視光と赤外線リモートセンシング画像の融合を用いた軽量な小物体検出ネットワーク「ESM-YOLO+」を提案し、ピクセルレベルのマスク強化アテンション融合モジュールと訓練時の構造表現強化により、複雑な背景における高精度な検出を実現しつつモデルの複雑さを大幅に削減したことを示しています。

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

この論文は、視覚的オートレグレッシブモデルの粗から細への生成階層を活用し、各スケールでクラストークンを注入して意味的増幅を行う「HIERAMP」を提案することで、大規模データセットを小規模な代理データセットに効率的に蒸留する手法を開発したことを示しています。

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

この論文は、前立腺がんの予後予測において、従来の2D組織病理学よりも3D組織形態計測特徴量（特に神経周囲浸潤に関連するもの）の方が優れていることを示す分析パイプラインを開発し、5 年間の生化学的再発予測において 3D 特徴量が 2D 特徴量を上回る性能（AUC 0.71 vs 0.52）を有することを報告しています。

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

本論文は、単眼内視鏡動画から得た 3D 再構成を用いて術中 CT を逐次更新する「仮想術中 CT（viCT）」手法を提案し、副鼻腔内視鏡手術における組織切除の進行をリアルタイムに可視化し、術前 CT の限界を克服する可能性を実証したものである。

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

本論文は、単眼内視鏡映像からの手術シーン再構成におけるデータ不足と長時間動画の性能低下という課題を解決するため、大規模な擬似正解深度マップの生成、ハイブリッドな教師あり学習、および累積的な姿勢ドリフトを抑制する階層的推論フレームワーク「SurgCUT3R」を提案し、手術環境における高精度かつ効率的な 3D 再構成を実現するものです。

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

この論文は、従来の条件付き最適輸送が持つ外れ値への敏感性という課題を解決するため、条件付き分布の整合制約を緩和する「条件付きアンバランス最適輸送（CUOT）」フレームワークと、それに基づく外れ値に頑健な生成モデル「CUOTM」を提案し、理論的裏付けと実験による有効性を示したものです。

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

この論文は、動画の時間的ダイナミクスを空間的理解タスクとして再定義し、オーバーラップするスライディングウィンドウを用いてフレームをグリッド画像に変換する「T2SGrid」と呼ばれる新規フレームワークを提案し、既存の手法の限界を克服して動画時間的グラウンディングの性能を向上させることを示しています。

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

本論文は、画像と点雲を事前整合されたエンコーダで共通空間に埋め込むアプローチと、マルチモーダルなハードコントラスト損失の導入により、ビュー合成や再学習なしにゼロショットおよび標準的な画像ベースの形状検索において最先端の性能を達成することを示しています。

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

この論文は、単一画像からの空間推論における既存の課題を克服するため、視覚的根拠と言語的推論を統合した「視覚参照トークン」に基づく知覚意識型マルチモーダル推論フレームワークと、これに対応するデータセットを提案し、強化学習を用いた既存手法を凌駕する性能向上を実現したことを示しています。

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

ADAS-TO は、327 人のドライバーによる 15,659 件の自然な運転データを含む大規模なマルチモーダルデータセットであり、ADAS から手動運転への移行（オーバーテイク）の特性を分析し、視覚言語モデルを用いて安全上のリスクを特定し、 kinematic 的なトリガーに先立つ 3 秒以上前に視覚的な手がかりが現れることを示すことで、意味理解に基づく早期警告システムの可能性を浮き彫りにした研究です。

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

本論文は、幾何情報に基づく数値積分による楕円適応型アンチエイリアシング（EAA）アルゴリズムと周波数領域での軌道推定を行うスペクトル感知ポーズグラフ最適化（SA-PGO）モジュールを導入し、高忠実度なアンチエイリアシング描画とロバストな位置推定を両立する新しい 3D ガウススプラッティング SLAM フレームワーク「MipSLAM」を提案するものである。

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← 前へ次へ →