cs.CV 件の論文 | Gist.Science

Point Cloud as a Foreign Language for Multi-modal Large Language Model

本論文は、事前学習済みの 3D エンコーダに依存せず、点群を離散トークンに変換して LLM の語彙として直接処理するエンドツーエンドのマルチモーダル大規模言語モデル「SAGE」を提案し、既存の手法を上回る性能と計算効率を実現したことを示しています。

Sneha Paul, Zachary Patterson, Nizar Bouguila2026-03-11💻 cs

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

本論文は、画像などの初期データが一切不要なゼロデータ環境で視覚言語モデル（VLM）の推論能力を自己進化させる初の強化学習フレームワーク「MM-Zero」を提案し、提案者・コーダー・ソルバーという 3 つの役割を単一モデルから GRPO により訓練することで、従来の 2 役割モデルの枠組みを超えた拡張可能な自己改善を実現したものである。

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

本論文は、カメラの視点やスケールに依存しない関節角度記述子を用いた幾何学的メトリック学習フレームワークを提案し、限られたターゲット言語のデータで多言語手話認識の精度を大幅に向上させる手法を明らかにしています。

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

本論文は、医療用血管様解剖の複雑なトポロジーを自然言語プロンプトと視覚表現を統合したマルチモーダル基盤モデル「TubeMLLM」によってモデル化し、15 のデータセットで分布外性能やゼロショット転移能力において既存手法を凌駕する新たなベンチマーク「TubeMData」を提案するものである。

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

Distributed Convolutional Neural Networks for Object Recognition

この論文は、正のクラスを高次元空間のコンパクトな集合に、負のクラスを原点にマッピングする新しい損失関数を提案し、これにより正のクラスの特徴のみを抽出・解離できる軽量で汎化性能に優れた分散畳み込みニューラルネットワーク（DisCNN）を構築し、複雑な背景における物体検出を可能にすることを示しています。

Liang Sun2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

本論文は、MRI 画像の画質向上において、3D 基盤モデルの活用、物理メカニズムに基づくスペクトル補正、および大規模なマルチフィールド対データセットの構築を通じて、異なる磁場強度間での汎化性能を飛躍的に向上させる統合フレームワーク「UniField」を提案し、既存手法を大幅に上回る性能を実現したことを報告するものです。

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

本論文は、ドローンや回転機械の安全な知覚のために、従来のフレームベースやイベントベースの追跡手法が苦手とするプロペラ状物体の高速な周期性運動を、イベントカメラを用いた「HelixTrack」という手法でリアルタイムかつマイクロ秒レベルの遅延で追跡・回転数推定し、その評価のために新規データセット「TQE」を公開したことを提案するものです。

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri Matas2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

本論文は、着用状態の画像から平らな衣服表現を生成する仮想試着（VTOFF）において、部分的な視認性からの連続的な詳細の推論と構造的な安定性を向上させるため、衣服の条件を橋渡しするモジュールと平らな構造の制約を注入するモジュールを組み合わせた拡散モデル「BridgeDiff」を提案し、最先端の性能を達成したことを示しています。

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

RAE-NWM: Navigation World Model in Dense Visual Representation Space

本論文は、従来の潜在空間に依存せず DINOv2 の密な視覚特徴空間でナビゲーションダイナミクスをモデル化し、CDiT-DH と時間駆動ゲート機構を用いて構造安定性と動作精度を向上させた「RAE-NWM」を提案するものである。

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

この論文は、AI 生成画像検出において事前学習された意味的知識への依存（意味的フォールバック）が汎化性能を阻害する要因であることを特定し、幾何学的制約を用いて意味成分を明示的に除去するパラメータフリーのモジュール「Geometric Semantic Decoupling (GSD)」を提案することで、未見の生成手法や異なるドメインに対する検出器の汎化性能を大幅に向上させることを示しています。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

本論文は、事前学習済みおよびカスタム設計のニューラルネットワークを統合し、交通標識・車両・車線検出ならびに行動模倣といった自律運転の主要タスクを包括的に処理するマルチモデル手法を提案し、その有効性を複数のデータセットとシミュレーターを用いて検証したものである。

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

← 前へ次へ →

cs.CV

Point Cloud as a Foreign Language for Multi-modal Large Language Model

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

Distributed Convolutional Neural Networks for Object Recognition

UniField: A Unified Field-Aware MRI Enhancement Framework

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

RAE-NWM: Navigation World Model in Dense Visual Representation Space

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Towards Instance Segmentation with Polygon Detection Transformers

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Multimodal Graph Representation Learning with Dynamic Information Pathways

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Learning Convex Decomposition via Feature Fields

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking