cs.CV 件の論文 | Gist.Science

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

この論文は、人間の動きとヒューマノイドロボットの動きを視覚情報なしで区別する「モーション・チューリング・テスト」の枠組みを提案し、その評価に特化した大規模データセット「HHMotion」を構築するとともに、既存のマルチモーダル大規模言語モデルよりも優れた人間の動きらしさの自動評価モデルを開発したことを報告しています。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本論文は、胸部 X 線レポート生成の評価において、診断の正確性や患者の安全性を重視し、臨床的コンテキストやガイドラインに基づいてエラーの重大度を重み付けする新しいメトリクス「CRIMSON」を提案し、複数のベンチマークで専門医の判断と高い一致を示したことを報告しています。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

この論文は、組織画像と空間トランスクリプトミクスデータを深層学習で融合し、異なるサンプルやプラットフォーム間でも高精度にがん領域を検出する転移学習ベースの手法「SpaCRD」を提案し、23 のデータセットを用いた検証で既存の最先端手法を上回る性能を実証したものである。

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Adaptive Language-Aware Image Reflection Removal Network

複雑な反射の除去において、不正確な言語入力の悪影響を軽減しつつ言語と視覚特徴の整合性を高める適応的言語認識ネットワーク「ALANet」を提案し、新たに作成した CRLAV データセットによる実験で最先端の性能を達成したことを示しています。

Siyan Fang, Yuntao Wang, Jinpu Zhang, Ziwen Li, Yuehuan Wang2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

この論文は、フレームレベルの注記を必要とする従来の完全教師あり手法の課題を解決するため、各動作セグメントに単一のフレームのみをラベル付けするポイント教師ありフレームワークを提案し、マルチモーダル骨格データと擬似ラベル生成技術を活用して、注記コストを大幅に削減しながらも完全教師あり手法に匹敵する、あるいは凌駕する動作セグメント性能を達成することを示しています。

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

この論文は、ビジョン基盤モデル（VFM）から得られる強力な幾何学的事前知識を階層的幾何特徴アダプターを通じて注入し、3D ガウススプラッティングの精度を大幅に向上させる新しい「VG3S」と呼ばれるセマンティック占有予測フレームワークを提案しています。

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

この論文は、階層的事象グラフ（HEG）に基づく「事象の連鎖（Chain-of-Events）」を導きとして、ドメイン固有の教師データなしに動画、テキスト、画像を統合的に理解し、最先端の手法を上回る精度でマルチモーダル要約を実現するトレーニングフリーのフレームワーク「CoE」を提案するものです。

Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu2026-03-09🤖 cs.AI

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

本論文は、3D ガウシアンスプラッティングにおいて、共分散行列の固有値から算出される固有エントロピーを用いて局所構造の秩序度を評価し、低秩序領域を優先的に増密・高秩序領域を剪定する「EntON」という幾何学的に正確かつ高品質な 3D 再構成を実現する新たな適応的増密戦略を提案し、幾何精度とレンダリング品質の向上、およびガウス数と訓練時間の削減を同時に達成することを示しています。

Miriam Jäger, Boris Jutzi2026-03-09💻 cs

Word-Anchored Temporal Forgery Localization

この論文は、従来の時間的偽造局所化手法が抱える特徴量の粒度の不一致や計算コストの高さといった課題を解決するため、連続的な局所化から単語レベルの二値分類へとパラダイムを転換し、事前学習済み基盤モデルを有効活用する「単語アンカー型時間的偽造局所化（WAFL）」を提案し、高い精度と計算効率を両立させたことを示しています。

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

イベントカメラの空間的スパース性を活用して状態レベルのスパース性と並列学習を両立させる「Spatially-Sparse Linear Attention (SSLA)」を提案し、これに基づく非同期モデル「SSLA-Det」がイベントベースの物体検出において最先端の精度を達成しつつ、従来手法に比べてイベントあたりの計算量を 20 倍以上削減することに成功した。

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本論文は、自動運転における可変長の観測履歴に対応し、過去情報の明示的な補完と段階的知識蒸留を統合した「TaPD」フレームワークを提案し、特に短い観測データにおいても高精度な軌道予測を実現するものです。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

本論文は、タスクベクトルのエネルギー分布の偏りと幾何学的な不一致という課題を解決し、特異値の平滑化と共通直交部分空間への射影を通じて方向的一貫性を確保する「DC-Merge」というモデル統合手法を提案し、視覚および視覚言語ベンチマークにおいて全ファインチューニングと LoRA 設定の両方で最先端の性能を達成することを示しています。

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

本論文は、2D セマンティック特徴と 3D 幾何学的特徴を階層的に分解・協調的に融合するマルチモーダルフレームワーク「HCF-RES」を提案し、ScanRefer および Multi3DRefer 両ベンチマークで最先端の性能を達成する 3D 参照表現セグメンテーション手法を確立したものである。

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

本論文は、大規模言語モデルの自己回帰能力を活用して物理的運動と深層的な言語的推論を統合し、未知の物体を含む複雑な環境における 3D 多物体追跡の性能を飛躍的に向上させる「NOVA」という新たなアプローチを提案しています。

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

本論文は、冻结されたビジョン基盤モデルから視線目標に関連する手がかりを混合エキスパート（MoE）モジュールを通じて選択的に活用し、クラス不均衡を克服しながらロボットが人間の注目を理解するための最先端性能を達成するエンドツーエンドのフレームワーク「GazeMoE」を提案するものです。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

本論文は、移動キャリアに搭載可能なリアルタイム無人機検知システム「ODD-SEC」を提案し、360 度視野を持つ回転型イベントカメラと運動補正を不要とする新規イベント表現、軽量ニューラルネットワークを組み合わせることで、悪条件下でも高精度な無人機の検出と方位推定を実現したものである。

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

本論文は、視覚言語モデルの剪定をマルチ目的の条件付きリソース配分問題として定式化し、視覚感度シグナルと多目的 GRPO を活用して、ハルシネーション耐性とタスク性能のバランスを制御可能な階層的剪定フレームワーク「HiPP-Prune」を提案するものである。

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

Diffusion Transformer の実世界画像超解像における計算コストとアーティファクトの問題を解決するため、軌道正規化とスペクトル正規化を組み合わせた新規のワンステップ蒸留フレームワーク「StrSR」を提案し、最先端の性能を達成した論文です。

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

本論文は、3D 意味的占有予測におけるラベルノイズ問題に対処するため、初のベンチマーク OccNL を構築し、二重ソースの部分的ラベル推論を用いた頑健なフレームワーク DPR-Occ を提案することで、極端なノイズ下でも安全なロボティクス知覚を実現する手法を提示しています。

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

この論文は、クラスレベルの属性とインスタンスレベルの視覚的特徴のギャップ、および意味と視覚の分布の不一致という生成ゼロショット学習の課題を解決するため、属性分布をモデル化し視覚に誘導された意味-視覚アライメントを行う「ADiVA」という手法を提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

← 前へ次へ →