cs.CV 件の論文 | Gist.Science

HiconAgent: History Context-aware Policy Optimization for GUI Agents

本論文は、GUI エージェントが過去の履歴情報を効率的かつ効果的に活用できるよう、動的なコンテキストサンプリングとアンカーガイド付き履歴圧縮を備えた「History Context-aware Policy Optimization (HCPO)」を導入し、HiconAgent を開発することで、小型モデルでありながら既存の大型モデルを上回る性能と計算効率の向上を実現したことを報告しています。

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

MAViD は、理解と生成を統合し、Conductor-Creator 構造と AR-拡散モデルの組み合わせを用いることで、一貫性のある長尺の音声・動画対話を生成する新しいマルチモーダルフレームワークを提案するものである。

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

本論文は、VLLM の深い層における視覚トークンの情報量が「情報地平線」を超えて均質化・消失し、それ以降の層では既存の剪定法よりもランダム剪定の方が効率的であることを発見し、これを活用した手法が高性能・高効率を実現することを示しています。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

オフロード環境における道路ネットワーク抽出の課題を解決するため、大規模なオフロードデータセット「WildRoad」を公開し、従来のノード中心アプローチの限界を克服する経路中心のフレームワーク「MaGRoad」を提案し、高い精度と高速推論を実現する研究です。

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

制約されたリソースとデータ制約下で、ルールベースのマスク変形と GAN による画像変換を組み合わせる二段階のデータ拡張フレームワークを提案し、限られたデータ量でもマスク付き顔検出・認識タスクにおいて既存手法を上回る結果を示した研究です。

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

本論文は、スパースオートエンコーダと勾配ベースの可視化手法を統合し、深層学習モデルの内部特徴を「発見・検証・制御」する SALVE 枠組みを提案することで、モデルの透明性と制御性を高める新たな手法を提示しています。

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

本論文は、手術映像における器具セグメンテーションの課題を解決するため、SAM3 のメモリ更新や容量制限、再出現時の識別問題を克服するトレーニング不要な拡張手法「ReMeDI-SAM3」を提案し、複数のデータセットで既存手法を上回る性能を達成したことを報告しています。

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

この論文は、5 か国 1,000 人の調査とストリートビュー画像を用いた分析を通じて、都市の緑化に対する主観的認識と客観的測定値の乖離が世界的に普遍的であり、個人の属性や性格よりも居住地域による文化的・環境的経験の影響が最も大きいことを明らかにしています。

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

本論文は、拡散モデルの事前知識と形状からの陰影（SfS）の手がかりを組み合わせ、推論時に自己教師ありで再照明を行う「Re-Depth Anything」を提案し、Depth Anything V2 や V3 の推定深度をラベルなしで高精度かつリアルに洗練させる手法を提示するものである。

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

この論文は、単一画像からの 3D 意味シーン補完において、可視領域の知覚と遮蔽領域の推論を分離・統合する「VOIC」という新たな双デコーダフレームワークを提案し、既存手法を上回る性能を達成したことを示しています。

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

この論文は、ハイブリッド選択的スキャンと軽量チャネル MLP を組み合わせた効率的な Vision Mamba 基盤の超解像フレームワークを提案し、7T 脳 MRI および 1.5T 前立腺 MRI において、既存の深層学習モデルを大幅に凌駕する高精度かつ低計算コストを実現したことを報告しています。

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本論文は、自動運転における生成ワールドモデルの進捗を測定し、視覚的リアリズム、軌道の妥当性、時間的整合性、制御性を包括的に評価する初のベンチマーク「DrivingGen」を提案し、既存モデルの課題とトレードオフを明らかにしたものである。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

この論文は、Swin トランスフォーマーとシーケンス・ツー・シーケンス言語デコーダを統合し、2 段階のトレーニング戦略を採用することで、作物病害の視覚的質問応答において高い精度と説明可能性を達成する軽量なマルチタスク視覚言語フレームワークを提案しています。

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本論文は、医療画像分析における大規模視覚言語モデルの限界を克服するため、タスクに応じたプロンプト構成、例示記憶に基づく生成、臨床的誤りの批判的検証、そして修正という 4 つの協調エージェントからなる自己改善型フレームワーク「R^4」を提案し、微調整なしでレポート生成および物体検出の精度を大幅に向上させることを示しています。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

← 前へ次へ →

cs.CV