cs.CV 件の論文 | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本論文は、自己教師あり学習に基づくビジョン基盤モデル DINOv2 を用いたトランスフォーマーフレームワーク「CountFormer」を提案し、例示なしの物体数え上げにおいて視覚的反復や構造の学習がどのように改善されるかを検証し、FSC-147 ベンチマークで競争力のある性能を示すとともに、表現の質が数え上げ精度に重要であることを明らかにしています。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

本論文は、線形ブレンドや既存の生成手法では困難であった多様なクリップ間の滑らかな遷移を実現するため、アートのワークフローから着想を得て構造情報と生成合成を組み合わせ、微調整なしに高品質な中間フレームを生成するゼロショット手法「SAGE」を提案し、定量的・定性的な評価で既存手法を上回る性能を示したものです。

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

この論文は、拡散モデルによる画像の「再構成時の挙動（拡散スナップバック）」を分析することで、人間の目や従来の手法では判別が困難な高品質な AI 生成画像を、圧縮やノイズなどの歪みにも強く、極めて高い精度（AUROC 0.993）で検出する新しいフォレンジック手法を提案しています。

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

本論文は、人間の研究者の基礎論文を基に仮説立案から実験、論文執筆までを自律的に行う「Jr. AI Scientist」を開発し、その科学的貢献と評価結果を報告するとともに、現在の AI 科学者システムが抱えるリスクや限界を包括的に分析したものである。

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

本論文は、ガウススプラッティングによる3D 物体再構成の知覚品質評価課題に対し、人間の視覚行動を模倣した多距離主観評価手法と、入力データの複数の不確実性を考慮して構築された新規データセット「MUGSQA」ならびにベンチマークを提案するものである。

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

本論文は、視覚的欠損をテキストや視覚的埋め込みなどのマルチモーダルガイダンスを用いて再構築し、注意空間の一貫性を保証することで、遮蔽下での物体カウント精度を飛躍的に向上させる新しいフレームワーク「CountOCC」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

この論文は、双曲空間の幾何学的特性、特に角度成分に焦点を当てた勾配符号法（Angular Gradient Sign Method）を提案し、従来のユークリッド空間ベースの攻撃よりも効果的な敵対的攻撃を実現すると同時に、階層的埋め込みの脆弱性を解明するものです。

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

この論文は、離散化されたグリッド表現の限界を克服し、連続的な物体境界座標を用いてメトリックに基づく空間レイアウトを再構築するフレームワーク「Video2Layout」を提案し、これにより空間推論タスクの精度を向上させることを示しています。

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

本論文は、RGB-D センサの物理的制約や較正ドリフトによるアライメント誤差に頑健であり、多次数マッチングと多次数集約機構を備えた「Multi-Order Matching Network (MOMNet)」を提案することで、アライメント不要な深度超解像において最先端の性能と優れた頑健性を達成することを示しています。

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

既存の視覚言語モデルが問題の複雑さを考慮せず一様に長い推論を生成する非効率さを解決するため、問題の難易度に応じて素早い直感的思考と遅い分析的思考を自動的に使い分ける「DualMindVLM」を提案し、推論精度の向上とトークン効率の改善を両立させた。

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

この論文は、物理的制約を考慮した連続的なスペクトルマッピングを学習し、非凸最適化に基づく角度一貫性射影（ACP）を用いて物理的に整合性のある高解像度分光画像を復元する「放射構造ニューラルオペレーター（RSNO）」を提案し、その有効性を理論的・実験的に検証したものである。

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

本論文は、既知の劣化モデルに依存せず、多粒度劣化認識モジュールと潜在拡散モデルに基づく劣化耐性プロキシステップを組み合わせた「UnfoldLDM」を提案し、ブラインド画像復元における過平滑化バイアスを解消して高品質な復元を実現する手法を提示しています。

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

本論文は、海面下で GNSS 信号が受信できない marine ロボットに対し、複数のドローンによる視覚検出、GNSS 三角測量、および信頼度重み付き拡張カルマンフィルタを統合したリアルタイム安定追跡システムを提案し、ドローン間の追跡 ID 整合アルゴリズムによるグローバル一貫性を確保することで、複雑な環境下でも高精度かつロバストな追跡を実現することを示しています。

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

本論文は、大規模モデルの推論能力を活用して「都市 - 地区 - グリッド」の階層構造を計画し、ユーザー定義と無限の拡張を可能にする自律的な 3D 都市生成フレームワーク「Yo'City」を提案し、その卓越した性能を実証するものです。

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

この論文は、学習データに存在するスパースな相関（ショートカット）に依存して分布外一般化性能が低下する深層学習の問題に対し、ラベルと強く相関する潜在空間の軸を特定し、その方向に異方性ノイズを注入して分類器の感度を正則化することで、ショートカットラベルや矛盾するサンプルを必要とせずに分布外一般化性能を向上させる手法を提案しています。

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

この論文は、3D マイクロ CT スキャンから得られた 2D 画像を用いて有孔虫の種を分類する高精度な深層学習フレームワーク「ForamDeepSlice」を提案し、95.64% のテスト精度を達成するとともに、実用的なデプロイを可能にするインタラクティブなダッシュボードを開発したことを報告しています。

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

本論文は、2D セグメンテーションの事前知識と 3D 一貫性教師信号を統合し、スケーラブルなプロンプトデコーダと大規模データセットを活用することで、3D 点雲の部品分割において高い汎用性、堅牢性、および粒度制御を実現する「S2AM3D」を提案するものである。

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

本論文は、GUI エージェントが過去の履歴情報を効率的かつ効果的に活用できるよう、動的なコンテキストサンプリングとアンカーガイド付き履歴圧縮を備えた「History Context-aware Policy Optimization (HCPO)」を導入し、HiconAgent を開発することで、小型モデルでありながら既存の大型モデルを上回る性能と計算効率の向上を実現したことを報告しています。

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

MAViD は、理解と生成を統合し、Conductor-Creator 構造と AR-拡散モデルの組み合わせを用いることで、一貫性のある長尺の音声・動画対話を生成する新しいマルチモーダルフレームワークを提案するものである。

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

本論文は、VLLM の深い層における視覚トークンの情報量が「情報地平線」を超えて均質化・消失し、それ以降の層では既存の剪定法よりもランダム剪定の方が効率的であることを発見し、これを活用した手法が高性能・高効率を実現することを示しています。

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

← 前へ次へ →