cs.CV 件の論文 | Gist.Science

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

本論文は、大規模自己教師あり学習で訓練された視覚基盤モデル DINOv3 を青果物収穫ロボット向けタスクに適用した評価を通じて、果実や傷のセグメンテーションには有効である一方、検出やクラスター検出には局所化や空間的集約のモデル化に課題があることを明らかにし、DINOv3 を果実スケールや集約構造に整合した下流タスクのセマンティックなバックボーンとして活用すべきことを示唆しています。

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

本論文は、勾配計算やパラメータ更新を必要とせず、GramCol と運動特徴選択アルゴリズムを導入することで、動画生成モデル（Video DiT）における運動概念の空間的・時間的な局所化を可能にする解釈可能な運動注意マップ（IMAP）を提案し、運動および非運動概念の両方に対して優れた局所化性能と可視化を実現するものです。

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

本論文は、GUI アプリケーションの頻繁な更新に伴う継続学習の課題に対し、SFT と強化学習の相乗効果を動的に調整し、勾配干渉を解消する「CGL」フレームワークと、その評価用ベンチマーク「AndroidControl-CL」を提案し、既存タスクの忘却を防ぎつつ新たなタスクへの適応を可能にする手法を開発したことを示しています。

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

本論文は、画像データをビットプレーンに分解して局所差分プライバシーを適用する軽量かつ学習不要なフレームワーク「LDP-Slicing」を提案し、従来の高次元画像への LDP 適用における有用性の低下を克服するとともに、顔認識や画像分類などの下流タスクで既存手法を上回る性能を実現することを示しています。

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

この論文は、培養を不要とし、深層学習と画像拡張技術を用いて数秒で水質安全性を判定する低コストなシステム「DeepScope」を開発し、実地試験で高い精度を達成したことを報告しています。

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

本論文は、トレーニング中に最適化手法を動的に選択する新しい確率的メタ最適化手法「OptiRoulette」を提案し、複数の画像分類タスクにおいて単一の AdamW ベースラインと比較して最大 5.3 倍の収束速度向上と高精度達成を実現したことを報告しています。

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

この論文は、拡散モデルとフローマッチングを統一的な線形方程式で表現し、既存モデルにおけるノイズデータと予測ターゲット間の相関が弱いことが学習プロセスに悪影響を及ぼす可能性を理論的に示しています。

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

本論文は、誤差逆伝播を用いずに、学習済みのリザーバの動的応答とヘッビアン学習に基づく自己組織化プロトタイプ読み出しを組み合わせた「RECAP」という画像分類手法を提案し、汚染データに曝されなくても MNIST-C における多様なノイズに対して高い頑健性を示すことを実証しています。

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

本論文は、拡散モデルから不要な概念を削除する剪定ベースの学習忘却手法において、剪定された重みの位置が側面チャネルとして機能し、追加データや再学習なしで削除された概念を完全に復元できる脆弱性があることを発見し、より安全な剪定メカニズムの必要性を提唱しています。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

この論文は、VR 環境におけるユーザーの直接操作を伴わない背景での物体状態変化を検出する新たな課題に対応するため、評価用データセット「ObjChangeVR-Dataset」と、視点認識・時系列検索・クロス視点推論を組み合わせたフレームワーク「ObjChangeVR」を提案し、その有効性を示したものです。

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

本論文は、侵襲性肺腺がんのサブタイプ分類におけるモデルの信頼性を高めるため、アテンション機構とマージン一貫性フレームワーク、そして構造摂動を導入した「摂動忠実度（Perturbation Fidelity）」スコアを組み合わせた深層学習手法を提案し、内部データセットおよび外部ベンチマークにおいて高い精度と頑健性を達成したことを報告しています。

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

この論文は、視覚的証拠の誤った認識を伴う推論プロセスの幻覚を解消し、最終的な正解だけでなく推論プロセス自体を視覚的事実と整合させるためのフレームワーク「PaLMR」を提案し、Qwen2.5-VL-7B における HallusionBench などで SOTA 性能を達成したことを報告しています。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

本論文では、ConvNeXt のバックボーンを凍結し、効率的な畳み込みを用いた特徴補正ブロック（FCB）と軽量デコーダを組み合わせた FCBNet を提案し、多スペクトル航空画像における雑草検出において、高精度かつ計算効率の面で既存モデルを上回る性能を実証しています。

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

本論文は、人間のゲームプレイにおける「行動・反省・再挑戦」のループを模倣し、失敗事例と専門家のチュートリアル動画を組み合わせることで視覚言語モデル（VLM）の戦略を学習・改善させることを可能にする新しいベンチマーク「GameVerse」を提案し、その有効性を示しています。

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

この論文は、全スライド画像診断における注意機構の不安定な振る舞い、過学習、および注意分布の偏りという 3 つの課題を同時に解決し、既存の手法を大幅に上回る性能を達成する「ASMIL」という新しい注意安定化型マルチインスタンス学習フレームワークを提案しています。

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

この論文は、人間の骨格運動の幾何学的・運動学的制約を無視した従来のデータ拡張手法の限界を克服し、それぞれ異なる単一の幾何学的変換で拡張されたデータを用いて専門家のモデルを個別に学習させる「EnsAug」というアノテーション駆動のアンサンブル手法を提案し、手話認識や人間活動認識のタスクにおいて最先端の精度を達成したことを示しています。

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

本論文は、マルチモーダル LLM による継続的ビデオ QA におけるタスク間干渉と記憶コストの課題を解決するため、メタ学習に基づく正則化や因果的視点からの補助的マルチモーダル監督を活用し、メモリ固定条件下でトークンを動的に生成・制御する「HyperTokens」を提案し、高い精度と低い忘却を実現する手法を報告しています。

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本論文は、画像内の物体間の関係性を捉えるためにシーングラフを視覚的プロンプトとして重ね合わせる「Graph-of-Mark」を提案し、マルチモーダル言語モデルのゼロショット空間推論能力を最大 11 ポイント向上させることを実証しています。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

この論文は、拡散トランスフォーマー（DiT）ベースの動画生成モデルが抱えるメモリ消費と遅延の問題を解決するため、シーケンス並列推論と因果的ローテート位置埋め込み（Causal-RoPE SP）の導入、および演算融合などのシステム最適化を行い、リアルタイム対話アプリケーションに対応可能な高速な推論を実現したことを報告しています。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

この論文は、医療分野の視覚言語モデルにおいて連鎖思考（CoT）が直接回答よりも性能を低下させる「医療知覚のボトルネック」を特定し、領域関心提示や高品質な記述によるグラウンディング介入によってこの問題を解決し、CoT の有効性を回復させることを示しています。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

← 前へ次へ →