cs.CV 件の論文 | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

この論文は、視覚言語モデル（VLM）を用いて人手による報酬設計を不要とし、多様な静的・動的・関節物体との長期的な人間 - 物体相互作用を物理ベースで自動生成する新たなフレームワーク「VLM-Guided RMD」と、それを支える大規模データセット「Interplay」を提案するものです。

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

本論文は、物体間の相互作用が乏しい既存のテキストから画像生成モデルの課題を解決するため、マルチモーダル大規模言語モデルを用いて相互作用に特化したデータセット「\data」を構築し、生成画像を分解・批判・部分拡散プロセスによる精緻化を行う手法「\model」を提案し、その有効性を示したものである。

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

本論文は、テキストから画像を生成するシステムが持つ「記憶機能」を悪用し、セグメンテーションと再帰処理を組み合わせて多回対話で安全フィルターを回避する新たなジェイルブレイク攻撃手法「Inception」を提案し、その実世界プラットフォームにおける有効性を示したものである。

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

本論文は、超音波画像における希少甲状腺癌の分類課題を解決するため、EfficientNet と ViT を統合した二重ブランチ注意ネットワーク（CSASN）を提案し、多施設データを用いた実験で既存モデルを上回る性能と不均衡データ下での安定性を実証したものである。

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

この論文は、iPhone のポートレートモード画像に見られる「Apple 合成ボケノイズパターン（SDNP）」を詳細に特徴付け、その推定手法を提案するとともに、PRNU に基づくカメラソース検証における誤検出を大幅に低減し、画像の追跡可能性を向上させる法医学的応用を明らかにしたものである。

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

本論文は、視覚トークンプルーニングにおけるプロンプト整合性と視覚保存のトレードオフをハウスドルフ距離に基づく誤差限界とε-被覆理論で定式化し、これらを最適にバランスさせる「Multi-Objective Balanced Covering (MoB)」を提案することで、LLaVA などの大規模マルチモーダルモデルにおいてトークン数を大幅に削減しつつ性能を維持する手法を開発した。

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

本論文は、複雑なレイアウトやナスターリク文字の課題に直面するウルドゥー語新聞のテキスト認識において、YOLOv11x と超解像技術による前処理を組み合わせ、新しいデータセット「UNB」を用いて従来の OCR と大規模言語モデル（LLM）を比較評価し、特に少量のドメイン固有データで微調整した LLM の高い適応性を示した研究です。

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

この論文は、理論的根拠を持つ極めて単純かつ高速な「Feature Mixing」という手法と、新しいマルチモーダルデータセット「CARLA-OOD」を提案し、安全クリティカルなアプリケーションにおけるアウト・オブ・ディストリビューション（OOD）検出とセグメンテーションの性能を大幅に向上させ、最先端の結果を達成したことを報告しています。

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

本論文は、デジタル行動変容における曖昧さや躊躇（A/H）の自動認識を可能にするため、300 名の参加者から収集され専門家によって注釈付けされたマルチモーダル動画データセット「BAH」を公開し、そのベンチマーク評価を通じて既存モデルの限界と今後の課題を明らかにしています。

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

この論文は、拡散モデルを用いて学習の初期段階で十分に学習されていないサンプルのみを標的に合成データを生成する「TADA」というフレームワークを提案し、データセット全体を拡張する既存手法よりも少ない計算コストで、画像分類や物体検出の汎化性能を大幅に向上させることを示しています。

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

本研究は、受動的回折層と浅いニューラルネットワークを統合した低消費電力かつ低コストな光学システムを開発し、従来の手法よりも 1 桁以上精度を向上させて構造物の 3 次元振動スペクトルをリアルタイムで遠隔監視する新しい手法を提案しています。

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

本論文は、点群、3D 手の姿勢、テキスト記述などの豊富な外部視点観測情報を用いて、従来の手法の制約を克服し、拡張現実やロボット工学などの応用に不可欠な外部視点から内部視点への視覚変換を実現する新しいフレームワーク「EgoWorld」を提案し、複数のデータセットで最先端の性能と優れた汎化能力を実証しています。

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

この論文は、高コストな完全なアノテーションに依存せず、部分的な弱教師データと未ラベルデータを効率的に活用して、既存の半教師あり手法に匹敵または凌駕する性能を実現する新たな「部分的弱教師あり向き物体検出（PWOOD）」フレームワークを提案するものである。

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

この論文は、ラグランジュ乗数法と補助的な PnP 去噪器を活用して、教師なし学習における深層イメージングネットワークの訓練を大幅に加速し、性能も向上させる「Fast Equivariant Imaging（FEI）」という新しいフレームワークを提案しています。

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

この論文は、文書画像の歪み補正において既存手法が水平方向のみに焦点を当てていたのに対し、水平・垂直両方向の幾何学的特徴を統合する「D2Dewarp」モデルと、注釈付きライン特徴を自動生成する大規模データセット「DocDewarpHV」を提案し、複数のベンチマークで最先端の性能を達成したことを報告しています。

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

従来のフローマッチングや拡散モデルが抱える反復的な条件付けによる計算コストの課題を解決するため、視覚表現から直接潜在行動へマッピングする「VITA」を提案し、行動の自己符号化器とフロー潜在デコーディングにより、推論速度を 1.5〜2 倍に向上させつつ最先端の性能を達成しました。

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

この論文は、組織病理学スライドの分類において、局所性と翻訳等変換性を保持する「持続的ホモロジー畳み込み」を導入することで、従来のモデルや大域トポロジー要約を用いる手法よりも優れた性能と安定性を達成する新しい手法を提案しています。

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

本論文は、訓練後に固定される従来の手法の限界を克服し、テスト画像ごとに動的にプロンプトを調整する「画像適応型プロンプト学習（IAPL）」を提案することで、未知の生成器による偽造画像に対する検出性能と汎化能力を大幅に向上させることを目指しています。

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

本論文は、既存の順序集合や時系列のどちらの手法にもある限界を克服するため、歩行をランダムに抽出した連続フレームの断片（スニペット）の組み合わせとして捉え、マルチスケールの時間的コンテキストを統合することで歩行認識精度を向上させる「GaitSnippet」を提案し、複数のデータセットでその有効性を実証しています。

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

この論文は、大規模視覚言語モデルに連鎖思考（CoT）とグループ相対方策最適化（GRPO）を組み合わせて導入した「Veason-R1」を提案し、推論の解釈性と時空間推論能力を強化することで、動画推論セグメンテーションの性能を飛躍的に向上させたことを報告しています。

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← 前へ次へ →