cs.CV 件の論文 | Gist.Science

CORE-Seg: Reasoning-Driven Segmentation for Complex Lesions via Reinforcement Learning

本論文は、複雑な病変のセグメンテーションにおいて従来の視覚パターンマッチングから推論分析へパラダイムを転換し、Chain-of-Thought 推論とセグメンテーションを統合した新しいフレームワーク「CORE-Seg」と、そのための推論駆動型ベンチマーク「ComLesion-14K」を提案し、強化学習による適応的報酬メカニズムで最先端の性能を達成したことを報告しています。

Yuxin Xie, Yuming Chen, Yishan Yang, Yi Zhou, Tao Zhou, Zhen Zhao, Jiacheng Liu, Huazhu Fu2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

この論文は、画像レベルの類似性に依存せず、指示と生成画像の間の意味的乖離とその安定性を分析することで、多様なバックドア攻撃を検出可能な新しいブラックボックス検出フレームワーク「BlackMirror」を提案するものです。

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

RAC: Rectified Flow Auto Coder

本論文は、Rectified Flow に着想を得た「RAC（Rectified Flow Auto Coder）」を提案し、従来の VAE を置き換えることで、多段階復号と双方向推論を実現し、生成品質を向上させながら計算コストを約 70% 削減することを示しています。

Sen Fang, Yalin Feng, Yanxin Zhang, Dimitris N. Metaxas2026-03-09🤖 cs.AI

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

この論文は、ドライバーのリスク知覚と文脈的リスク評価の研究を促進するために大規模データセット「RAID」を構築し、ドライバーの意図と反応を弱教師あり学習でモデル化することで、先行研究を大幅に上回る性能で潜在的なリスク源を特定する手法を提案しています。

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

本論文は、動画シーケンスの時間的整合性を活用して静的画像ベースの推定を補強し、PoseTrack2017 ベンチマークで SOTA 性能と高速な推論速度を実現する新たな「TAR-ViTPose」モデルを提案するものである。

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs

FTSplat: Feed-forward Triangle Splatting Network

この論文は、個々のシーン最適化や後処理を必要とせず、単一のフォワードパスでシミュレーション対応の連続三角形表面を直接予測し、ロボット工学やシミュレーション向けの高忠実度 3 次元再構成を実現する「FTSplat」と呼ばれる新しいフードフォワード三角形スプラッティングネットワークを提案するものです。

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

本論文は、道路事故の原因となる構造物を検出し、大規模視覚言語モデルと拡散モデルを用いて改善案と画像を生成するオントロジー駆動のフレームワーク「OD-RASE」を提案し、自動運転システムの安全性向上と事故予防に寄与することを示しています。

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

この論文は、セグメンテーションネットワークを用いて特徴マップを精緻化し、Deep Residual Network と Unet 類似アーキテクチャを組み合わせる「Residual Masking Network」を提案し、FER2013 および VEMO データセットで最先端の精度を達成したことを述べています。

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

本論文は、劣化表現を超球面上にマッピングして幾何学的バイアスを排除し、局所的な劣化の手がかりと大域的な意味を融合させることで、多様な画像劣化に対する包括的な復元を可能にする「SLER-IR」と呼ばれる球層別エキスパートルーティングフレームワークを提案し、複数のベンチマークで最先端の性能を達成したことを示しています。

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

この論文は、2 次元離散フーリエ変換の振幅スペクトルに対する適応的放射投影法を提案し、新しいデータセット DISE-2021 を作成して、文書画像の傾き推定において既存の手法を上回る堅牢性と精度を達成したことを示しています。

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

本論文は、劣化に頑健な忠実度評価指標「LucidConsistency」、利得の崩壊を防ぐ非結合型正規化戦略、そして大規模な実世界劣化画像データセット「LucidLR」を導入し、生成式リアルワールド超解像における忠実性と知覚的品質の両立を可能にする多報酬 RL 最適化フレームワーク「LucidNFT」を提案するものである。

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

この論文は、画像の情報密度に応じて特異値スペクトルに基づきトークン予算を動的に決定する「E-AdaPrune」を提案し、学習パラメータを追加することなく視覚言語モデルの効率と推論精度を向上させる手法を提示しています。

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

この論文は、Few-Shot セグメンテーションにおける構造的な不一致や視点間の一貫性の欠如を解決するため、空間的・視点的なグラフ構造と判別可能な事前知識を統合し、SAM を用いて高精度なマスクを生成する新しいフレームワーク「VINE」を提案するものです。

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

この論文は、ストリーミング動画からの 3D 幾何学復元において、メモリと計算コストをシーケンス長に関わらず一定に保ちつつ、最先端の精度を達成するトレーニング不要のフレームワーク「OVGGT」を提案するものである。

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

この論文は、複雑な再学習や手動アノテーションを不要とし、画像セグメンテーションと CLIP による埋め込み生成（および CNN/MLP と SVD を用いた代替手法）を組み合わせることで、COCO や Pascal VOC などのデータセットにおいて既存の最先端手法を上回る性能を達成する、効率的なオープンボキャブラリー物体認識フレームワークを提案しています。

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

本論文は、3 次元人体骨格データを視覚的セマンティクスに基づいて画像形式に変換する「Skeleton-to-Image Encoding (S2I)」を提案し、これにより大規模視覚事前学習モデルを骨格表現学習に適用可能にし、多様なデータソースからの骨格データを統一的に扱えるようにすることで自己教師あり学習の効果を高めたことを示しています。

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

本論文は、リソース制約のあるデバイス向けにオープンボキャブラリー物体検出を可能にするため、段階的な最適化と関係性知識蒸留を組み合わせた「CR-QAT」フレームワークを提案し、極端な低ビット量子化における性能劣化を大幅に改善することを示しています。

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

この論文は、連続的な並進変位を極座標のヤコビアンを用いて解析的にマージナル化し、センサーに依存しない物理量として定義された不確実性パラメータを備えた学習不要の確率的占有 BEV 符号化「PROBE」を提案し、多様な LiDAR センサーおよびセッション条件下で手動設計および教師ありベースラインと競合する、あるいはそれらを凌駕する 3 次元場所認識性能を達成したことを報告しています。

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

この論文は、2 枚の画像間の静的な比較に留まらず、中間フレームの生成と学習可能なクエリを用いて変化の「手順」を動的にモデル化する新しいフレームワーク「ProCap」を提案し、変化キャプション生成の精度向上を実現するものです。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

UAV の激しい機動による複雑な環境下でのマルチオブジェクト追跡の課題を克服するため、自己運動や急激なスケール変化、モーションブラーなどの困難な条件を含む大規模な新ベンチマーク「DynUAV」を提案し、既存の追跡アルゴリズムの限界を明らかにした。

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

← 前へ次へ →