cs.CV 件の論文 | Gist.Science

Real-Time Neural Video Compression with Unified Intra and Inter Coding

既存のニューラル動画圧縮方式が抱える欠陥を克服するため、従来の動画符号化の概念を取り入れて単一モデルで適応的にイントラ・インター符号化を行う統合フレームワークと双方向二フレーム圧縮設計を提案し、DCVC-RT を上回る圧縮効率とリアルタイム性を両立させた研究です。

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

本論文は、2D エンコーダの限界を克服し、RGB 画像から強力な 3D 幾何学的事前知識を抽出してアクションヘッドに注入する新たなパラダイム「FALCON」を提案し、シミュレーションおよび実世界タスクにおいて最先端の性能と高い汎用性を達成したことを報告しています。

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

本論文は、軽量な身体ランドマーク検出と適切な部分集合の選択、およびスプライン補間による欠損値の補完を組み合わせることで、LIBRAS の孤立した手話認識において、既存の最先端手法と同等以上の精度を維持しつつ処理時間を 5 倍以上短縮できることを実証しています。

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

この論文は、離散的な人間 - 物体相互作用表現と自然言語を統合した新しいフレームワーク「SynHLMA」を提案し、可動部を持つ物体に対する言語指示に基づく一連の巧みな把持動作を生成・予測・補間することを可能にするものである。

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

この論文は、事前学習済み Stable Diffusion モデルの特徴量を活用し、トレーニング不要な k-NN による検出とコンパクトな分類器によるソース特定を可能にする軽量かつデータ効率の高いフレームワーク「FRIDA」を提案し、GenImage ベンチマークにおいて未見の生成モデルに対する検出とソース特定において最先端の性能を達成したことを報告しています。

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

既存の単眼 3D 物体検出器が抱える属性間の幾何学的整合性の欠如を解消するため、予測された 3D 境界ボックスと正解との空間的整合性、および画像平面上での 3D ボックスの 2D 投影と検出枠との整合性を強制する「Spatial-Projection Alignment（SPAN）」手法を提案し、既存の検出器に容易に統合可能な形で性能を大幅に向上させることを実証した。

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

本論文は、医療教育における多輪対話と実体レベルの推論を可能にする新たなタスク「MEMR-Seg」と大規模データセット「MR-MedSeg」を提案し、誤差伝播を軽減する「判定・修正メカニズム」を備えた基線モデル「MediRound」を開発してその有効性を示したものである。

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

本論文は、追加学習を必要とせず推論時に高信頼かつ多様な特徴を蓄積する適応的多様性キャッシュ（ADC）モジュールを提案し、VLM ベースの人間 - 物体相互作用（HOI）検出における長尾分布の偏りを効果的に軽減し、特に希少カテゴリの検出性能を向上させることを示しています。

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

本論文は、大規模視覚言語モデル（LVLM）における既存の敵対的攻撃が抱える制御性の限界を、パッチ特徴の曖昧さではなく、より局所的で分離された意味情報を保持する「値特徴（Value Features）」を標的にすることで克服し、テキスト指示に基づく精密な意味操作を可能にする新しい手法「V-Attack」を提案するものである。

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

本論文は、異なる VLA モデルや実環境への転移が可能なユニバーサルな物理的パッチ攻撃「UPA-RFAS」を提案し、視覚 - 言語 - 行動モデルが未知のアーキテクチャやシミュレーションから実世界への移行においても普遍的な脆弱性を持つことを実証しています。

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

この論文は、ロボティクスにおける 3D 視覚表現学習の課題を解決するため、状態遷移のダイナミクスを生成拡散プロセスとしてモデル化し、動作や幾何学的再構成の教師信号なしに自己教師ありで学習するフレームワーク「AFRO」を提案し、シミュレーションおよび実世界タスクにおいて既存手法を上回る成功率とスケーラビリティを実証したものである。

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin Mao2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

VGGT や $\pi^3$ などの多視点 3D モデルが抱える計算コストの課題に対し、グローバル注意機構の役割を分析し、学習不要の 2 段階加速手法を提案することで、精度を維持しつつ最大 10 倍の推論高速化を実現する論文です。

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

この論文は、衛星画像における船舶検出の課題である極端なスケール差とアスペクト比に対処するため、検出ピラミッドレベルを P3-P5 から P2-P4 へシフトさせ、グループ正規化を用いた補助ブランチを統合した軽量かつ高精度な検出器「LiM-YOLO」を提案し、主要なベンチマークで最先端の性能を達成したことを報告しています。

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

本論文は、RL におけるサンプルの難易度事前分布を活用してヒントの比率を適応的に調整し、勾配変調とロールアウト難易度事後分布に基づく優位性推定を導入することで、探索と模倣のバランスを最適化し、推論能力と分布外汎化性能を大幅に向上させる「ADHint」という新しい手法を提案しています。

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

この論文は、埋め込みノルムの膨張が複雑なプロンプトの失敗原因であることを特定し、方向のみを最適化する「方向性テキスト反転（DTI）」を提案することで、テキスト忠実性と被写体類似性を両立させ、学習済み概念間の滑らかな補間を可能にする個人化テキスト生成手法を開発したことを示しています。

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Multimodal Skeleton-Based Action Representation Learning via Decomposition and Composition

この論文は、効率性と性能の両立が課題であるマルチモーダル骨格ベースの動作認識に対し、特徴の分解と再構成による自己教師あり学習フレームワーク「Decomposition and Composition」を提案し、NTU RGB+D や PKU-MMD II などのデータセットで計算コストと精度の優れたバランスを実現したことを示しています。

Hongsong Wang, Heng Fei, Bingxuan Dai + 1 more2026-03-11💻 cs

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

この論文は、拡散モデルの強化学習における「好意モード崩壊（多様性の欠如）」を定量化する新しいベンチマーク「DivGenBench」を提案し、報酬モデルの埋め込み空間内で方向性補正を行う「方向性分離アライメント（D²-Align）」という手法により、多様性を維持しつつ人間の好みに優れた生成を実現することを示しています。

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

本論文は、顔偽造検出における汎化性能の向上を目指し、因果表現学習の観点から「低ランクの誤ったバイアス」を低ランク部分空間として特定し、その直交補空間を学習することで偽造痕跡に特化した検出器 SeLop を提案し、極めて少ない学習パラメータで最先端の性能を実現したことを報告しています。

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Weakly supervised framework for wildlife detection and counting in challenging Arctic environments: a case study on caribou (Rangifer tarandus)

この論文は、背景の不均一性や標的の小ささなどの課題に直面する極地環境におけるシカ（トナカイ）の監視を目的として、ラベル付けされたデータが限られている状況でも高精度な検出と個体数推定を可能にする弱教師ありパッチレベルの事前学習フレームワーク「HerdNet」を提案し、その有効性を実証したものである。

Ghazaleh Serati, Samuel Foucher, Jerome Theau2026-03-11💻 cs

← 前へ次へ →