cs.CV 件の論文 | Gist.Science

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

本論文は、衛星動画における小目標や背景のぼやけ、大きなアスペクト比の変化、頻繁な視覚的遮蔽といった課題に対処するため、空間的な曖昧さと時間的情報の損失を軽減する幾何学的知覚と運動誘導のシアンネットワーク「SiamGM」を提案し、130 FPS のリアルタイム追跡を達成しながら既存の最先端手法を上回る精度を実現したものである。

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

この論文は、生成・再構成・識別の 3 要素と関心領域（ROI）アテンション機構を組み合わせた GRD-Net を提案し、不良検出における従来のポストプロセッシング依存を排除し、MVTec データセットや製薬業界の実際のデータを用いた実用的な異常検出と欠陥局所化を実現する手法を述べています。

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

この論文は、RGB と深度情報の冗長性を活用した強化された融合エンコーダ、タスク固有の機能改善モジュール、および動的な多タスク適応損失関数を導入することで、従来の手法よりも高い精度と処理速度でシーン理解を実現する効率的なモデルを提案しています。

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

本論文は、画像分類における分布外（OOD）検出の性能を評価するため、クロスエントロピー損失、プロトタイプ損失、トリプレット損失、平均精度損失の 4 つの代表的な学習目的関数を OpenOOD 基準で体系的に比較し、クロスエントロピー損失が全体的に最も一貫した OOD 検出性能を示すことを明らかにしています。

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

本論文は、医薬品製造のブロー・フィル・シーリング（BFS）ラインにおける高速なオンライン異常検出を実現するため、正常サンプルのみで学習する生成敵対的アーキテクチャに基づく半教師ありフレームワークを提案し、500ms の時間制約内で高精度な検出と局所化を達成したことを報告しています。

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

本論文は、事前学習済みモデルのセマンティック情報に依存せず、局所的な空間的一貫性を活用したパッチ単位分類と、光度および知覚的手がかりを適応的に統合したハイブリッド分類指標を組み合わせることで、実世界の動的な妨害物を効果的に除去し、3D ガウススプラッティングの画質を向上させる「3DGS-HPC」というフレームワークを提案しています。

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

この論文は、大規模視覚言語モデル（LVLM）が個別には安全に見える視覚的スロットを構造的に組み合わせて有害な出力を生成する新たな脆弱性を発見し、これを悪用した単一クエリによる「StructAttack」という新しい脱獄フレームワークを提案したものである。

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

この論文は、自律走行における LiDAR 点群のリアルタイム処理を可能にするため、アテンション機構を用いてタスクに関連する領域を優先的にサンプリングする効率的な学習型簡略化手法を提案し、KITTI データセットなどでの評価において、既存の最遠点サンプリング法よりも高速かつ高精度な物体検出・分類を実現したことを報告しています。

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

この論文は、3D ガウススプラッティングにおける従来のトライプレーン符号化を学習済み埋め込みで置き換えることで、高品質なリアルタイム話者合成を実現し、モバイル GPU 上でも 60 FPS 以上の動作を可能にする「EmbedTalk」を提案するものです。

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

この論文は、水面の屈折による画像歪みを除去し、かつ水面形状を推定するために、水面高さの時間的・空間的変化をモデル化する 2 つのニューラルフィールドネットワーク（SIREN を使用）を用いた教師なし学習アプローチを提案し、実データおよびシミュレーションデータにおいて既存の教師なし画像復元手法を上回る性能を実証したものである。

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

この論文は、凍結された視覚生成モデルに低ランク適応を付加して信号を関数として符号化する新たな枠組みを提案し、これにより極低ビットレートでの高品質な動画圧縮を実現するとともに、圧縮と生成を統合する新たなアプローチを示しています。

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

本論文は、視覚言語モデルの幻覚が最終出力ではなく中間層における「過剰思考（矛盾する仮説の繰り返し）」によって引き起こされることを発見し、この挙動を定量化する「Overthinking Score」を導入することで、従来の手法よりも高精度な幻覚検出を実現したことを報告しています。

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

この論文は、限られたデータで新しい被験者への適応が困難な課題を解決するため、刺激レベルのセマンティック整合性と被験者レベルの分布ベースの特徴摂動を導入した二重アライメントフレームワーク「Duala」を提案し、自然風景データセット（NSD）において既存手法を上回る高精度な脳活動からの視覚復元を実現したことを報告しています。

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

本論文は、緊急気道管理における鼻挿管のリアルタイム性を向上させるため、埋め込みデバイスやエッジプラットフォーム上でも高速かつ高精度に声門を検出できる軽量モデル「Mobile GlottisNet」を提案し、その有効性を臨床データセットで実証したものである。

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

この論文は、NVIDIA Omniverse を活用したアルジェ国際空港のデジタルツインに基づく合成データ生成パイプラインを提案し、限られた実データのアノテーションを合成データと組み合わせることで、手作業を 25〜35% 削減しつつも、高密度で重なり合う手荷物カートの検出において実データのみを使用する場合と同等以上の精度を達成できることを実証しています。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本論文は、長期のタスクや継続的な学習を可能にするため、タスク計画、原子スキルの抽象化、微細な動作を統合的に生成し、エキスパートの動的な組み合わせによって拡張性と汎用性を高める「AtomicVLA」という新しいロボティクスフレームワークを提案しています。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

本論文は、視覚言語基盤モデルのセマンティックな事前知識とグラフ構造を活用して、非等長変形やクラス間対応といった困難な条件下でも教師なしで高精度な 3D 形状密対応を達成する新しいフレームワーク「GLASS」を提案し、既存手法を大幅に上回る性能を示したものである。

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

本論文は、言語バイアスと言語感応性という 2 つの課題を同時に解決するため、テキストおよび視覚的摂動による多段階の対照推論を行う「自己批判推論（SCI）フレームワーク」と、モデル固有の堅牢性を評価する「動的堅牢性ベンチマーク（DRBench）」を提案し、推論ラウンド数の増加が既存手法を超える堅牢性の向上につながることを実証しています。

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

本論文は、人間の介入なしに生動画から大規模な3D空間データを自動構築するパイプライン「Holi-Spatial」を提案し、これにより生成された大規模データセット「Holi-Spatial-4M」を用いて視覚言語モデルの空間推論能力を大幅に向上させることを示しています。

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

本論文は、近距離の鏡面反射を明示的なレイトレーシングなしに効率的にモデル化し、高速な学習と最先端の性能を両立させる「反射双対ガウススプラッティング（Ref-DGS）」という新しいフレームワークを提案するものです。

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

← 前へ次へ →