cs.CV 件の論文 | Gist.Science

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

本論文は、大規模視覚言語モデル（LVLM）を活用してドローン画像と衛星画像の視覚的・意味的相関を明示的に学習する新規ランキングアーキテクチャと、近接する正例への過度な罰則を回避する関係性認識損失関数を提案し、既存の手法を大幅に上回るクロスビュー UAV 地理定位の精度向上を実現するものである。

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

この論文は、連続的な特徴量に依存する従来の評価指標の限界を克服するため、離散的な視覚トークン空間における分布距離や品質スコアを提案し、大規模ベンチマーク「VisForm」を用いて人間の評価との高い相関を実証するものです。

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

この論文は、マルチモーダル大規模言語モデルを用いて欠陥画像を合成し、限られた実データのみで電力線絶縁体の欠陥検出精度を大幅に向上させるデータ効率の高い手法を提案しています。

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

本論文は、既存のハッシュベース手法が抱える情報損失やカテゴリ爆発の問題を克服するため、セマンティックなプロトタイプ更新と安定したテスト時エンコーダ更新、およびマージン意識型ログit較正を導入し、オンラインストリームから未知のカテゴリを動的に発見・学習する適応フレームワーク「TALON」を提案するものです。

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

この論文は、未知環境でのオブジェクト目標ナビゲーションにおいて、LLM を用いた意味領域推論とハイブリッド地図を統合し、能動的な探索戦略を採用することで、従来の反応型アプローチやフロンティア探索よりも大幅に高い成功率と経路効率を達成する手法を提案しています。

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標（SICS）、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

TrianguLang は、推論時にカメラ較正や最適化を不要とし、幾何学的整合性を意識した注意機構（GASA）を導入することで、単一のテキストクエリのみで高精度かつリアルタイムな 3 次元物体・部分の位置特定を実現する新しいフードフォワードフレームワークです。

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

本論文は、ラベルフリーの情報エントロピー基準を用いたニューロン重要度評価とバイナリ探索に基づく適応的剪定を提案し、CLIP や DINOv2 などの大規模ビジョントランスフォーマーからパラメータ数と FLOPs を約 40% 削減しながら性能をほぼ維持する「適応的 MLP 剪定（AMP）」手法を提示しています。

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

この論文は、自律運転における既存のトークンレベルの混合専門家（MoE）メカニズムの限界を克服し、鳥瞰図（BEV）特徴に基づいてエキスパートを選択する「シーン適応型混合専門家（SAMoE-VLA）」を提案することで、パラメータ数を抑えながら最先端の性能を実現する Vision-Language-Action モデルを提示しています。

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

本論文は、マスクされたオーディオ・ビジュアル整合性学習と動的条件付きフローを組み合わせることで、動画のセマンティクスとリズムの両方に高度に同期した高品質な音声を生成する「FoleyFlow」を提案し、既存手法を上回る性能を実証したものです。

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

本論文は、事前学習モデルの制約に依存せず、トレーニング不要の視覚・幾何学的推論を用いて任意の 3D 環境における任意の物体を特定する新しいゼロショット手法「UniGround」を提案し、複数のベンチマークおよび実世界環境において最先端の性能を示すことを報告しています。

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

本論文は、低照度・ノイズ・モーションブラーが混在する 3D 暗所シーンの復元を、明るさの中間アンカーを用いた段階的な補強とノイズを考慮した 3D ガウシアンスプラッティングによる再構成の交互サイクルとして再定式化し、既存手法を大幅に上回る高速性と画質を実現する「FLED-GS」を提案するものである。

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

この論文は、3D CT 画像からの血管中心線抽出において、従来の決定論的モデルの限界を克服し、粗から細への表現と投票ベースの集約を採用した拡散モデル「VesselFusion」を提案し、より高精度かつ自然な結果を実現したことを報告しています。

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

既存のデータセットの限界を克服し、仮想試着やサイズ推定などのタスクに特化した大規模なマルチビュー動画データセット「MV-Fashion」を提案し、複雑な衣類の動きや詳細なアノテーション、平置き画像との対照データを含む画期的なリソースを提供する論文です。

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

本論文は、高速運動や極端な照明条件下でも安定した位置推定を実現するため、イベントカメラの特性を活かしたエッジ感知フロントエンドと学習ベースの深度推定モジュールを統合したハイブリッド視覚慣性SLAMシステム「Edged USLAM」を提案し、実機飛行実験を通じてその有効性を示したものである。

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

本論文は、電磁気領域におけるマルチモーダル大規模言語モデルの課題であるデータ不足、ベンチマークの欠如、低 SNR 環境での脆弱性に対処するため、大規模データセット「EM-100k」、包括的ベンチマーク「EM-Bench」、そして低 SNR 環境に強い新規学習フレームワーク「MERLIN」を提案し、電磁信号からテキストへのタスクにおいて最先端の性能と堅牢性を達成したことを報告しています。

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

この論文は、ビジョン・ランゲージモデルの言語表現と LiDAR 特徴量を整合させることで、未知のオブジェクトをゼロショット分類として検出する新しい手法「ALOOD」を提案し、nuScenes ベンチマークで競争力のある性能を実証したものです。

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

LiDAR とカメラの異なるサンプリングレートという課題を解決し、非同期観測データも活用して高頻度な状態更新を実現する空間時間融合フレームワーク「Fusion-Poly」を提案し、nuScenes ベンチマークで 3D 多物体追跡の最先端性能を達成したという論文です。

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

本論文は、長尾分布を持つマルチモーダルデータに対して、サンプルの局所分布に応じた動的な温度スケジューリングとマージンスケジューリングを導入し、情報対照損失と最大マージン手法を統合することで、画像・言語タスクにおいて最先端の性能を達成する「MM-TS」という手法を提案しています。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

本論文は、解像度や視点、視野が異なる熱画像と可視画像の異種センサーを統合する際の問題を解決するため、空間対応性を維持し信頼性に基づいて適応的に重み付けを行う新しい融合手法（RGIF と RGMAF）を提案し、MMFW-UAV データセットを用いた実験で無人航空機（UAV）の検出性能を大幅に向上させることを実証しています。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

← 前へ次へ →