TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

本論文は、既存のハッシュベース手法が抱える情報損失やカテゴリ爆発の問題を克服するため、セマンティックなプロトタイプ更新と安定したテスト時エンコーダ更新、およびマージン意識型ログit較正を導入し、オンラインストリームから未知のカテゴリを動的に発見・学習する適応フレームワーク「TALON」を提案するものです。

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

この論文は、未知環境でのオブジェクト目標ナビゲーションにおいて、LLM を用いた意味領域推論とハイブリッド地図を統合し、能動的な探索戦略を採用することで、従来の反応型アプローチやフロンティア探索よりも大幅に高い成功率と経路効率を達成する手法を提案しています。

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

本論文は、主語駆動型テキストから画像生成モデルの評価における既存の限界を克服し、階層的な主語分類、難易度とシナリオの細分化、人間評価との相関が高い新規指標(SICS)、および診断的洞察を提供する包括的なベンチマーク「DSH-Bench」を提案し、19 の主要モデルを評価することで将来の研究指針を確立したものである。

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

この論文は、自律運転における既存のトークンレベルの混合専門家(MoE)メカニズムの限界を克服し、鳥瞰図(BEV)特徴に基づいてエキスパートを選択する「シーン適応型混合専門家(SAMoE-VLA)」を提案することで、パラメータ数を抑えながら最先端の性能を実現する Vision-Language-Action モデルを提示しています。

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

本論文は、事前学習モデルの制約に依存せず、トレーニング不要の視覚・幾何学的推論を用いて任意の 3D 環境における任意の物体を特定する新しいゼロショット手法「UniGround」を提案し、複数のベンチマークおよび実世界環境において最先端の性能を示すことを報告しています。

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

本論文は、低照度・ノイズ・モーションブラーが混在する 3D 暗所シーンの復元を、明るさの中間アンカーを用いた段階的な補強とノイズを考慮した 3D ガウシアンスプラッティングによる再構成の交互サイクルとして再定式化し、既存手法を大幅に上回る高速性と画質を実現する「FLED-GS」を提案するものである。

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

既存のデータセットの限界を克服し、仮想試着やサイズ推定などのタスクに特化した大規模なマルチビュー動画データセット「MV-Fashion」を提案し、複雑な衣類の動きや詳細なアノテーション、平置き画像との対照データを含む画期的なリソースを提供する論文です。

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

本論文は、高速運動や極端な照明条件下でも安定した位置推定を実現するため、イベントカメラの特性を活かしたエッジ感知フロントエンドと学習ベースの深度推定モジュールを統合したハイブリッド視覚慣性SLAMシステム「Edged USLAM」を提案し、実機飛行実験を通じてその有効性を示したものである。

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

本論文は、電磁気領域におけるマルチモーダル大規模言語モデルの課題であるデータ不足、ベンチマークの欠如、低 SNR 環境での脆弱性に対処するため、大規模データセット「EM-100k」、包括的ベンチマーク「EM-Bench」、そして低 SNR 環境に強い新規学習フレームワーク「MERLIN」を提案し、電磁信号からテキストへのタスクにおいて最先端の性能と堅牢性を達成したことを報告しています。

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

この論文は、ビジョン・ランゲージモデルの言語表現と LiDAR 特徴量を整合させることで、未知のオブジェクトをゼロショット分類として検出する新しい手法「ALOOD」を提案し、nuScenes ベンチマークで競争力のある性能を実証したものです。

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

LiDAR とカメラの異なるサンプリングレートという課題を解決し、非同期観測データも活用して高頻度な状態更新を実現する空間時間融合フレームワーク「Fusion-Poly」を提案し、nuScenes ベンチマークで 3D 多物体追跡の最先端性能を達成したという論文です。

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

本論文は、長尾分布を持つマルチモーダルデータに対して、サンプルの局所分布に応じた動的な温度スケジューリングとマージンスケジューリングを導入し、情報対照損失と最大マージン手法を統合することで、画像・言語タスクにおいて最先端の性能を達成する「MM-TS」という手法を提案しています。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

本論文は、解像度や視点、視野が異なる熱画像と可視画像の異種センサーを統合する際の問題を解決するため、空間対応性を維持し信頼性に基づいて適応的に重み付けを行う新しい融合手法(RGIF と RGMAF)を提案し、MMFW-UAV データセットを用いた実験で無人航空機(UAV)の検出性能を大幅に向上させることを実証しています。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

この論文は、音声トラックを無視する既存の CLIP ベースのビデオテキスト検索の限界を克服し、専用の音声ブランチと soft-ALBEF による早期アライメントを導入した「SAVE」という手法を提案し、複数のベンチマークで最先端の AVIGATE 手法を上回る性能を達成したことを報告しています。

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs