A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

この論文は、ドメインシフトによる性能低下という課題に直面する Wi-Fi センシングの一般化を促進するため、200 以上の研究を体系的に分類・分析し、主要な手法やデータセットを網羅的にレビューするとともに、大規模事前学習やマルチモーダル基盤モデルとの統合などの将来展望と、データ共有プラットフォームの提案をまとめた包括的な調査論文である。

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

この論文は、既存のデータセットが見過ごしていた広範なシーン編集を含む大規模な局所偽造画像データセット「BR-Gen」と、ノイズ指紋を用いて偽造痕跡を画像全体に伝播させることで検出性能を向上させる「NFA-ViT」という新しいモデルを提案し、AI 生成画像の局所偽造検出における新たな基準を確立したことを示しています。

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

この論文は、光学画像と SAR 画像の融合による物体検出の性能向上を可能にする大規模な統合データセット「M4-SAR」と、その評価基準および新しい検出フレームワーク「E2E-OSDet」を提案し、複雑な環境下での検出精度を大幅に改善することを示しています。

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

本論文は、大規模言語モデルなどの基盤モデルを統合したモバイルサービスロボットにおける「具現化された AI」の現状を体系的にレビューし、技術的課題、実世界応用、倫理的側面を分析するとともに、信頼性と適応性を備えた将来の研究方向性を提示するものである。

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

この論文は、Diffusion Transformer を基盤とし、文字位置エンコーディングや位置エンコーディング補間などの新技術、さらに大規模な多言語合成データセットを活用することで、高精度かつ制御可能な多言語テキスト描画を実現する「EasyText」というフレームワークを提案するものである。

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

本論文は、生物学的なシナプスフィルタリング機構に着想を得たクロススケールゲーティング符号化(CSGC)と軽量残差ブロックを導入し、低消費電力かつ高精度な単眼 3 次元物体検出を実現するスパイクニューラルネットワーク「SpikeSMOKE」を提案するものである。

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

この論文は、物理場データ(流体力学など)の解釈を強化するため、物理的特徴を構造化されたテキストに変換する手法とデータ圧縮戦略を組み合わせた新しい大規模視覚言語モデル「FieldLVLM」を提案し、既存手法を上回る性能を実証したものです。

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

本論文は、リモートセンシング変化検出の精度向上を目指し、マルチモーダル大規模言語モデルを用いて画像からテキストを生成し、視覚・言語特徴をグラフ条件付き再構成メカニズムと統合して高次元な意味相互作用を実現する「MGCR-Net」を提案し、複数の公開データセットで既存手法を上回る性能を示した研究です。

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

この論文は、ソースデータや画像合成を必要とせず、中立表情のみを含むターゲットデータを用いて事前学習済みモデルを個人ごとに適応させる軽量な潜在空間ベースの手法「SFDA-PFT」を提案し、プライバシーに配慮した表情認識タスクにおいて最先端の性能を達成することを示しています。

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

この論文は、単一の RGB 画像から未見の物体カテゴリの 9 自由度姿勢を推定する新たな単一段階のトランスフォーマーベースの手法「YOPO」を提案し、追加データや深度情報なしで既存の RGB 専用手法を凌駕する性能を達成したことを報告しています。

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

この論文は、ロボティクス応用に不可欠な高速かつ効率的な 3 次元再構成を実現するため、関心領域(POI)に特化した粗から細への最適化フレームワーク「CoRe-GS」を提案し、背景の計算を削減しながら浮遊ノイズを抑制し、再構成品質と訓練速度を同時に向上させる手法を提示しています。

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

本論文は、音声と音韻情報を視覚情報と統合するマルチモーダル学習フレームワーク「VocSegMRI」を提案し、リアルタイム MRI における発音器官の高精度なセグメンテーションを実現したものである。

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

この論文は、人手に依存するサンゴの産卵計測の課題を解決し、大規模なサンゴ礁の修復を可能にするため、低コストなカメラと人間によるラベル付けを組み合わせた物体検出技術を用いて、サンゴの産卵と幼生を自動的に検出・分類・計数する「CSLICS」と呼ばれるシステムを提案し、その有効性を検証したものです。

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本論文は、ビデオ条件付き音声生成(Video-to-Sound)と視覚テキスト音声合成(VisualTTS)という従来別個のタスクを、ディテトランス(DiT)アーキテクチャ内の条件統合メカニズムを工夫した単一のフローマッチングフレームワーク「VSSFlow」によって統合し、個別の最先端モデルを上回る性能で同時学習を可能にしたことを提案しています。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI