π3\pi^3: Permutation-Equivariant Visual Geometry Learning

この論文は、特定の基準視点に依存せず入力順序に対して置換等価性を備えたニューラルネットワーク「π3π^3」を提案し、カメラ姿勢推定や深度推定など多様な視覚幾何学タスクにおいて最先端の性能を達成することを示しています。

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

本論文は、台湾宇宙機関(TASA)の緊急付加価値製品(EVAP)を支援するため、Sentinel-2 と Formosat-5 画像を用いた主成分分析と信頼度指標に基づく弱教師あり学習により、ViT(Vision Transformer)ベースのモデルで災害被災域のセグメンテーション精度と信頼性を向上させるフレームワークを提案するものである。

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

この論文は、2018 年以降のマイクロサービス向け自動スケーリング手法を、インフラ、アーキテクチャ、スケーリング方法、最適化目標、行動モデルという 5 つの次元で分類・比較分析し、リソース効率と SLA 保証の両立を目指す包括的な調査と分類体系を提示するものである。

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs

本論文は、バーストワークロード下での MoE 型 LLM 推論効率と SLO 遵守を両立させるため、複数の専門家の知識を統合する「united experts」と動的な brownout メカニズムを導入した新しい推論サービスフレームワーク「BrownoutServe」を提案し、vLLM と比較してスループットを最大 2.07 倍に向上させ、SLO 違反を 90.28% 削減する効果を実証したものである。

Jianmin Hu, Minxian Xu, Kejiang Ye + 1 more2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

本論文は、大規模かつ混在環境におけるマイクロサービスクラスターで発生するリソース競合と干渉を、CPI(命令あたりのサイクル数)に基づく高精度な予測モデルを用いて検知・緩和し、応答時間を大幅に改善するオープンソースプラットフォーム「C-Koordinator」の設計と実証結果を報告するものである。

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

この論文は、従来の視覚触覚センサーの速度限界を突破し、ニューロモルフィックカメラとローラー機構を統合することで、航空機などの大型表面を高速かつ高精度に 3D 再構成する革新的な触覚センサーを開発したことを報告しています。

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diabetic foot ulcer segmentation の課題である長距離依存性のモデル化と説明可能性を解決するため、Vision Transformer と U-Net を融合した TransUNet-GradCAM 手法を提案し、公開データセットおよび外部臨床データセットにおける高い汎化性能と臨床的有用性を検証しました。

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

この論文は、動画生成モデルにおける量子化の課題を解決し、Hessian に基づく重要データの選択とアテンションに基づくスパースなトークンの蒸留を導入することで、W4A6 量子化下でも損失なしで高い圧縮率と推論加速を実現する「S2^2Q-VDiT」というポストトレーニング量子化フレームワークを提案しています。

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

SPEX は、古典的なスペクトル指標に基づいて土地被覆オブジェクトのスペクトル事前知識をテキスト属性として符号化した大規模言語モデル向けデータセット SPIE を構築し、マルチスペクトルリモートセンシング画像における高精度な土地被覆抽出と説明可能な予測を実現する初のビジョンランゲージモデルです。

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

本論文は、180 度を超える広角の魚眼画像を用いた 3D ガウススプラッティングの初評価を行い、160 度の視野角が最適な結果をもたらすことを示すとともに、SfM による初期化が困難な状況に対処するため、200 度を超える魚眼画像への初適用となる UniK3D を用いた深度ベースの初期化手法を提案し、その有効性を検証した。

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Experimental Validation of Provably Covert Communication Using Software-Defined Radio

この論文は、ソフトウェア定義無線(SDR)を用いた実験により、情報理論的な「平方根の法則」に基づく証明可能な隠密通信が無線周波数(RF)領域で実現可能であることを実証し、理論的予測の検証と実用的な応用の道を開いたことを報告しています。

Rohan Bali, Trevor E. Bailey, Michael S. Bullock, Boulat A. Bash2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

この論文は、医療画像セグメンテーションにおけるドメイン適応の手法を、ソース画像の有無にかかわらず統合し、解剖学的知識を明示的に構造化した確率的多様体学習を通じて、解釈可能かつ高性能な統一フレームワークを提案するものです。

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Video-EM は、長期動画理解における文脈制約を解決するため、既存の Video-LLM を追加学習なしで活用し、LLM を能動的な記憶エージェントとして機能させることで、クエリ関連の瞬間を特定し、一貫したイベントにグループ化し、冗長性を除去する自己反省ループを経て、コンパクトかつ信頼性の高い「イベントタイムライン」を構築するトレーニングフリーのフレームワークである。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

本論文は、LLM と潜在拡散モデルを中核とし、幾何学的・意味的学習戦略を組み合わせることで、3D 画像の生成と空間的視覚質問応答(VQA)を統合的に実現する初のフレームワーク「UniUGG」を提案するものである。

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

UniCast: A Unified Framework for Instance-Conditioned Multimodal Time-Series Forecasting

本論文は、時系列、画像、テキストのマルチモーダル入力からインスタンス固有の条件付きプロンプトを推論し、モダリティの関連性を動的に調整する「Modality Routing」メカニズムを導入することで、既存の時間系列基盤モデルの予測精度を大幅に向上させるパラメータ効率の高いフレームワーク「UniCast」を提案するものである。

Sehyuk Park, Soyeon Caren Han, Eduard Hovy2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

本論文は、フレームおよびセマンティックレベルで冗長なポーズトークンを動的に剪除する階層的時系列剪除(HTP)戦略を提案し、拡散モデルに基づく 3 次元人体姿勢推定の計算コストを大幅に削減しつつ最先端の性能を達成する効率的なフレームワークを構築したものである。

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice は、3 次元点群を 2 次元スライスに変換し、垂直方向の幾何学的関係を維持するためのスライス相互作用ネットワーク(SIN)を導入することで、自律運転における 3 次元物体検出の精度と推論速度の両立を実現する新たな手法を提案しています。

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs