Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

本論文は、3D ガウススプラッティングを用いたデジタルツインからの教師信号と、幾何学的利得と外挿ペナルティに基づく CN-Coverage による新規視点の選択戦略を組み合わせることで、物理 AI の単眼 RGB から 3D への推論における視点シフトに対する頑健性と制御タスクでの安全性を向上させる「Splat2Real」を提案しています。

Hansol Lim, Jongseong Brad Choi2026-03-12💻 cs

Less is More: Decoder-Free Masked Modeling for Efficient Skeleton Representation Learning

本論文は、従来の MAE が抱えるデコーダの計算コストや CL の局所的特徴の欠如といった課題を解決するため、デコーダ不要なマスクドモデリングと対照学習を統合し、推論コストを大幅に削減しながら最先端の性能を実現する新しい骨格ベースの行動認識フレームワーク「SLiM」を提案するものです。

Jeonghyeok Do, Yun Chen, Geunhyuk Youk, Munchurl Kim2026-03-12💻 cs

Are Video Reasoning Models Ready to Go Outside?

この論文は、現実世界の摂動下で視覚言語モデルの推論能力が低下する課題に対処するため、適応的な難易度制御と頑健性意識の一貫性報酬を用いたトレーニングフレームワーク「ROVA」と、実世界摂動を注入した新しいベンチマーク「PVRBench」を提案し、既存モデルの性能を大幅に向上させることを示しています。

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

How To Embed Matters: Evaluation of EO Embedding Design Choices

本論文は、NeuCo-Bench を活用して地球観測タスクにおけるジオスペース基盤モデル(GeoFM)の埋め込み設計(バックボーン、事前学習戦略、層の選択、空間集約、組み合わせなど)を体系的に評価し、生データより 500 倍以上小さい固定サイズの埋め込み表現が下流タスクで有効であることを示しています。

Luis Gilch, Isabelle Wittmann, Maximilian Nitsche, Johannes Jakubik, Arne Ewald, Thomas Brunschwiler2026-03-12💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

本論文は、JPEG XS 規格における低遅延・低複雑度符号化を目的とした「イントラパターンコピー(IPC)」の重要なモジュールである変位ベクトル探索を、最適化されたメモリ構成とパイプライン設計を備えた効率的な FPGA 実装により高速かつ低消費電力で処理可能にする手法を提案し、その実用性を示したものである。

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong Liu2026-03-12⚡ eess

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

この論文は、粗いマスクのみで任意のオブジェクトを参照画像に基づいて編集できる統合的なインペインティングフレームワーク「A2^2-Edit」を提案し、そのために大規模な多カテゴリデータセット「UniEdit-500K」を構築するとともに、カテゴリ間でのセマンティックな転移を強化する「Mixture of Transformer」モジュールと、マスク精度への依存度を低減する「Mask Annealing Training Strategy」を導入して、既存手法を凌駕する性能を実現したものです。

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

RandMark: On Random Watermarking of Visual Foundation Models

本論文では、視覚基盤モデルの所有権検証を目的として、保持用データセットの内部表現にランダムなデジタル透かしを埋め込むエンコーダ・デコーダネットワークを提案し、理論的および実験的に、透かしが埋め込まれたモデルとそうでないモデルを高い精度で識別できることを示しています。

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.AI

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

離散化による情報損失や連続表現の学習不安定性という課題を克服するため、チャネル次元圧縮とトランスフュージョン・アーキテクチャを採用し、高品質な生成と優れた制御性を両立する統合マルチモーダルモデル「UniCom」を提案する論文です。

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

歩行者ナビゲーションのアクセシビリティ向上を目的として、既存の視覚言語モデルが抱える物体の幻覚や深度推定の不確実性を解消し、単一アーキテクチャで言語推論とセグメンテーションを統合した新しいモデル「WalkGPT」と、大規模なベンチマークデータセット「PAVE」を提案する論文です。

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou, Chengyin Li, Prashant Khanduri, Marco Brocanelli, Dongxiao Zhu2026-03-12💻 cs

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

この論文は、悪天候や夜間などの過酷な環境下でも UAV による交通シーン理解を可能にするために、交通規制知識を視覚表現に統合する「CTCNet」という新しいネットワークと、光学・熱赤外画像の相補性を活用するモジュールを提案し、さらに大規模なマルチモーダルデータセット「Traffic-VQA」を構築して、既存の手法を大幅に上回る性能を実証したものです。

Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang2026-03-12🤖 cs.AI

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

この論文は、絶滅危惧種である板鰓類(エラスモブランチ)の保全と生物多様性モニタリングを支援するため、地中海東部沿岸の 7 種を対象に、陸上環境で収集された高品質な画像と専門家による注釈を備えた「eLasmobranc Dataset」を公開し、微細な形態分類を可能にする新たなリソースを提供したことを報告しています。

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

本論文は、回転する単一光源とイベントカメラ、およびキャリブレーション不要の軽量ピクセルごとのニューラルネットワークを組み合わせることで、環境光や高光沢の影響を受けにくい高精度なイベントベースのフォトメトリックステレオ手法を提案し、既存手法より平均角度誤差を 7.12% 削減する成果を示しています。

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

この論文は、STEM 分野の視覚推論における MLLM の限界が推論能力ではなく知覚能力にあることを発見し、実行可能なコードを知覚の媒体として活用する「CodePercept」を提案し、100 万組の画像・説明文・コードのデータセットと、画像復元コード生成による厳密な評価ベンチマークを導入することでこの課題を解決しようとするものです。

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Guiding Diffusion Models with Semantically Degraded Conditions

この論文は、拡散モデルの条件付きガイダンスにおいて、従来の意味的に空虚なヌルプロンプトの代わりに、トランスフォーマーのコンテンツトークンを戦略的に劣化させた条件を用いる「条件劣化ガイダンス(CDG)」を提案し、追加の学習や外部モデルなしに複雑な構成的タスクの精度を大幅に向上させることを示しています。

Shilong Han, Yuming Zhang, Hongxia Wang2026-03-12💻 cs

Phase-Interface Instance Segmentation as a Visual Sensor for Laboratory Process Monitoring

透明ガラス器具内の弱い境界や光学アーティファクトに起因する化学実験の監視課題に対し、新規データセット「CTG 2.0」と LGA-RCM-YOLO モデルを提案し、高精度かつリアルタイムな液相・気相界面のインスタンスセグメンテーションを実現することで、実験自動化のための実用的な視覚センサーとして機能することを示した。

Mingyue Li, Xin Yang, Shilin Yan, Jinye Ran, Morui Zhu, Zirui Peng, Huanqing Peng, Wei Peng, Guanghua Zhang, Shuo Li, Hao Zhang2026-03-12💻 cs

The Quadratic Geometry of Flow Matching: Semantic Granularity Alignment for Text-to-Image Synthesis

本論文は、フローマッチングにおける最適化ダイナミクスを二次形式として分析し、勾配競合を緩和する「セマンティック・グラニュラリティ・アライメント(SGA)」を提案することで、テキストから画像への生成タスクにおける収束速度と構造的完全性の向上を実現することを示しています。

Zhinan Xiong, Shunqi Yuan2026-03-12💻 cs