SG-DOR: Learning Scene Graphs with Direction-Conditioned Occlusion Reasoning for Pepper Plants

本論文は、密集した作物の樹冠内でのロボット収穫を支援するため、個体分割された器官の点群データから物理的接続と方向条件付きの遮蔽関係を推論し、標的果実へのアプローチ経路における遮蔽葉をランキングする「SG-DOR」と呼ばれる関係性フレームワークを提案するものである。

Rohit Menon, Niklas Mueller-Goldingen, Sicong Pan, Gokul Krishna Chenchani, Maren Bennewitz2026-03-09💻 cs

Artificial Intelligence for Detecting Fetal Orofacial Clefts and Advancing Medical Education

この論文は、22 病院の 9,215 人の胎児から得られた 45,139 枚超の超音波画像で学習した AI システムが、口唇口蓋裂の診断において経験豊富な放射線科医と同等の精度を達成し、若手医師の診断精度向上と専門知識の習得加速の両方に寄与する可能性を示したものである。

Yuanji Zhang, Yuhao Huang, Haoran Dou, Xiliang Zhu, Chen Ling, Zhong Yang, Lianying Liang, Jiuping Li, Siying Liang, Rui Li, Yan Cao, Yuhan Zhang, Jiewei Lai, Yongsong Zhou, Hongyu Zheng, Xinru Gao, Cheng Yu, Liling Shi, Mengqin Yuan, Honglong Li, Xiaoqiong Huang, Chaoyu Chen, Jialin Zhang, Wenxiong Pan, Alejandro F. Frangi, Guangzhi He, Xin Yang, Yi Xiong, Linliang Yin, Xuedong Deng, Dong Ni2026-03-09🤖 cs.AI

AV-Unified: A Unified Framework for Audio-visual Scene Understanding

この論文は、イベント局所化やセグメンテーションなど個別に研究されてきた多様な音声・視覚タスクを離散トークン列に変換して統一し、マルチスケール時空間知覚ネットワークとクロスモーダルガイダンスを組み合わせた「AV-Unified」と呼ばれる統合フレームワークを提案し、複雑な音声・視覚シーンの包括的理解を実現するものです。

Guangyao Li, Xin Wang, Wenwu Zhu2026-03-09💻 cs

SurgFormer: Scalable Learning of Organ Deformation with Resection Support and Real-Time Inference

本論文は、XFEM による切除条件付き変形予測を含む手術シミュレーションにおいて、高忠実度ソルバーの計算コストを回避しつつ、マルチ解像度ゲート付きトランスフォーマー「SurgFormer」を用いて大規模メッシュ上の組織変形をリアルタイムかつ高精度に推定する手法を提案し、関連するデータセットも公開している。

Ashkan Shahbazi, Elaheh Akbari, Kyvia Pereira, Jon S. Heiselman, Annie C. Benson, Garrison L. H. Johnston, Jie Ying Wu, Nabil Simaan, Michael I. Miga, Soheil Kolouri2026-03-09💻 cs

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

本論文は、カメラ運動や物体の移動に伴う空間関係の継続的な再評価を必要とする egocentric 4D 推論タスクにおいて、タスク固有の認知構造に合わせた思考テンプレートと報酬関数を導入する二段階フレームワーク「EgoReasoner」を提案し、限られたデータ量で既存の大型モデルを大幅に上回る性能を達成したことを報告しています。

Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel2026-03-09💻 cs

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

本論文は、従来の対照学習に基づく視覚エンコーダの限界を克服し、テキスト専用の大規模言語モデルから初期化された「Penguin-Encoder」を採用することで、モデルの拡張に依存せずともリソース制約環境下で高精度な視覚言語理解を実現する軽量な VLM「Penguin-VL」を提案しています。

Boqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang2026-03-09💻 cs

SUREON: A Benchmark and Vision-Language-Model for Surgical Reasoning

本論文は、外科手術の意図や判断根拠を解説する学術動画から大規模なデータセット「SUREON」を構築し、これを用いてトレーニングされた視覚言語モデルが、従来の一般領域モデルを上回る手術推論能力を有することを示したものです。

Alejandra Perez, Anita Rau, Lee White, Busisiwe Mlambo, Chinedu Nwoye, Muhammad Abdullah Jamal, Omid Mohareri2026-03-09🤖 cs.AI

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

SCOPE は、既存の 3D セグメンテーション手法にプラグアンドプレイで統合可能なフレームワークとして、ベース学習段階の未ラベル背景領域から高信頼性の疑似インスタンスを抽出してプロトタイププールを構築し、新規カテゴリの少量サンプルと融合させることで、リトレーニングやパラメータ追加なしに少数ショット 3D セグメンテーションの性能を大幅に向上させつつ忘却を抑制する手法です。

Vishal Thengane, Zhaochong An, Tianjin Huang, Son Lam Phung, Abdesselam Bouzerdoum, Lu Yin, Na Zhao, Xiatian Zhu2026-03-09🤖 cs.LG

BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

この論文は、大規模言語モデル(LLM)の推論能力と鳥瞰図(BEV)表現の空間的一貫性を統合した「BEVLM」を提案し、これにより複雑な運転シナリオにおける推論精度と安全上の重要な状況におけるエンドツーエンドの走行性能を大幅に向上させることを示しています。

Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, Sihao Ding2026-03-09🤖 cs.AI

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

本論文は、テキスト、音声、画像の理解と生成を統合する初の「Omni-Diffusion」と呼ばれるマルチモーダルモデルを提案し、従来の自己回帰アーキテクチャに代わり、マスクベースの離散拡散モデルを基盤として用いることで、既存のシステムと同等かそれ以上の性能を達成することを示しています。

Lijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu2026-03-09💻 cs

Multimodal Large Language Models as Image Classifiers

この論文は、マルチモーダル大規模言語モデル(MLLM)の画像分類性能が評価プロトコルの欠陥やアノテーションの質に大きく依存しており、これらの問題を修正することで教師ありモデルとの性能差が縮小し、MLLM が大規模データセットの作成支援にも有効であることを示しています。

Nikita Kisel, Illia Volkov, Klara Janouskova, Jiri Matas2026-03-09💻 cs

Motion Illusions Generated Using Predictive Neural Networks Also Fool Humans

この論文は、動画予測ニューラルネットワークを用いて新たな視覚運動錯覚を生成するモデル(EIGen)を開発し、人間も同様に錯覚することを確認することで、錯覚が脳の予測機能に起因する可能性を示し、人工知能研究において生物の「意図的な失敗」を模倣する価値を提唱しています。

Lana Sinapayen, Eiji Watanabe2026-03-06💻 cs

Seeing Through Uncertainty: A Free-Energy Approach for Real-Time Perceptual Adaptation in Robust Visual Navigation

本論文は、生物の知覚適応を模倣し、予測誤差とベイズ的驚きという自由エネルギー原理の構成要素を統合した「FEP-Nav」と呼ばれるフレームワークを提案し、勾配ベースの更新なしにリアルタイムで知覚を適応させることで、ノイズや欠損のある環境下でもロボットが堅牢に視覚ナビゲーションを遂行できることを示しています。

Maytus Piriyajitakonkij, Rishabh Dev Yadav, Mingfei Sun + 2 more2026-03-06💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

本論文は、既存のテキストベースの 3D 編集手法が抱える一貫性の欠如という課題を解決するため、拡散モデルのスコア歪みサンプリング(SDS)を編集タスク向けに改良した「SDS-E」を導入し、指示に基づき元のアバターの形状を維持しつつ高品質な 3D 人間のテクスチャ編集を実現する「InstructHumans」フレームワークを提案するものです。

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

本論文は、ハイブリッドウィンドウアテンションや報酬バックプロパゲーション、トークン長を考慮した学習戦略などの新技術を導入し、生成速度と画質を両立させた高性能な動画生成フレームワーク「EasyAnimate」を提案し、VBench リーダーボードおよび人間評価において最先端の性能を達成したことを報告しています。

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs