Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

本論文は、軽量な 2 自由度アームを搭載した不安定な空飛ぶマニピュレータに対し、強化学習を用いて生成された指令を非線形制御器で追従させることで、外部擾乱や重負荷下でも厘米・度レベルの高精度なエンドエフェクタ姿勢制御を実現し、接触を伴う複雑な空中操作を可能にしたことを報告するものである。

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

本論文は、視覚的リアリズムは向上したものの社会的推論に課題を残す現在の動画生成モデルを評価するため、発達・社会心理学に基づいた最初のベンチマーク「SVBench」を提案し、最先端モデルの社会的行動生成能力に明らかな限界があることを示しています。

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

本論文は、ラベル付きデータが不足する手術ロボット分野において、未ラベルの手術動画と世界モデルを活用して合成データ(SATA データセットと疑似運動学)を生成し、実機での自律手術タスクの精度を飛躍的に向上させる新しい手法を提案しています。

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

本論文は、言語バイアスに起因する大規模視覚言語モデルの物体幻覚を軽減するため、事実的なテキスト意味に基づく一般化されたアクティベーション制御とクエリ適応型オフセット最適化を組み合わせた「AFTER」という手法を提案し、既存のベンチマークで幻覚を大幅に削減する効果を実証しています。

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

この論文は、Implicit Neural Representations (INR) の解像度非依存性を活用し、OCT 画像の大きなスライス間隔による欠損を補完する補間手法と解像度に依存しない網膜アトラスの 2 つのフレームワークを提案することで、網膜 OCT ボリュームの高密度な 3 次元解析を可能にするものです。

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING は、明示的な幾何プリミティブとニューラルガウスを緩く結合したハイブリッド表現を採用することで、高品質なレンダリングと正確な幾何形状の両立を実現し、リアルタイムなストリーミング 3 次元復元を可能にする効率的なフレームワークです。

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

本論文は、オンラインレビューの評価順序(評価先かレビュー先か)が、サービス品質や製品属性に応じて消費者評価の極端化を促進し、そのメカニズムが感情的ヒューリスティックと認知的努力の直列的媒介を通じて生じることを、3 つの実験と Yelp などの大規模二次データ分析により実証したものである。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth は、アテンションエントロピーに基づく適応的平滑化を KV キャッシュに適用することで、追加の学習なしにマルチモーダル大規模言語モデルの視覚的ハルシネーションを効果的に軽減し、精度と再現率を同時に向上させる推論時のプラグアンドプレイ手法です。

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

本論文は、ロボット工学における「退屈・汚い・危険(DDD)」な作業という概念の歴史的・実証的検討を通じて、その明確な定義や具体例の欠如を指摘し、社会科学の知見を踏まえた新たな枠組みを提案することで、ロボット技術が人間の労働に与える影響をより深く理解する道筋を示しています。

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ は、特定のデータ条件に依存せず再学習が不要なトレーニングフリーの汎用仮想試着フレームワークであり、構造化された衣類変形、主姿勢ガイダンス、連続境界縫合を統合することで、単一または複数の人物・衣類、さらにはアニメキャラクターに至るまで、多様な状況と拡散モデルにおいて最先端の性能を実現します。

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

本論文は、医療画像のアクティブラーニングにおいて、ゼロショット推論を行うビジョン・ランゲージモデルの過信を解消し、解釈性とラベル効率を向上させるため、テキスト - 画像の類似性を証拠として再解釈し、ディリクレ分布を用いて欠如と矛盾を定量化する「Similarity-as-Evidence(SaE)」フレームワークを提案し、10 の公開データセットで最先端の性能を達成したことを示しています。

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

この論文は、画像から導出された領域における PDE 離散化の安定性と並列性を向上させるため、境界と交差する三角形のみを局所的に再三角化し、決定論的なシンボル検索テーブルを用いてスリバー要素を抑制するテンプレート駆動型の構造化ビットマップからメッシュへの三角化フレームワークを提案するものである。

Wei Feng, Haiyong Zheng2026-03-12💻 cs

SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

本論文は、筋骨格モデルに基づいて既存の姿勢データセットに解剖学的に整合した 3 次元脊椎キーポイントを生成する生体力学意識型シミュレーションフレームワークと、自然な全身運動における脊椎レベルの 3 次元注釈を備えた初のオープンデータセット「SIMSPINE」を提案し、コンピュータビジョンと生体力学の架け橋となる統一ベンチマークを確立するものである。

Muhammad Saif Ullah Khan, Didier Stricker2026-03-12💻 cs

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

本論文は、CLIP などの VLM が最適化するモダリティ間距離との一貫性を欠く既存の OOD 検出手法の課題を解決するため、負のテキスト選択と視覚情報のテキスト空間への変換を通じてモダリティ間距離の一貫性を追求する新しいフレームワーク「InterNeg」を提案し、ImageNet や Near-OOD などの大規模ベンチマークで最先端の性能を達成したことを示しています。

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang2026-03-12💻 cs

Kraken: Higher-order EM Side-Channel Attacks on DNNs in Near and Far Field

この論文は、従来の CUDA コアだけでなく、現代の GPU で高性能を実現するテンソルコアに対しても近距離の物理的サイドチャネル攻撃を適用し、さらに 100cm 先の遠距離からでもガラス越しに LLM の重みやハイパーパラメータが漏洩する可能性を実証した Kraken と呼ばれる高次 EM サイドチャネル攻撃手法を提案するものです。

Peter Horvath, Ilia Shumailov, Lukasz Chmielewski, Lejla Batina, Yuval Yarom2026-03-12💻 cs