MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

本論文は、異なるタスクに特化した Vision-Language-Action (VLA) モデルを直接マージしても失敗する課題に対し、VLM における LoRA アダプターの方向性不一致とアクション専門家の層間依存性を解消する新たなアーキテクチャ「MergeVLA」を提案し、単一モデルで複数のスキルを統合的に習得・実行可能にしたことを示しています。

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

この論文は、複雑な実世界画像のベクトル化において視覚忠実度と編集性を向上させるため、明暗のコントラストを重視した「Clair Obscur」の原理に基づき、アルベド、陰影、光の層を統一されたベクトル表現で分解する新しいフレームワーク「COVec」を提案しています。

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

本論文は、強化学習における世界モデルの楽観的バイアスを解消し、対照的合成によって危険を正直に予測する「公平な世界モデル」を構築することで、安全違反を大幅に削減するエンドツーエンド自動運転の閉ループ強化学習フレームワーク「AD-R1」を提案しています。

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

本論文は、既存の静的な評価手法では捉えきれない動画生成モデルの時間的ダイナミクスに起因する安全リスクを特定するため、時間的意識を備えた自動レッドチームングフレームワーク「TEAR」を提案し、オープンソースおよび商用のテキストから動画へのモデルにおいて 80% 以上の攻撃成功率を達成したことを示しています。

Jiaming He, Guanyu Hou, Hongwei Li, Zhicong Huang, Kangjie Chen, Yi Yu, Wenbo Jiang, Guowen Xu, Tianwei Zhang2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

この論文は、単位円盤グラフおよび半径がtt種類である円盤グラフにおいて、確率的な手法を用いて最大クリークを近似的に解くアルゴリズムを提案し、それぞれほぼ線形時間およびパラメータ化近似スキームを実現したものである。

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

Global End-Effector Pose Control of an Underactuated Aerial Manipulator via Reinforcement Learning

本論文は、軽量な 2 自由度アームを搭載した不安定な空飛ぶマニピュレータに対し、強化学習を用いて生成された指令を非線形制御器で追従させることで、外部擾乱や重負荷下でも厘米・度レベルの高精度なエンドエフェクタ姿勢制御を実現し、接触を伴う複雑な空中操作を可能にしたことを報告するものである。

Shlok Deshmukh, Javier Alonso-Mora, Sihao Sun2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

本論文は、視覚的リアリズムは向上したものの社会的推論に課題を残す現在の動画生成モデルを評価するため、発達・社会心理学に基づいた最初のベンチマーク「SVBench」を提案し、最先端モデルの社会的行動生成能力に明らかな限界があることを示しています。

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

本論文は、ラベル付きデータが不足する手術ロボット分野において、未ラベルの手術動画と世界モデルを活用して合成データ(SATA データセットと疑似運動学)を生成し、実機での自律手術タスクの精度を飛躍的に向上させる新しい手法を提案しています。

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

本論文は、言語バイアスに起因する大規模視覚言語モデルの物体幻覚を軽減するため、事実的なテキスト意味に基づく一般化されたアクティベーション制御とクエリ適応型オフセット最適化を組み合わせた「AFTER」という手法を提案し、既存のベンチマークで幻覚を大幅に削減する効果を実証しています。

Tianbo Wang, Yuqing Ma, Kewei Liao + 4 more2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

この論文は、Implicit Neural Representations (INR) の解像度非依存性を活用し、OCT 画像の大きなスライス間隔による欠損を補完する補間手法と解像度に依存しない網膜アトラスの 2 つのフレームワークを提案することで、網膜 OCT ボリュームの高密度な 3 次元解析を可能にするものです。

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING は、明示的な幾何プリミティブとニューラルガウスを緩く結合したハイブリッド表現を採用することで、高品質なレンダリングと正確な幾何形状の両立を実現し、リアルタイムなストリーミング 3 次元復元を可能にする効率的なフレームワークです。

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

本論文は、オンラインレビューの評価順序(評価先かレビュー先か)が、サービス品質や製品属性に応じて消費者評価の極端化を促進し、そのメカニズムが感情的ヒューリスティックと認知的努力の直列的媒介を通じて生じることを、3 つの実験と Yelp などの大規模二次データ分析により実証したものである。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

KVSmooth は、アテンションエントロピーに基づく適応的平滑化を KV キャッシュに適用することで、追加の学習なしにマルチモーダル大規模言語モデルの視覚的ハルシネーションを効果的に軽減し、精度と再現率を同時に向上させる推論時のプラグアンドプレイ手法です。

Siyu Jiang, Feiyang Chen, Xiaojin Zhang, Kun He2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

本論文は、ロボット工学における「退屈・汚い・危険(DDD)」な作業という概念の歴史的・実証的検討を通じて、その明確な定義や具体例の欠如を指摘し、社会科学の知見を踏まえた新たな枠組みを提案することで、ロボット技術が人間の労働に与える影響をより深く理解する道筋を示しています。

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ は、特定のデータ条件に依存せず再学習が不要なトレーニングフリーの汎用仮想試着フレームワークであり、構造化された衣類変形、主姿勢ガイダンス、連続境界縫合を統合することで、単一または複数の人物・衣類、さらにはアニメキャラクターに至るまで、多様な状況と拡散モデルにおいて最先端の性能を実現します。

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs