Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

この論文は、ラベル付けされていない未分割の実演データから記号抽象と目標指向のスキルを同時に学習し、記号プランナーとコンプライアント制御を組み合わせることで、動的環境におけるリアルタイムな失敗回復と構成性汎用化を実現する「SymSkill」という統合フレームワークを提案しています。

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

この論文は、企業開示文書から LLM を用いて文脈を考慮した指標の変化を抽出・定量化する新たなフレームワークを提案し、従来の手法と比較して 2 倍以上のリスク調整済みアルファを達成する高い予測力を示したことを報告しています。

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

この論文は、ナビゲーションタスクにおける従来の経路模倣から「意思決定の理解」へのパラダイム転換を提案し、新たなデータセットと報酬関数を用いて大規模視覚言語モデルの汎化性能と実世界ロボットでのナビゲーション能力を飛躍的に向上させた CompassNav を紹介しています。

LinFeng Li, Jian Zhao, Yuan Xie, Xin Tan, Xuelong Li2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

この論文は、スケッチの抽象性と疎性を踏まえ、スケッチ・ストローク・点の 3 段階の表現を理論的に検証し、疎グラフと密グラフを統合した「SDGraph」という深層学習アーキテクチャを提案することで、分類・検索・生成タスクにおいて最先端の性能を達成したことを報告しています。

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

本論文は、メトリック深度事前知識を最適化フレームワークに直接組み込むことで、大規模シーンにおいて COLMAP に比べて最大約 40 倍の高速化を実現しつつ、既存の古典的および学習ベースの手法と同等の精度を維持する、完全な GPU 基盤のグローバル SfM システム「InstantSfM」を提案するものである。

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

UltraGen: Efficient Ultra-High-Resolution Image Generation with Hierarchical Local Attention

本論文は、ローカルウィンドウに基づく階層的注意機構と低解像度のグローバルガイダンスを組み合わせることで、従来の拡散モデルの計算コストの制約を克服し、10 倍以上の高速化と低メモリ消費を実現しながら 8K 超の超高分解能画像生成を可能にする「UltraGen」という新規フレームワークを提案しています。

Yuyao Zhang, Yu-Wing Tai2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

本論文は、3D ガウススプラッティング表現とマルチモーダル大規模言語モデルエージェントを組み合わせ、曖昧な指示にも対応可能なオープンワールドでの 3D 推論セグメンテーションおよび編集タスクを実現する「REALM」フレームワークを提案し、新規な「Global-to-Local Spatial Grounding」戦略によって高い精度と汎用性を達成したことを報告しています。

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Opinion Maximization in Social Networks by Modifying Internal Opinions

本論文は、従来の行列逆行列計算の計算コスト高という課題を克服し、サンプリングに基づく効率的なアルゴリズムと、大規模ネットワークにおいても最適解を高精度に特定する非同期決定論的アルゴリズムを提案することで、ソーシャルネットワーク内の内部意見の調整による世論最大化を実現する手法を確立した。

Gengyu Wang, Runze Zhang, Zhongzhi Zhang2026-03-12💻 cs

Compiler.next: A Search-Based Compiler to Power the AI-Native Future of Software Engineering

本論文は、人間の意図を最適解としてソフトウェアに自動変換する探索型コンパイラ「Compiler.next」を提案し、認知アーキテクチャやモデル構成の動的最適化を通じて、AI 原生のソフトウェア開発を民主化し、Software Engineering 3.0 の実現を可能にする新たなパラダイムを提示しています。

Filipe R. Cogo, Gustavo A. Oliva, Ahmed E. Hassan2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

本論文は、推薦システムにおけるアイテムの長期尾部問題に対処するため、協調情報のノイズを適応的に除去し、行動とコンテンツの整合性を最適化するとともに行動ごとの重みを動的に学習する新しいフレームワーク「ADC-SID」を提案し、その有効性を示したものである。

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

本論文は、大規模言語モデルを中核とし、53 種類の専門ツールと 23 種類の画像モダリティを動的に統合する「EyeAgent」という新しい自律型 AI フレームワークを提案し、眼科診断の精度向上や医師との協働による報告品質の改善など、臨床現場での信頼性と汎用性を実証したものである。

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

Evaluation of Audio Compression Codecs

この論文は、音声圧縮コーデックの選択において圧縮効率だけでなく聴覚的な知覚品質も考慮すべきであると主張し、複数のコーデックを圧縮性能、可視化、および PEAQ スコアを用いて評価することで、デジタル音声圧縮技術が知覚品質に与える影響を明らかにし、コーデック選定への示唆を提供しています。

Thien T. Duong, Jan P. Springer2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

本論文は、異なるタスクに特化した Vision-Language-Action (VLA) モデルを直接マージしても失敗する課題に対し、VLM における LoRA アダプターの方向性不一致とアクション専門家の層間依存性を解消する新たなアーキテクチャ「MergeVLA」を提案し、単一モデルで複数のスキルを統合的に習得・実行可能にしたことを示しています。

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

この論文は、複雑な実世界画像のベクトル化において視覚忠実度と編集性を向上させるため、明暗のコントラストを重視した「Clair Obscur」の原理に基づき、アルベド、陰影、光の層を統一されたベクトル表現で分解する新しいフレームワーク「COVec」を提案しています。

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

本論文は、強化学習における世界モデルの楽観的バイアスを解消し、対照的合成によって危険を正直に予測する「公平な世界モデル」を構築することで、安全違反を大幅に削減するエンドツーエンド自動運転の閉ループ強化学習フレームワーク「AD-R1」を提案しています。

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs