cs 件の論文 | Gist.Science

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

本論文は、手術ビデオ理解における組織やタスクの多様性という課題に対処するため、言語ガイダンスを用いたチャネル選択とハイパーアグリゲーションを導入し、ロボット支援低侵襲手術のセグメンテーションと深度推定を統合的に学習するマルチタスク連合学習フレームワーク「SurgFed」を提案し、複数の公開データセットで最先端の性能を達成したことを示しています。

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

EmbC-Test: How to Speed Up Embedded Software Testing Using LLMs and RAG

この論文は、プロジェクト固有のアーティファクトに基づいて大規模言語モデルを強化する RAG パイプラインを提案し、組み込み C ソフトウェアのテスト生成において手動作業に比べ最大 66% の時間削減と高い精度を実現することを示しています。

Maximilian Harnot, Sebastian Komarnicki, Michal Polok, Timo Oksanen2026-03-11💻 cs

Avoiding Big Integers: Parallel Multimodular Algebraic Verification of Arithmetic Circuits

本論文は、任意精度演算のオーバーヘッドを回避し、異なる素数法の下で並列計算を行うマルチモジュラー手法と多項式推論を組み合わせることで、大規模オペランドを持つ算術回路の語レベル検証を効率的に行うハイブリッド手法「TalisMan2.0」を提案し、その有効性を乗算器ベンチマークで実証したものである。

Clemens Hofstadler, Daniela Kaufmann, Chen Chen2026-03-11💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

本論文は、テキスト記述全体を探索の指針とする価値マップと、視点依存の3D 空間推論による候補検証を組み合わせることで、学習なしに複雑な 3D 環境におけるインスタンスナビゲーションの最先端性能を達成する「Context-Nav」を提案しています。

Won Shik Jang, Ue-Hwan Kim2026-03-11💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

本論文は、自動運転における視覚言語モデル（VLM）が応答の一貫性や時間的推論の欠如により信頼性に課題を抱えていることを指摘し、未来のシーン推論を評価する新たなベンチマーク「FutureVQA」と、時間ラベルを必要としない自己教師ありチューニング手法を提案するものである。

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain Pagani2026-03-11💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

この論文は、現実世界の非マルコフ的かつ長期の操作タスクを評価するための新しいベンチマーク「RuleSafe」を提案し、過去の状態を離散潜在トークンに符号化する「VQ-Memory」を導入することで、既存の Vision-Language-Action モデルの長期計画能力と汎化性能を向上させる手法を提示しています。

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai Chenjia2026-03-11💻 cs

RESBev: Making BEV Perception More Robust

本論文では、センサー劣化や敵対的攻撃といった現実世界の課題に対処するため、既存の BEV 知覚モデルにプラグアンドプレイで適用可能であり、潜在世界モデルを用いて汚染された観測からクリーンな特徴を予測・復元する強健な手法「RESBev」を提案し、nuScenes データセットでの実験によりその有効性を示しています。

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng Wang2026-03-11💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

DCAU-Net は、2 つの独立した softmax 注意マップの差分を計算して識別構造を強調し、計算複雑度を低減する「差分クロス注意（DCA）」と、スキップ接続とアップサンプリング経路からの特徴を適応的に再較正する「チャネル・空間特徴融合（CSFF）」を導入することで、医療画像セグメンテーションの精度と頑健性を向上させる新しいフレームワークを提案しています。

Yanxin Li, Hui Wan, Libin Lan2026-03-11💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

本論文は、大規模言語モデルを活用して指導内容の意味に即した音声とジェスチャーを動的に生成する教育エージェント手法を提案し、VR 環境での実験により、学習者の学習効果や関与度の向上、疲労感の軽減、そして人間らしさや社会的臨場感の増大が確認されたことを報告しています。

Ninghao Wan, Jiarun Song, Fuzheng Yang2026-03-11💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

この論文は、大規模なマルチモーダル交差データに依存せず、既存の統一モデルにグループ相対方策最適化（GRPO）を拡張した強化学習アプローチを導入することで、視覚的物語や段階的推論などのタスクにおける高品質なマルチモーダル交差生成を実現する手法を提案しています。

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li Zhang2026-03-11💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

この論文は、動的かつ人間が関与する環境における Embodied Question Answering（EQA）の課題を解決するため、新しいデータセット「DynHiL-EQA」と、曖昧な観測の検証と情報豊富な証拠の選択的保持により推論効率と頑健性を両立させるトレーニング不要のフレームワーク「DIVRR」を提案しています。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong Wang2026-03-11💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

この論文は、記号エンコーダによる構造化プリミティブの抽出、記号ソルバによるデータ効率の高い動作シーケンス生成、およびオンライン強化学習による広範な探索を統合したニューロ記号型視覚言語動作モデル（NS-VLA）を提案し、ロボット操作タスクにおいて従来の手法を上回るデータ効率、ゼロショット汎化能力、および探索性能を実証しています。

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo2026-03-11💻 cs

Compartmentalization-Aware Automated Program Repair

この論文は、コンパートメント間インターフェースの脆弱性を特定するファズリング、コンパートメント化の文脈を考慮したパッチ生成、および検証を組み合わせた、LLM 駆動の自動化プログラム修正フレームワークの設計と初期結果を報告するものです。

Jia Hu, Youcheng Sun, Pierre Olivier2026-03-11💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

本論文は、共通の数理モデルとハードウェア条件下で代表的な時間飛行非視界（ToF NLOS）撮像手法を包括的に比較検討し、それらの理論的・実験的側面における類似点と相違点を明らかにするとともに、将来の研究における客観的な手法比較のための基準となることを目指しています。

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas Velten2026-03-11💻 cs

Enabling Multi-Client Authorization in Dynamic SSE

本論文は、クラウド上の暗号化データに対して、属性ベースのアクセス制御を備え、再暗号化や大量の対話なしで動的な更新と多クライアント間のきめ細かい権限管理を可能にする新しい検索可能暗号方式「MASSE」を提案し、その安全性と実用性を証明するものである。

Seydina Ousmane Diallo, Maryline Laurent, Nesrine Kaaniche2026-03-11💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

本論文は、エントロピー誘導モンテカルロ木探索と視覚的幻覚注入によって構築された大規模なプロセス監視データセット「Geo-PRM-2M」と、それを活用したプロセス報酬モデル「GeoPRM」および強化学習アルゴリズム「Process-Aware Tree-GRPO」を提案し、リモートセンシング分野における推論の視覚的忠実性とテスト時スケーリングを飛躍的に向上させた「GeoSolver」フレームワークを紹介するものである。

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo Yang2026-03-11💻 cs

On the Cost of Evolving Task Specialization in Multi-Robot Systems

本研究は、限られた評価予算下でのロボット群の採餌シナリオにおける進化最適化を通じて、タスク特化型制御が汎用型制御よりも効率的な協力を実現できず、むしろ性能が低下することを示し、リソース制約下ではタスク特化が必ずしも効率向上をもたらさないことを明らかにしています。

Paolo Leopardi, Heiko Hamann, Jonas Kuckling, Tanja Katharina Kaiser2026-03-11💻 cs

Trajectory Optimization for Self-Wrap-Aware Cable-Towed Planar Object Manipulation under Implicit Tension Constraints

この論文は、ケーブルの自己巻き付きを明示的な意思決定ではなく状態進化を通じて誘発し、必要な場合にのみトルク伝達経路を動的に利用することで、従来の保守的な解法を克服する、張力制約を暗黙的に扱うケーブル牽引平面物体操作のための軌道最適化手法を提案しています。

Yu Li, Amin Fakhari, Hamid Sadeghian2026-03-11💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

本論文は、有界導出深さの存在則集合が有限制御性を満たすという未解決の予想に対し、その反例となり得る普遍モデルがループクエリを導出しない限り任意に大きなトーナメント（有向完全グラフ）を含むことができないことを示すことで、予想の肯定的解決に向けた重要な一歩を踏み出したものである。

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël Thomazo2026-03-11💻 cs

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

本論文は、視覚情報が遮蔽される精密組立の最終工程において、視覚と触覚の双方向注意機構、視覚遮蔽に応じた触覚依存度の動的調整、および触覚再構成目的を組み合わせた「ReTac-ACT」という新しい模倣学習方策を提案し、NIST 組立タスクボード M1 ベンチマークで従来の視覚のみの手法や一般化された基線手法を大幅に上回る成功率を達成したことを報告しています。

Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin Fang2026-03-11💻 cs

← 前へ次へ →