cs 件の論文 | Gist.Science

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

本論文は、拡散 MRI 線維路追跡の登録とクラスタリングという 2 つのタスクを、共有潜在埋め込み空間と確率的推論を用いた単一の最適化枠組み「TractoRC」で統合的に学習し、相互補完的な情報活用によって両タスクの性能を大幅に向上させることを提案しています。

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs

World2Act: Latent Action Post-Training via Skill-Compositional World Models

本論文は、ピクセル依存を減らしタスク長に柔軟に対応するスキル合成型世界モデルを導入することで、視覚言語動作（VLA）ポリシーの汎化性能を大幅に向上させるポストトレーニングフレームワーク「World2Act」を提案し、実世界での成功率向上を実証したものである。

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

本論文は、有界次数および有界ツリー長を持つグラフにおいて、最短経路距離を返すオラクルを用いた辺の再構成問題を、決定論的アルゴリズムで $O(n \log n)$ クエリで解決し、既存の最良のアルゴリズムを $\log n$ 因子だけ改善するとともに、有界弦性グラフに対する既知の下限と一致することを示しています。

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

本論文は、リソース制約のあるマルチロボットシステムにおいて、オフラインおよびオンライン強化学習を組み合わせるハイブリッド戦略「COHORT」を提案し、大規模 DNN の推論を効率的に分散実行することで、バッテリー消費の削減と GPU 利用率の向上、およびリアルタイム制約の厳守を実現したことを報告しています。

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

この論文は、極端な遅延や高損失、頻繁な切断といった宇宙環境の課題に対処するため、暗号化フローの接続分割を可能にする「非透過型セキュアプロキシ（NTSP）」アーキテクチャに基づき、帯域幅の安定利用と低遅延の誤り訂正を組み合わせた新しいセキュアな転送加速戦略「PEPspace」を提案し、地球 - 月間のシナリオにおいて従来の TCP/QUIC や既存の性能向上プロキシを上回る高いスループットと安定性を実証したものである。

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

本論文は、基盤モデルと軽量モデルを非同期に協調させることでエッジデバイスでのリアルタイム推論を可能にし、パラメータ数を大幅に削減しながら高精度な単眼深度推定を実現する「AsyncMDE」を提案しています。

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

この論文は、言語モデルの意味的理解と拡散モデルの生成能力を統合し、構造化されたシーン表現からメタアクションを推論して事前軌道を作成し、それを拡散プロセスで物理的に妥当な軌道に洗練させる「KnowDiffuser」という新しい知識誘導型運動計画フレームワークを提案し、nuPlan ベンチマークにおいて既存の計画手法を上回る性能を実証したものである。

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

本論文は、FAST による自動キーフレーム抽出と条件付きフローマッチングに基づく SignSparK を提案し、4 言語にまたがる大規模な多言語手話生成において、自然で流暢かつ高忠実度なアバター生成を実現する新たな最先端を確立するものである。

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

本論文は、動画生成モデルの潜在的な物理的・時空間構造をロボット制御に活用する「DiT4DiT」を提案し、動画生成プロセスから抽出した特徴を行動予測に統合することで、従来の手法よりもはるかに少ないデータで高い成功率と汎化性能を実現する新しいロボット制御パラダイムを示しています。

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

この論文は、ヘーゲルの承認論とフロイトの精神分析を基盤とした AI 指導システムと、AI 自身が論文を執筆・評価する「vibe scholarship」という反射的アプローチを提案し、承認を強化したプロンプトがモデルに依存せず指導パフォーマンスを大幅に向上させることを実証しています。

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

本論文は、構造光を用いた色ばらつきのある物体の高精度 3 次元再構成を可能にするため、追加のハードウェアや複数回の露光を必要とせず、光学系の横色収差を補正しポアソン・ガウスノイズモデルに基づく最小分散推定で RGB 各チャネルの位相データを適応的に融合する「LCAMV」という手法を提案し、従来法と比較して深度誤差を最大 43.6% 低減する効果を実証したものである。

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

本論文は、学習された意図推定、シーングラフに基づくタスク計画、文脈に応じた運動支援を統合した二腕遠隔操作システム「SUBTA」を提案し、ユーザー研究を通じて、従来の遠隔操作や運動支援のみの手法と比較して、位置・姿勢の精度向上と精神的負荷の低減を実現することを示しています。

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

この論文は、地理的推論を静的な認識からインタラクティブな探索へと転換する初のオープンアクセスグローバル位置特定ベンチマーク「WanderBench」と、推論を身体動作と連動させて不確実性を能動的に低減するフレームワーク「GeoAoT」を提案し、大規模マルチモーダルモデルの位置特定能力を飛躍的に向上させたことを報告しています。

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

本論文は、XR 環境における複雑な音源を分離し、音声と視覚の手がかりを統合したリアルタイムシステム「MoXaRt」を提案し、その有効性が聴解力の向上と認知的負荷の軽減を通じて実証されたことを示しています。

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

Vision-Language-Action (VLA) モデルの推論遅延を解消するため、DepthCache は学習不要で深度情報を活用して視覚トークンを圧縮し、近接作業領域の精度を維持しつつ推論速度を最大 1.28 倍向上させるフレームワークを提案しています。

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

この論文は、拡散モデルを用いて生成した対照的画像から視覚誘発性ハルシネーションの低ランク部分空間を特定し、推論時に中間隠れ状態をその部分空間から射影することで、学習不要で大規模視覚言語モデルのハルシネーションを抑制する「CIPHER」という手法を提案しています。

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

従来の高コストなソフトウェア検証から、システムが少数の要因に支配される「影響の希薄性」を利用したモデルフリーの探索手法「EZR」への転換を提案し、わずか 32 回の試行でピーク性能の 90% を達成する効率的なアプローチを提示しています。

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

本論文は、壁や道路など 9 種類の表面にまたがる約 78,000 枚の画像を統合・再注釈した大規模な構造物損傷検出用データセット「StructDamage」を提案し、多様な深層学習モデルによる高い分類精度を実証することで、構造物の損傷検出における汎用性と再現性の向上に貢献するものです。

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

本論文は、質量分析イメージング（MSI）のデータ処理において、既存手法の課題を克服し、空間的・スペクトル的情報を活用した自己教師あり学習ニューラルネットワークと専門家の注釈に基づく評価手法を提案することで、より一貫性のあるピーク抽出と評価を実現するものである。

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

既存のベンチマークが抱える合成データ依存や評価指標の限界を克服するため、4 つの実践的シナリオと 9 言語を網羅し、翻訳品質からクロスモーダルな整合性まで多面的に評価できる新しい「IMTBench」を提案し、現状のモデル間には大きな性能差があることを示した。

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

← 前へ次へ →