cs 件の論文 | Gist.Science

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

この論文は、学習ベースのロボット制御に必要な高品質な実世界データを収集するために、5 分以内のセットアップで非専門家でも直感的に操作でき、あらゆる環境で利用可能な携帯型テレオペレーションシステム「TRIP-Bag」を提案し、その実用性と収集データの品質を検証したものです。

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

Flash-KMeans: Fast and Memory-Efficient Exact K-Means

本論文は、距離行列の中間メモリ確保やアトミック操作による競合といった GPU 上のボトルネックを解消する「FlashAssign」と「sort-inverse update」といったカーネルレベルの革新を導入し、NVIDIA H200 GPU 上で既存ライブラリを最大 200 倍以上高速化するオンライン対応の高速かつメモリ効率的な K-means アルゴリズム「Flash-KMeans」を提案しています。

Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Xiaoze Fan, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Kurt Keutzer, Song Han, Chenfeng Xu, Ion StoicaWed, 11 Ma💻 cs

HelixTrack: Event-Based Tracking and RPM Estimation of Propeller-like Objects

本論文は、ドローンや回転機械の安全な知覚のために、従来のフレームベースやイベントベースの追跡手法が苦手とするプロペラ状物体の高速な周期性運動を、イベントカメラを用いた「HelixTrack」という手法でリアルタイムかつマイクロ秒レベルの遅延で追跡・回転数推定し、その評価のために新規データセット「TQE」を公開したことを提案するものです。

Radim Spetlik, Michal Pliska, Vojtech Vrba, Jiri MatasWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

この論文は、従来の MORL アルゴリズムが抱える大規模並列化の課題を解決し、GPU ネイティブの高速アルゴリズム「MORLAX」と GPU 加速環境「MO-Playground」を導入することで、複雑な多目的ロボット制御タスクにおけるパレート最適方策の探索を大幅に高速化し、その有効性を BRUCE 型ヒューマノイドロボットの歩行制御などを通じて実証したものである。

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

本論文は、従来の潜在空間に依存せず DINOv2 の密な視覚特徴空間でナビゲーションダイナミクスをモデル化し、CDiT-DH と時間駆動ゲート機構を用いて構造安定性と動作精度を向上させた「RAE-NWM」を提案するものである。

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

この論文は、AI 生成画像検出において事前学習された意味的知識への依存（意味的フォールバック）が汎化性能を阻害する要因であることを特定し、幾何学的制約を用いて意味成分を明示的に除去するパラメータフリーのモジュール「Geometric Semantic Decoupling (GSD)」を提案することで、未見の生成手法や異なるドメインに対する検出器の汎化性能を大幅に向上させることを示しています。

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

高解像度入力と軽量なリアルタイム推論の両立という課題に対し、本論文はインスタンスセグメンテーションを極座標表現による疎な頂点回帰として再定式化する「Poly-DETR」を提案し、高密度なピクセル単位のマスク予測への依存を排除することで、MS COCO などのデータセットにおいて既存手法を上回る精度と大幅なメモリ削減を実現しています。

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

この論文は、Return-Oriented Programming に倣って複数の無害な視覚要素を連鎖させる「Reasoning-Oriented Programming」という新たな攻撃パラダイムを提案し、大規模視覚言語モデルの安全性アライメントを回避する自動化フレームワーク「\tool{}」を開発したことを報告しています。

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng ZhangWed, 11 Ma💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

この論文は、人間の記憶における「親しみ（Familiarity）」と「想起（Recollection）」の二重プロセスを模倣し、親しみ度の不確実性に基づいて適応的に検索経路を切り替える新たなメカニズム「RF-Mem」を提案することで、大規模言語モデルのパーソナライズにおける記憶検索の精度とスケーラビリティを向上させることを目指しています。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

本論文は、連合自動運転車（CAV）のプラトーン化を「プラトーン・アズ・ア・サービス（PlaaS）」として提供し、プラトーンサービス提供者と利用者をリーダーとフォロワーとするスタッケルベルクゲームとして定式化することで、政府補助金や速度条件などの要因を分析し、持続可能な交通システムにおける最適な価格設定と環境負荷低減の枠組みを提案しています。

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand AbrahambWed, 11 Ma💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

この論文は、画像やテキストなど異種の特徴を持つマルチモーダルグラフにおいて、静的な構造や密なアテンションに依存する既存手法の限界を克服し、モダリティ固有の擬似ノードと動的な情報経路を活用することで、適応的かつ効率的なグラフ表現学習を実現する「DiP」と呼ばれる新しいフレームワークを提案し、複数のベンチマークで優れた性能を示したことを述べています。

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

本論文は、ウェブ動画から大規模な視覚言語ナビゲーション学習フレームワークを構築し、3D 復元を不要とする隐幾何表現を導入することで、実世界環境でのナビゲーション性能と汎用性を大幅に向上させたことを報告しています。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

本論文は、VR 会議におけるエンドツーエンド遅延が、ユーザーの相互作用の流暢さ（知覚的側面）と社会的臨場感（認知的側面）に与える影響を、従来のビデオ会議と比較した主観実験を通じて分析し、その関係を解明することで没入型仮想環境のシステム最適化に貢献する知見を提供するものである。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

On the Online Weighted Non-Crossing Matching Problem

この論文は、ユークリッド平面上のオンライン重み付き非交差マッチング問題について、決定論的アルゴリズムの限界、重み制限下およびランダム化アルゴリズムによる定数競争比の達成可能性、取り消しや共線点などのバリエーション、および最適解を得るためのアドバイス複雑性の改善された限界を研究したものである。

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis PankratovWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

この論文は、自由エネルギー原理に基づきタスク固有の「知覚的相互作用流暢さ（PIF）」の閾値（JND）を分類し、ネットワーク遅延や停止の影響を評価するタスク対応型モデル「TPIFM」を提案するものです。

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

本論文は、産業分野におけるテキストから 3D 生成の課題であるドメイン適応と幾何学的推論の欠如を解決するため、カテゴリ間干渉を排除するマルチエキスパート LoRA 集合体と、高次構造依存関係を捉えるクロスビューハイパーグラフ幾何強化を導入した「ForgeDreamer」という新たなフレームワークを提案しています。

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

本論文は、複数の参加者が混合現実（MR）環境で触れ合うことで、菌根菌ネットワークの相互依存関係を身体的に体験し、加速する個人主義への批判的視点から「菌類の認識論」に基づく新たな倫理的・美的体験を提示する「FungiSync」という共同 MR 作品を紹介するものである。

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu LinWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

この論文は、ガウシアンリストの短縮とエントロピー制約を導入することで、3D ガウシアンスプラッティングの学習効率を大幅に向上させつつ、レンダリング品質を維持する新たな手法を提案しています。

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

この論文は、影、急激な動き、マスクの欠陥といった現実世界の不完美な条件下でも、MUSE、DA-Seg、カリキュラム学習に基づく 2 段階トレーニングという 3 つの主要な設計により、時間的安定性と視覚的一貫性を維持しながら物体を安定して除去する新しいフレームワーク「SVOR」を提案し、動画物体除去を理想的な環境から実世界応用へと進展させるものです。

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Learning Convex Decomposition via Feature Fields

この論文は、古典的な凸性の定義に基づく自己教師ありの幾何学的目的関数を用いて連続的な特徴場を学習し、物理シミュレーションの衝突検出などに応用可能な高品質な凸分解を、メッシュやCAD モデル、ガウシアンスプラットなど多様な 3D 表現に対して汎用的に実行できる最初のフィードフォワードモデルを提案するものである。

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas SharpWed, 11 Ma💻 cs

← 前へ次へ →