Learning Transferable Sensor Models via Language-Informed Pretraining
本論文は、多様なセンサー設定に汎用可能な言語整合表現を学習するためのオープンソースフレームワーク「SLIP」を提案し、対照的アライメントとセンサー条件付きキャプション生成を統合することで、ゼロショット転移や信号の要約、質問応答などのタスクにおいて既存手法を上回る性能を実現したことを報告しています。
3570 件の論文
本論文は、多様なセンサー設定に汎用可能な言語整合表現を学習するためのオープンソースフレームワーク「SLIP」を提案し、対照的アライメントとセンサー条件付きキャプション生成を統合することで、ゼロショット転移や信号の要約、質問応答などのタスクにおいて既存手法を上回る性能を実現したことを報告しています。
本論文は、ABAW 10 番目の EXPR チャレンジ向けに、CLIP と Wav2Vec 2.0 を活用した事前学習モデル、時系列モデルである TCN、および双方向クロスアテンション融合モジュールを統合し、野外環境におけるロバストなマルチモーダル感情認識を実現するフレームワークを提案しています。
この論文は、人間の被験者実験の設計をマルチエージェント AI 環境へ体系的に変換する「NormCoRe」という新たな方法論的枠組みを提案し、公平性に関する規範的合意形成を研究するための基盤を提供するとともに、AI エージェントの規範的判断が基礎モデルや言語設定に敏感に依存し、人間の基準と異なる可能性があることを示しています。
この論文は、家庭環境における embodied agent の安全評価を目的とした新しいベンチマーク「HomeSafe-Bench」と、リアルタイムな安全性監視を実現する階層的な「HD-Guard」アーキテクチャを提案し、既存の VLM ベースの安全検出における課題と解決策を明らかにしています。
この論文は、米国労働安全衛生局(OSHA)や世界調和システム(GHS)の基準に基づき、実験室環境における危険特定や安全重視の推論を評価するための新しいマルチモーダルベンチマーク「LABSHIELD」を提案し、現在の多モーダル大規模言語モデルが専門的な実験室シナリオにおいて安全性に関する判断能力に大きな欠如があることを明らかにしています。
本論文は、従来の NLI ベースのモデルに加え、埋め込みモデルやリランカー、大規模言語モデルを含む多様なゼロショットテキスト分類アプローチを公平に評価するための包括的ベンチマーク「BTZSC」を提案し、最新の 8B パラメータのリランカーが最高性能を達成しつつ、埋め込みモデルが精度と遅延のバランスにおいて優位であることを示しています。
この論文は、クライアント数に依存せず少数の共有モデル(K 個)で多数のクライアントを効率的にパーソナライズする「Few-for-Many」最適化問題を定式化し、クラスタリングや補間などの既存手法よりも優れた性能を達成する新しいアルゴリズム「FedFew」を提案するものです。
本論文は、強化学習ファインチューニング(RFT)がタスク難易度内ではよく一般化し、連続学習や環境混合学習によって転移と忘却のバランスを改善できる一方で、環境やインターフェースが異なる未知の環境への転移は限定的であることを実証的に明らかにしています。
本論文は、サイバーフィジカルシステム(CPS)の複雑なモデリングを自動化し、モジュール性と使いやすさを重視したデータ駆動型の学習フレームワーク「Flowcean」を提案するものである。
本論文は、LLM との協働においてデザイナーが創造的代理権を失うリスクを指摘し、内省、技術理解、そして人間と技術の関係性の調整を通じて、デザイナーの創造的代理権を取り戻すための協働のあり方を提案しています。
本論文は、Girona AUV 向けに Stonefish シミュレータをマルチプロセッシング環境に統合し、PPO アルゴリズムを用いてシミュレーションで 90% 以上の成功率を達成した深層強化学習制御を、実機テストタンクでの実証実験を通じて「シミュレーションから現実」への適応に成功させたことを報告しています。
本論文は、XML タグを用いて機械翻訳とラベル投影を同時に行う新フレームワーク「LabelPigeon」を提案し、翻訳品質を損なうことなく低資源言語へのクロスリンガル転移を大幅に改善できることを実証しています。
この論文は、従来のソフトウェアおよびハードウェアの脆弱性を大規模言語モデル(LLM)固有のアルゴリズム的弱点と組み合わせることで、複合 AI システムの完全性や機密性を侵害する新たな攻撃手法「Cascade」を提案し、その攻撃プリミティブの体系化と防御戦略の基盤構築を論じています。
この論文は、文内や意味的に一貫した区間におけるアテンションサポートの安定性という観察に基づき、既存のモデルを再学習することなく推論コストを大幅に削減し、品質を維持しながらスループットを向上させるトレーニングフリーの「Slow-Fast Inference」フレームワークを提案しています。
本論文は、マルチモーダルエージェントがパラメータ更新なしに過去の軌跡から学習し、視覚的観察に基づいて「経験」と「スキル」の二重ストリームを継続的に蓄積・適応させることで、複雑な推論タスクにおけるツール利用の効率性と柔軟性を大幅に向上させるフレームワーク「XSkill」を提案するものである。
本論文は、事前学習済み拡散モデルを用いて低解像度の粗い参照画像から高品質な画像を生成するトレーニング不要な手法として、h 変換を導入し、近似誤差を補正するノイズレベル感知スケジューリングを組み合わせることで、従来の手法が抱える転送演算子の既知性や品質と誘導性のバランスの問題を解決する「Coarse-Guided Visual Generation via Weighted h-Transform Sampling」を提案しています。
この論文は、隠れ層を持たない化学反応ネットワークが、隠れ層を必要とするスパイクニューラルネットワークよりも優れた学習能力と分類精度を数学的に証明し、生化学的反応ネットワークが生物学的学習においてより効率的である可能性を示唆しています。
この論文は、従来の畳み込み演算の限界を克服し、画像処理における学習ベースのパイプラインを革新する構造化演算子を、分解ベース、適応重み付け、基底適応、積分・カーネル、アテンションの 5 つのファミリーに分類し、その特性と適用性を体系的に整理したものである。
LoV3D は、脳 MRI の縦断的データから領域ごとの体積評価に基づき認知予後を推論し、臨床的に重み付けされた検証器による直接選好最適化を通じて、従来の深層学習手法や VLM の限界を克服して高精度かつ説明可能なアルツハイマー病診断を実現する 3D 視覚言語モデルパイプラインです。
この論文は、転写因子の結合部位予測を単一の因子や二値分類ではなく、転写因子間の相関や協調的な制御メカニズムを捉える多ラベル分類問題として定式化し、時系列畳み込みネットワーク(TCN)を用いて生物学的に意味のあるモチーフや新たな共結合パターンを抽出する深層学習フレームワークを提案しています。