NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction
NasoVoce は、スマートグラスの鼻架に装着されたマイクと振動センサーを融合させることで、環境雑音に強くかつ低音量の発話も認識可能な、常時利用可能な静かな音声対話インターフェースの実現を提案する研究です。
2385 件の論文
NasoVoce は、スマートグラスの鼻架に装着されたマイクと振動センサーを融合させることで、環境雑音に強くかつ低音量の発話も認識可能な、常時利用可能な静かな音声対話インターフェースの実現を提案する研究です。
この論文は、拡散モデルに基づく軌道計画において、衝突リスク評価、動的可行性、経路一貫性を備えた安全フィルタをノイズ除去ループに直接組み込むことで、学習分布を歪めずに安全性を内生的に保証する「PC-Diffuser」というフレームワークを提案しています。
この論文は、TREC 2022 Fair Ranking Track データセットを用いた系統的な比較を通じて、推論機能を持つ再ランクモデルが従来の非推論モデルに比べて公平性を向上も悪化もさせず、入力されたランキングの公平性特性を維持していることを明らかにしています。
本論文は、視覚的ノイズによる性能低下に悩む視覚言語行動モデルに対し、指令を安全対象と妨害対象に分類し、Fourier ベースのインペインティングを用いて妨害物を除去した清潔な観測を生成する「概念ゲート型視覚蒸留(CGVD)」という推論時のフレームワークを提案し、雑多な環境におけるロボットの操作成功率を大幅に向上させることを示しています。
この論文は、極端な非 IID 環境とグローバルなクラス不均衡下におけるフェデレーテッド・アクティブ・ラーニングの課題を解決するため、グローバルとローカルなモデルの適応的選択やクラス公平性を重視したサンプリング戦略を採用し、既存手法を上回る性能を示す「FairFAL」という新しいフレームワークを提案しています。
本論文は、多言語 LLM による評価における機械翻訳特有のバイアスを、英語との潜在マニフォールド整合性や言語間予測可能性といったスパースな相関に起因するものとして特定し、変分情報圧縮と交差共分散ペナルティを用いてバイアス要因を分離する「DIBJudge」という強固なファインチューニング枠組みを提案し、その有効性を示しています。
本論文は、大規模言語モデル(LLM)のコード生成能力と実ネットワークテストベッドを組み合わせた「GenCC」というフレームワークを提案し、これにより既存の輻輳制御プロトコルを最大 142% 改善する最適なユーティリティ関数を自動設計できることを示しています。
本論文は、教師モデルの失敗例を排除する従来の限界を克服し、教育理論の「最近接発達領域」に基づいて、エントロピーに基づく修復や段階的カリキュラム学習を組み合わせる RL フリーのフレームワーク「HEAL」を提案し、大規模推論モデルから小規模モデルへの推論能力の蒸留を大幅に改善することを示しています。
本論文は、対話履歴のモデル化と注釈付きデータの不足という課題に対処するため、対照学習によるエンコーダーと動的知識融合を用いてマルチドメインの対話状態追跡の精度と汎化性能を向上させる新しいフレームワークを提案するものです。
本論文は、従来の生成型推薦システムにおけるアイテムと行動トークンの交互配置がもたらす非効率性を解消し、アイテムと行動の因果関係を明示的にモデル化する「AttnLFA」と「AttnMVP」という 2 つの新規アーキテクチャを提案することで、推論精度の向上と訓練時間の短縮を同時に実現したことを示しています。
本論文は、モデルパラメータを変更することなく、環境の潜在的なトレンドを低次元の「トレンド ID」として推定し、時系列正則化と状態遷移モデルを用いて過学習を防ぐことで、非定常環境におけるロボットシステムへの少数ショット適応を実現する枠組みを提案しています。
この論文は、AI との共作において「アイデア生成」から「AI の提案への反応と評価」へとプロセスがシフトする「反応的執筆(Reactive Writing)」という新たな実践が、著者の意識的な気づきなく意見や信念を形成・変容させるメカニズムを、混合手法による研究で明らかにしたものである。
この論文は、スパースオートエンコーダと微分可能な構造学習を組み合わせることで大規模言語モデルの潜在空間に因果概念グラフを構築し、多段階推論における概念間の因果依存関係を可視化するとともに、介入実験による評価スコア(CFS)で既存手法を上回る性能を実証する手法を提案しています。
この論文は、Mixture-of-Experts(MoE)モデルにおいて、トータルな計算量とスパース性に応じてエキスパート層とアテンション層への計算リソース配分を最適化するべき比率をべき乗則として導き出し、Chinchilla の法則を拡張したスケーリング法則を提案するものである。
本論文は、LLM の推論を確率スカラーではなく幾何学的な「進展(変位)」と「安定性(曲率)」の観点から評価する TRACED フレームワークを提案し、これにより誤りやハルシネーションを物理的な動的特性として捉え、より頑健な推論品質の評価を実現するものである。
この論文は、人間の複雑な行動を考慮しつつ制御障壁関数と適合性リスク制御を組み合わせることで、人間・ロボット相互作用における衝突率を大幅に低減し、目標到達の成功率を維持しながら形式的な安全性保証を提供する新しい確率的安全制御フレームワークを提案しています。
この論文は、従来の確率論的枠組みでは捉えきれない大規模言語モデル(LLM)の不確実性を、不確実性そのものに対する不確実性(第二-order 不確実性)を含む「不確実確率」の枠組みに基づき、プロンプトと後処理を通じてより忠実に引き出す新しい手法を提案し、その有効性を多様な設定で実証するものである。
この論文は、ラベルノイズを含む SGD による 2 層線形ネットワークの学習ダイナミクスを解析し、ラベルノイズがモデルを「怠惰な領域」から「豊富な領域」へ移行させ、最終的に汎化性能を向上させる二段階の学習プロセスを明らかにするとともに、その知見を SAM などの最適化アルゴリズムにも拡張可能であることを示しています。
この論文は、LLM によるバイアス付き評価と高コストな人間による監査を組み合わせ、逆確率重み付け残差を用いた推定器と PP-LUCB アルゴリズムを開発することで、テキスト証拠に基づくサービスシステムの最適構成を低コストかつ高信頼性で特定する手法を提案し、その有効性を理論的・実験的に証明したものである。
この論文は、時空間データセットの圧縮において時間・空間の両次元をバランスよく圧縮し、クラスタレベルとサブセットレベルの手法を組み合わせることで、従来の手法よりも高速かつメモリ効率よく、かつ予測精度を向上させた新しい時空間データセット蒸留手法「STemDist」を提案するものである。