Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation
この論文は、イベントカメラのスパースな時空間特性を直接活用し、イベントスライス畳み込みやエッジ強化点雲表現などの新規モジュールを導入することで、高密度なフレーム変換を回避しつつ人間のポーズ推定精度と計算効率を向上させる手法を提案しています。
7179 件の論文
この論文は、イベントカメラのスパースな時空間特性を直接活用し、イベントスライス畳み込みやエッジ強化点雲表現などの新規モジュールを導入することで、高密度なフレーム変換を回避しつつ人間のポーズ推定精度と計算効率を向上させる手法を提案しています。
この論文は、非同期 LLM 学習における計算オーバーヘッドを削減し、プロキシポリシーを単純な補間で近似する「A-3PO」手法を提案することで、性能を維持しつつトレーニング速度を 1.8 倍に加速させることを示しています。
本論文は、強い相互作用が存在する際に平均化によって相互作用効果が隠蔽されるという Partial Dependence Plot(PDP)の限界を克服するため、Individual Conditional Expectation(ICE)曲線に基づく新たなグローバル感度指標を提案し、その数学的性質の証明と航空宇宙設計などの実例における PDP や SHAP 等との比較を通じて、その有効性を示したものである。
この論文は、双曲幾何を用いた強化学習における最適化の不安定化要因を解明し、正規化や損失関数の改良などを通じて学習の安定性と効率を大幅に向上させた新しいエージェント「Hyper++」を提案するものである。
この論文は、複数のツールの情報を組み合わせることで意図せず機密情報が漏洩する「ツール編成プライバシーリスク(TOP-R)」という新たな脅威を初めて体系的に研究し、評価ベンチマークと緩和策を提案するものである。
本論文は、クロスアテンションを用いた視覚言語モデルが、従来のトークン挿入方式に匹敵する性能を達成しつつ、長文会話や動画処理においてメモリと計算コストの面で大幅な効率性を実現することを示しています。
CARE は、失敗事例を教師信号として活用する「アンカー型対照的リフレクション」と「リフレクション誘導リサンプリング」を組み合わせたマルチモーダル推論向けポストトレーニングフレームワークであり、既存の強化学習手法よりも効率的に学習信号を抽出し、視覚推論タスクにおける精度と学習の安定性を大幅に向上させます。
本論文は、動的グラフにおける時間的モチーフ分析のための包括的なベンチマーク「LLMTM」を提案し、その結果に基づいて高精度なエージェントと低コストなプロンプティングを構造特性に応じて知的に切り替えるディスパッチャーを開発することで、コストと精度のトレードオフを解決する手法を提示しています。
この論文は、大規模言語モデルのトレーニングデータへの所属を推測する攻撃において、平均損失などのグローバルな指標に依存する従来の手法の限界を克服し、局所的な文脈における記憶信号を捉える「WBC(ウィンドウベース比較)」という新しい手法を提案し、その有効性を複数のデータセットで実証したことを述べています。
この論文は、7 つの可読性指標を統合したクラスタリング手法と独自のデータセットを用いて大規模言語モデルを微調整する枠組みを提案し、これにより回答の正確性を保ちつつ、小学低学年から成人教育までの 6 つの学年レベルに合わせた適切な教育コンテンツを生成し、プロンプトベースの手法と比較して 35.64 ポイントも学年適合性を向上させたことを示しています。
この論文は、ノイズを含む音声から意味情報を失わずに視覚情報を用いて特徴を洗練させるコンフォーマーベースのバトネック融合モジュールを備えたエンドツーエンドの音声増強フレームワークを提案し、LRS3 ベンチマークにおいて既存のマスクベース手法を上回る頑健な音声・視覚音声認識性能を実現することを示しています。
本論文は、事前学習されたタンパク質埋め込みモデルの潜在空間における拡散サンプリングを活用し、構造予測を介さずにゼロショットで多様性のあるペプチド結合体を設計する新規生成モデル「PepEDiff」を提案し、TIGIT などの難易度の高いターゲットにおいても最先端手法を上回る性能を実証したものである。
SpatialMem は、メトリック 3D 空間を解釈可能なインデックス構造として活用し、カジュアルに撮影された egocentric ビデオから構造的な 3D アンカーと階層的なメモリを構築することで、長期にわたる視覚的コンテキストにおける言語に基づく検索や QA、およびナビゲーションを可能にするメモリ中心のシステムです。
この論文は、9,048 人の患者から収集した約 11,000 時間の EEG 記録と 9,922 件の臨床報告書を用いて、長時間の EEG 記録から臨床レポートを生成する初の基盤モデル「CELM」を開発し、患者の病歴を考慮した場合やゼロショット設定において既存手法を大幅に上回る性能を達成したことを報告しています。
この論文は、LLM が計画タスクで制約違反を起こす問題を解決するため、失敗したステップに特化した修正例を注入する「局所化インコンテキスト学習(L-ICL)」を提案し、従来の手法や明示的な指示よりも大幅に有効な計画生成を実現したことを示しています。
この論文は、Google の Gemini モデルを用いた対話的協力や神経記号ループなどの手法を通じて、理論計算機科学や物理学などの分野で未解決問題の解決や新たな証明の生成を成功させた事例を紹介し、AI が単なる自動化ツールを超えて科学的発見における真のパートナーとなり得る可能性を示しています。
この論文は、単発の質問応答から複雑な対話型エージェントへの移行に伴う不確実性定量化(UQ)の必要性を指摘し、そのための包括的な定式化、エージェント特有の 4 つの技術的課題、および将来の研究方向性を提示する枠組みを提案しています。
この論文は、静的な予測に対する従来の説明可能性手法が自律的なエージェント AI の行動軌跡の診断には不向きであり、代わりに実行トレースに基づく評価が失敗の特定や状態管理の重要性を明らかにするため、エージェントシステムには軌跡レベルの説明可能性への転換が必要であることを示しています。
この論文は、自然言語で数学的推論を生成・検証・修正する自律型研究エージェント「Aletheia」を紹介し、オリンピックレベルの問題から博士課程レベルの課題、さらには人間の介入なしに構造定数を計算する論文の作成や未解決問題の解決に至るまで、AI 支援数学研究における新たな自律性の段階と透明性の枠組みを提案しています。
この論文は、LLM の交渉能力を向上させるために、多様なシナリオを網羅する新しいベンチマーク「AgoraBench」、経済的根拠に基づいた人間と整合する評価指標、そして人間の選好に即した学習パイプラインを提案し、これにより LLM がより戦略的で対戦相手への意識の高い交渉を実現できることを示しています。