OSCBench: Benchmarking Object State Change in Text-to-Video Generation
本論文は、テキストから動画生成モデルにおける「物体の状態変化(OSC)」の評価に特化したベンチマーク「OSCBench」を提案し、既存のモデルが指示された動作による物体の状態変化を正確かつ一貫して表現する能力に課題を抱えていることを明らかにしています。
3827 件の論文
本論文は、テキストから動画生成モデルにおける「物体の状態変化(OSC)」の評価に特化したベンチマーク「OSCBench」を提案し、既存のモデルが指示された動作による物体の状態変化を正確かつ一貫して表現する能力に課題を抱えていることを明らかにしています。
この論文は、LLM の規模拡大だけでなく「エージェントスケーリング則」として定義された構造化された能力次元(役割定義、スキル深度、ツール完全性など)の充実が教育 AI エージェントの性能向上に寄与することを示し、330 以上のプロファイルと 1,100 以上のスキルモジュールを実証した EduClaw プラットフォームを提案しています。
この論文は、発声および無声の発話時の顔面・頸部の表面筋電図(sEMG)データを用いて感情を解読する手法を提案し、特に「フラストレーション」の識別において高い精度を達成し、発声の有無にかかわらず感情の筋活動パターンが持続することを示しています。
本論文は、信頼性、セキュリティ、長期記憶の課題を克服し、安全で透明性のある臨床ワークフローを調整する「病院向けエージェント型オペレーティングシステム」を実現するため、OpenClaw を基盤として、制限された実行環境、ドキュメント中心の相互作用、ページ索引付きメモリ、キュレーションされた医療スキルライブラリという 4 つの中核コンポーネントを備えたアーキテクチャを提案するものである。
この論文は、停留所のバッファ時間を正しく処理し、MR アルゴリズムを 2 倍以上高速化しながら最適解を保証する「転送対応ダイクストラ法(TAD)」を提案し、従来の Dijkstra 法ベースのアプローチが RAPTOR 系アルゴリズムよりも優れていることを実証しています。
この論文は、イタリアの若手卒業者を対象としたシミュレーションを通じて、GPT-5 が性別による職業推薦の差は示さなかったものの、女性に感情的・共感的な形容詞、男性に戦略的・分析的な形容詞を付与する傾向があることを明らかにし、採用プロセスにおける生成 AI の倫理的課題と透明性の必要性を浮き彫りにしている。
本論文は、電力網などの複雑な時系列データにおけるノイズや異常値を、異常検知と欠損値補完を単一の条件付き正規化フローに基づく確率的枠組み「CINDI」で統合的に処理し、データの物理的・統計的性質を維持しながら下流タスクの信頼性を向上させる手法を提案しています。
この論文は、言語モデルが真実を好むのは真実そのものへの内在的な志向によるものではなく、圧縮圧力と内部的一貫性を優先する学習メカニズムの結果であり、誤った情報が構造的に圧縮しにくい場合にのみ真実バイアスが現れることを示しています。
この論文は、観測空間の尤度ではなく、条件付き正規化フローの潜在空間に時系列の構造的な帰納的バイアスを導入し、規定された時間的ダイナミクスからの逸脱を統計的適合度検定で評価することで、高尤度領域でも有効な異常検出を実現する手法を提案しています。
この論文は、報酬の知識がない他者の行動のみを観測する社会型バンディット学習において、オラクルや社会的規範に依存せずに他者の専門性を推定し、直接経験と他者の推定ポリシーを統合する自由エネルギーベースのアルゴリズムを提案し、その最適ポリシーへの収束性と、非専門家を含む多様なエージェント集団における学習性能の向上を実証的に示したものである。
この論文は、ウィキデータのクオリファイアの頻度と多様性に基づいた分析を行い、修正シャノンエントロピー指数を用いて重要度を評価し、文脈的・認識的・構造的なカテゴリに分類された包括的な分類体系を提案することで、クオリファイアの選択、グラフへのクエリ、論理的推論の課題を解決することを目指しています。
本論文は、自律型 LLM エージェントの長期記憶システムにおける腐敗リスクに対処するため、一貫性検証や時間的減衰モデリング、動的アクセス制御を統合した「安定性と安全性を管理する記憶(SSGM)フレームワーク」を提案し、安全で信頼性の高いエージェント記憶システムのガバナンスパラダイムを確立するものです。
本論文は、スケーラブルなニューラルネットワークと階層的な分類体系を組み合わせ、ドキュメント埋め込みを導入して性能を向上させた自動テキスト分類ツール「NETHIC」の開発と評価について述べています。
本論文は、複雑な推論タスクにおいて、構造化された「審議」プロセス(DCI)が非定型タスクや多角的視点の統合に有効である一方、コスト増大や定型タスクでの限界など課題も残しつつ、意思決定の過程説明責任を高める新たな多エージェント LLM 枠組みを提案しています。
本論文は、リモートセンシング画像の階層的マルチラベル分類において、階層構造を明示的にモデル化する Vision Transformer とグラフ畳み込みネットワーク、および半教師あり学習を組み合わせた新しいフレームワーク「HELM」を提案し、特にラベルが不足する状況で最先端の性能を達成したことを報告しています。
この論文は、CLIP のビジョントランスフォーマーにおいて、特定の注意ヘッドを特定・除去することで性差や年齢のバイアスを局所的に特定・軽減できることを示すメカニズム的公平性監査手法を提案し、性バイアスでは効果的であったが年齢バイアスではより拡散的であることを明らかにしています。
本論文は、複数のドキュメントに散在する複数の実体間の論理を追跡する難題に対処するため、動的なスキーマ発見、構造化情報抽出、およびスキーマ意識型の関係推論を統合したエンドツーエンドのエージェントフレームワーク「DocSage」を提案し、既存の LLM や RAG システムを大幅に上回る精度を達成したことを示しています。
通信の不確実性下における協調マルチエージェント制御のために、半分散化の概念を部分観測マルコフ決定過程(POMDP)に拡張した SDec-POMDP 枠組みと、その最適方策を生成する厳密アルゴリズム RS-SDA* を提案し、理論的基盤とベンチマーク評価を通じてその有効性を示しています。
この論文は、GitHub などのオープンソースリポジトリから大規模にマイニングしたプロシージャル知識を標準化フォーマットに変換するフレームワークを提案し、LLM の再学習なしに自律的なエージェントのスキルを拡張し、教育コンテンツの知識伝達効率を 40% 向上させることを実証しています。
RADAR は、人間の介入を完全に排除し、視覚言語モデルとグラフニューラルネットワークによる自律的なタスク生成・実行・評価、および有限状態機械による環境の自動リセットを組み合わせた閉ループシステムとして、大規模なロボット学習データの収集を可能にする革新的なフレームワークです。