TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models
本論文は、既存の静的な評価手法では捉えきれない動画生成モデルの時間的ダイナミクスに起因する安全リスクを特定するため、時間的意識を備えた自動レッドチームングフレームワーク「TEAR」を提案し、オープンソースおよび商用のテキストから動画へのモデルにおいて 80% 以上の攻撃成功率を達成したことを示しています。
5296 件の論文
本論文は、既存の静的な評価手法では捉えきれない動画生成モデルの時間的ダイナミクスに起因する安全リスクを特定するため、時間的意識を備えた自動レッドチームングフレームワーク「TEAR」を提案し、オープンソースおよび商用のテキストから動画へのモデルにおいて 80% 以上の攻撃成功率を達成したことを示しています。
この論文は、単位円盤グラフおよび半径が種類である円盤グラフにおいて、確率的な手法を用いて最大クリークを近似的に解くアルゴリズムを提案し、それぞれほぼ線形時間およびパラメータ化近似スキームを実現したものである。
この論文は、エッジデバイスなどのリソース制約環境向けに、軽量なエンコーダと拡散デコーダを組み合わせる非対称な極限画像圧縮フレームワーク「AEIC」を提案し、超低ビットレート下でも高品質な復元と高いエンコード効率を両立させることを示しています。
本論文は、軽量な 2 自由度アームを搭載した不安定な空飛ぶマニピュレータに対し、強化学習を用いて生成された指令を非線形制御器で追従させることで、外部擾乱や重負荷下でも厘米・度レベルの高精度なエンドエフェクタ姿勢制御を実現し、接触を伴う複雑な空中操作を可能にしたことを報告するものである。
本論文は、視覚的リアリズムは向上したものの社会的推論に課題を残す現在の動画生成モデルを評価するため、発達・社会心理学に基づいた最初のベンチマーク「SVBench」を提案し、最先端モデルの社会的行動生成能力に明らかな限界があることを示しています。
本論文は、ラベル付きデータが不足する手術ロボット分野において、未ラベルの手術動画と世界モデルを活用して合成データ(SATA データセットと疑似運動学)を生成し、実機での自律手術タスクの精度を飛躍的に向上させる新しい手法を提案しています。
本論文は、言語バイアスに起因する大規模視覚言語モデルの物体幻覚を軽減するため、事実的なテキスト意味に基づく一般化されたアクティベーション制御とクエリ適応型オフセット最適化を組み合わせた「AFTER」という手法を提案し、既存のベンチマークで幻覚を大幅に削減する効果を実証しています。
この論文は、Implicit Neural Representations (INR) の解像度非依存性を活用し、OCT 画像の大きなスライス間隔による欠損を補完する補間手法と解像度に依存しない網膜アトラスの 2 つのフレームワークを提案することで、網膜 OCT ボリュームの高密度な 3 次元解析を可能にするものです。
本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。
PLANING は、明示的な幾何プリミティブとニューラルガウスを緩く結合したハイブリッド表現を採用することで、高品質なレンダリングと正確な幾何形状の両立を実現し、リアルタイムなストリーミング 3 次元復元を可能にする効率的なフレームワークです。
本論文は、オンラインレビューの評価順序(評価先かレビュー先か)が、サービス品質や製品属性に応じて消費者評価の極端化を促進し、そのメカニズムが感情的ヒューリスティックと認知的努力の直列的媒介を通じて生じることを、3 つの実験と Yelp などの大規模二次データ分析により実証したものである。
本論文は、参照画像と修正テキストから「メンタルイメージ」を直接生成し、データベースの画像にも対応する合成画像を構築して両者をマッチングさせることで、学習不要かつゼロショットで構成画像検索の最先端性能を達成する「Paracosm」という手法を提案しています。
KVSmooth は、アテンションエントロピーに基づく適応的平滑化を KV キャッシュに適用することで、追加の学習なしにマルチモーダル大規模言語モデルの視覚的ハルシネーションを効果的に軽減し、精度と再現率を同時に向上させる推論時のプラグアンドプレイ手法です。
本論文は、ロボット工学における「退屈・汚い・危険(DDD)」な作業という概念の歴史的・実証的検討を通じて、その明確な定義や具体例の欠如を指摘し、社会科学の知見を踏まえた新たな枠組みを提案することで、ロボット技術が人間の労働に与える影響をより深く理解する道筋を示しています。
本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。
OmniVTON++ は、特定のデータ条件に依存せず再学習が不要なトレーニングフリーの汎用仮想試着フレームワークであり、構造化された衣類変形、主姿勢ガイダンス、連続境界縫合を統合することで、単一または複数の人物・衣類、さらにはアニメキャラクターに至るまで、多様な状況と拡散モデルにおいて最先端の性能を実現します。
本論文は、医療画像のアクティブラーニングにおいて、ゼロショット推論を行うビジョン・ランゲージモデルの過信を解消し、解釈性とラベル効率を向上させるため、テキスト - 画像の類似性を証拠として再解釈し、ディリクレ分布を用いて欠如と矛盾を定量化する「Similarity-as-Evidence(SaE)」フレームワークを提案し、10 の公開データセットで最先端の性能を達成したことを示しています。
この論文は、画像から導出された領域における PDE 離散化の安定性と並列性を向上させるため、境界と交差する三角形のみを局所的に再三角化し、決定論的なシンボル検索テーブルを用いてスリバー要素を抑制するテンプレート駆動型の構造化ビットマップからメッシュへの三角化フレームワークを提案するものである。
本論文は、筋骨格モデルに基づいて既存の姿勢データセットに解剖学的に整合した 3 次元脊椎キーポイントを生成する生体力学意識型シミュレーションフレームワークと、自然な全身運動における脊椎レベルの 3 次元注釈を備えた初のオープンデータセット「SIMSPINE」を提案し、コンピュータビジョンと生体力学の架け橋となる統一ベンチマークを確立するものである。
本論文は、グラフの構造的特徴を抽出するフレームワーク DRESS の拡張である-DRESS が、CFI 階梯定理により任意のに対して CFIペアを区別し、特定の構造的仮定の下で-WL 階層と同等以上の識別能力を持つことを理論的に証明したものである。