X-WIN: Building Chest Radiograph World Model via Predictive Sensing
この論文は、CT の体積知識を潜在空間での 2 次元投影予測を通じて学習し、3 次元解剖学的構造を内面化することで胸部 X 線画像の表現学習と疾患診断を革新する新しい世界モデル「X-WIN」を提案し、その優れた性能を実証しています。
5132 件の論文
この論文は、CT の体積知識を潜在空間での 2 次元投影予測を通じて学習し、3 次元解剖学的構造を内面化することで胸部 X 線画像の表現学習と疾患診断を革新する新しい世界モデル「X-WIN」を提案し、その優れた性能を実証しています。
本論文は、異なるタスクに特化した Vision-Language-Action (VLA) モデルを直接マージしても失敗する課題に対し、VLM における LoRA アダプターの方向性不一致とアクション専門家の層間依存性を解消する新たなアーキテクチャ「MergeVLA」を提案し、単一モデルで複数のスキルを統合的に習得・実行可能にしたことを示しています。
この論文は、複雑な実世界画像のベクトル化において視覚忠実度と編集性を向上させるため、明暗のコントラストを重視した「Clair Obscur」の原理に基づき、アルベド、陰影、光の層を統一されたベクトル表現で分解する新しいフレームワーク「COVec」を提案しています。
本論文は、強化学習における世界モデルの楽観的バイアスを解消し、対照的合成によって危険を正直に予測する「公平な世界モデル」を構築することで、安全違反を大幅に削減するエンドツーエンド自動運転の閉ループ強化学習フレームワーク「AD-R1」を提案しています。
本論文は、既存の静的な評価手法では捉えきれない動画生成モデルの時間的ダイナミクスに起因する安全リスクを特定するため、時間的意識を備えた自動レッドチームングフレームワーク「TEAR」を提案し、オープンソースおよび商用のテキストから動画へのモデルにおいて 80% 以上の攻撃成功率を達成したことを示しています。
この論文は、単位円盤グラフおよび半径が種類である円盤グラフにおいて、確率的な手法を用いて最大クリークを近似的に解くアルゴリズムを提案し、それぞれほぼ線形時間およびパラメータ化近似スキームを実現したものである。
この論文は、エッジデバイスなどのリソース制約環境向けに、軽量なエンコーダと拡散デコーダを組み合わせる非対称な極限画像圧縮フレームワーク「AEIC」を提案し、超低ビットレート下でも高品質な復元と高いエンコード効率を両立させることを示しています。
本論文は、軽量な 2 自由度アームを搭載した不安定な空飛ぶマニピュレータに対し、強化学習を用いて生成された指令を非線形制御器で追従させることで、外部擾乱や重負荷下でも厘米・度レベルの高精度なエンドエフェクタ姿勢制御を実現し、接触を伴う複雑な空中操作を可能にしたことを報告するものである。
本論文は、視覚的リアリズムは向上したものの社会的推論に課題を残す現在の動画生成モデルを評価するため、発達・社会心理学に基づいた最初のベンチマーク「SVBench」を提案し、最先端モデルの社会的行動生成能力に明らかな限界があることを示しています。
本論文は、ラベル付きデータが不足する手術ロボット分野において、未ラベルの手術動画と世界モデルを活用して合成データ(SATA データセットと疑似運動学)を生成し、実機での自律手術タスクの精度を飛躍的に向上させる新しい手法を提案しています。
本論文は、言語バイアスに起因する大規模視覚言語モデルの物体幻覚を軽減するため、事実的なテキスト意味に基づく一般化されたアクティベーション制御とクエリ適応型オフセット最適化を組み合わせた「AFTER」という手法を提案し、既存のベンチマークで幻覚を大幅に削減する効果を実証しています。
この論文は、Implicit Neural Representations (INR) の解像度非依存性を活用し、OCT 画像の大きなスライス間隔による欠損を補完する補間手法と解像度に依存しない網膜アトラスの 2 つのフレームワークを提案することで、網膜 OCT ボリュームの高密度な 3 次元解析を可能にするものです。
本論文は、大規模言語モデル(LLM)のオブジェクト指向設計能力を評価する初のベンチマーク「OODEval」と統一評価指標「CLUE」を提案し、29 種類のモデルを対象とした実証研究を通じて、LLM が構文面では高い精度を示す一方で意味論的な欠陥があり、特に高度な設計能力において人間の専門家には及ばないことを明らかにしています。
PLANING は、明示的な幾何プリミティブとニューラルガウスを緩く結合したハイブリッド表現を採用することで、高品質なレンダリングと正確な幾何形状の両立を実現し、リアルタイムなストリーミング 3 次元復元を可能にする効率的なフレームワークです。
本論文は、オンラインレビューの評価順序(評価先かレビュー先か)が、サービス品質や製品属性に応じて消費者評価の極端化を促進し、そのメカニズムが感情的ヒューリスティックと認知的努力の直列的媒介を通じて生じることを、3 つの実験と Yelp などの大規模二次データ分析により実証したものである。
本論文は、参照画像と修正テキストから「メンタルイメージ」を直接生成し、データベースの画像にも対応する合成画像を構築して両者をマッチングさせることで、学習不要かつゼロショットで構成画像検索の最先端性能を達成する「Paracosm」という手法を提案しています。
KVSmooth は、アテンションエントロピーに基づく適応的平滑化を KV キャッシュに適用することで、追加の学習なしにマルチモーダル大規模言語モデルの視覚的ハルシネーションを効果的に軽減し、精度と再現率を同時に向上させる推論時のプラグアンドプレイ手法です。
本論文は、ロボット工学における「退屈・汚い・危険(DDD)」な作業という概念の歴史的・実証的検討を通じて、その明確な定義や具体例の欠如を指摘し、社会科学の知見を踏まえた新たな枠組みを提案することで、ロボット技術が人間の労働に与える影響をより深く理解する道筋を示しています。
本論文は、LLM ワークフローを「LLM プログラム」として抽象化し、KV キャッシュのヒット率向上やメモリ不均衡の解消、非同期な環境準備を可能にするプログラム意識型のスケジューラとツールリソースマネージャーを備えた高速でシンプルな推論システム「ThunderAgent」を提案し、既存システムと比較してスループットやディスクメモリ効率を大幅に改善することを示しています。
OmniVTON++ は、特定のデータ条件に依存せず再学習が不要なトレーニングフリーの汎用仮想試着フレームワークであり、構造化された衣類変形、主姿勢ガイダンス、連続境界縫合を統合することで、単一または複数の人物・衣類、さらにはアニメキャラクターに至るまで、多様な状況と拡散モデルにおいて最先端の性能を実現します。