InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。
3481 件の論文
本論文は、理解・推論・生成・編集を統合した軽量な 40 億パラメータのマルチモーダルモデル「InternVL-U」を提案し、大規模モデルを凌駕する性能と効率性のバランスを達成したことを報告しています。
この論文は、手首の関節座標と物体のバウンディングボックスというスパースな運動ガイダンス、物体ストレスアテンション機構、そしてマルチタスク補助学習戦略を組み合わせることで、物理的に整合性が高く制御可能な人間 - 物体相互作用(HOI)ビデオ生成を実現する「DISPLAY」というフレームワークを提案しています。
この論文は、GPS 非依存環境における 5 種類の協調局所化手法(CCL、DCL、StCL、CI、Standard-CL)を ROS 環境で比較評価し、StCL や Standard-CL は精度が高いもののフィルタの一貫性に問題があり、DCL は頑健性が高く、CI は精度と一貫性のバランスに優れているなど、各手法のトレードオフを明らかにしたものである。
TREC 2025 RAG トラックは、MS MARCO V2.1 コーパスを用い、複雑な推論を要する長文ナラティブクエリへの対応や、透明性・事実性のある回答生成を評価対象として、信頼性の高い検索拡張生成システムの開発を促進するものです。
本論文は、スポーツの空間的知能を評価する初の大規模データセット「CourtSI」とベンチマーク「CourtSI-Bench」を提案し、既存の視覚言語モデルの空間認識能力の限界を明らかにするとともに、CourtSI によるファインチューニングがモデルの精度向上と汎化性能の改善に寄与することを示しています。
本論文は、ゲーム理論モデルとシミュレーションを用いて、非協力的な環境における 802.11 の MAC プロトコル(DCF および 802.11e)がシステム全体のパフォーマンスを低下させる望ましくないナッシュ均衡をもたらすことを示し、チャネル資源の割り当てとノードの送信戦略を独立させることで、より高いスループットを実現する理想的な MAC プロトコルが可能であることを論じています。
この論文は、エンタープライズネットワークにおける接続パターンに基づいてホストを役割分類し、ネットワーク管理の効率化や侵入検知の精度向上に貢献する 2 つのアルゴリズムを提案し、実機環境での検証により、ホスト数を大幅に削減しつつ論理的なネットワーク構造を反映したグループ化が可能であることを示しています。
本論文は、大規模言語モデルの埋め込みと視覚誘導知識アダプタ、および硬い負例合成メカニズムを活用して、生成モデルに比べて推論遅延を約 100 倍削減しつつ、オープンドメイン視覚実体認識タスクで高い性能を達成する効率的な対照学習ベースライン「WikiCLIP」を提案するものです。
本論文は、点群再構成や生成における標準的な損失関数であるチャマファ距離の最適化が、局所的な正則化では解決できない勾配構造上の欠陥により「最適化しない場合よりも悪い結果」をもたらす「崩壊」を引き起こすことを示し、これを抑制するには局所領域を超えた非局所的な結合(グローバルな結合)が不可欠であることを明らかにした。
本論文は、データベースシステムが SSD の性能を最大限に引き出し寿命を延ばすために、B-tree ベースの LeanStore を再設計してアウト・オブ・プレイス書き込みを最適化し、トランザクションごとのフラッシュ書き込みを大幅に削減しながらスループットを向上させる手法を提案・評価したものである。
この論文は、関節角度に基づく擬似画像表現とトークン単位の遅延相互作用(MaxSim)を組み合わせることで、既存の手法が抱える細粒度対応の欠如や解釈性の低さを克服し、テキストと 3 次元人間の動きの間の高精度かつ解釈可能な検索を実現する手法を提案しています。
この論文は、注釈付きの CT データと注釈なしのインターベンショナル CBCT データを用いて、マージン・ディスパリティ・ディスクリパンシー(MDD)の最適化枠組みを再定式化した新しい教師なしドメイン適応フレームワークを提案し、肝臓セグメンテーションの性能を向上させることを示しています。
この論文は、遅延相互作用型検索モデルにおけるトークンプルーニングを埋め込み空間のボロノイ細胞推定問題として定式化し、幾何学的な原理に基づいてインデックスサイズを削減しつつ検索品質を維持する新たな枠組みを提案しています。
この論文では、専門家と非専門家の診断間の不一致に基づいて「スライドの難易度(WSD)」を定義し、それをマルチタスク学習や重み付き損失関数に組み込むことで、前立腺がんのグレアス分類における多实例学習(MIL)の性能、特に高悪性度のケースでの精度向上を実現する手法を提案しています。
この論文は、物理的に矛盾するアーティファクトを排除し、動的な実行可能性と接触イベントの正確な再現を確保するために、剛体ダイナミクスと接触相補性制約を明示的に組み込んだ「KinoDynamic Motion Retargeting (KDMR)」フレームワークを提案し、これにより下流の制御ポリシーの学習効率と歩行安定性が大幅に向上することを示しています。
この論文は、特定の回転システム下で Tetris のクリアや生存問題が、O 型のテトロミノを除くすべてのテトロミノ(I 型を含む)の単一ピースタイプに制限された場合でも NP 困難であることを証明し、I 型のみに関する 23 年前の予想を否定するとともに、ドミノや特定の条件下の 1×k ピースについては多項式時間アルゴリズムを構築したことを示しています。
本論文は、推論時の姿勢推定誤差を「レンダリングと比較(ReCo)」モジュールで補正し、長期シーンの処理を可能にするハイブリッド KV キャッシュ圧縮戦略を備えた、姿勢や内部パラメータの有無を問わない自己回帰型フィードフォワードガウススプラッティングモデル「ReCoSplat」を提案するものである。
TiPToP は、事前学習された視覚基盤モデルとタスク・モーションプランナーを組み合わせるモジュール式オープンボキャブラリシステムであり、ロボットデータを一切必要とせず、RGB 画像と自然言語指示から多段階の操作タスクを解決し、350 時間の実証データで微調整された VLA モデルと同等かそれ以上の性能を発揮します。
この論文は、SMT 問題を事前計算された理論レマと組み合わせることで d-DNNF へ変換し、既存の命題論理推論器を用いて多項式時間で SMT クエリを処理する汎用的なフレームワークを初めて提案し、その有効性を実証したものです。
この論文は、信念・欲求・意図(BDI)アーキテクチャとメタレベル計画推論を用いた自律型エージェントを提案し、ネットワーク中心戦に対応する統合防空システムにおける目標検出、脅威評価、兵器割り当てなどの指揮統制(C2)機能を人手なしで実行する意思決定アルゴリズムを提示しています。