Learning to Think Fast and Slow for Visual Language Models
既存の視覚言語モデルが問題の複雑さを考慮せず一様に長い推論を生成する非効率さを解決するため、問題の難易度に応じて素早い直感的思考と遅い分析的思考を自動的に使い分ける「DualMindVLM」を提案し、推論精度の向上とトークン効率の改善を両立させた。
6555 件の論文
既存の視覚言語モデルが問題の複雑さを考慮せず一様に長い推論を生成する非効率さを解決するため、問題の難易度に応じて素早い直感的思考と遅い分析的思考を自動的に使い分ける「DualMindVLM」を提案し、推論精度の向上とトークン効率の改善を両立させた。
この論文は、物理的制約を考慮した連続的なスペクトルマッピングを学習し、非凸最適化に基づく角度一貫性射影(ACP)を用いて物理的に整合性のある高解像度分光画像を復元する「放射構造ニューラルオペレーター(RSNO)」を提案し、その有効性を理論的・実験的に検証したものである。
本論文は、既知の劣化モデルに依存せず、多粒度劣化認識モジュールと潜在拡散モデルに基づく劣化耐性プロキシステップを組み合わせた「UnfoldLDM」を提案し、ブラインド画像復元における過平滑化バイアスを解消して高品質な復元を実現する手法を提示しています。
本研究は、情報実践の理論的枠組みを用いて Reddit 上の議論を分析し、ユーザーが ChatGPT のプライバシー懸念に対し、リスクの共有や規範の確立、代替案の模索といった集合的な意味形成と適応実践を通じて対応していることを明らかにした。
本論文は、海面下で GNSS 信号が受信できない marine ロボットに対し、複数のドローンによる視覚検出、GNSS 三角測量、および信頼度重み付き拡張カルマンフィルタを統合したリアルタイム安定追跡システムを提案し、ドローン間の追跡 ID 整合アルゴリズムによるグローバル一貫性を確保することで、複雑な環境下でも高精度かつロバストな追跡を実現することを示しています。
本論文は、大規模モデルの推論能力を活用して「都市 - 地区 - グリッド」の階層構造を計画し、ユーザー定義と無限の拡張を可能にする自律的な 3D 都市生成フレームワーク「Yo'City」を提案し、その卓越した性能を実証するものです。
本論文は、LLM 推論におけるプリフィルとデコードステージ間の負荷不均衡を解消し、SLO 遵守を維持しつつシステムスループットを最大化するために、リアルタイム負荷監視に基づいて動的にインスタンス割当を最適化する「DOPD」というアーキテクチャを提案し、既存手法と比較して大幅な性能向上を実証したものである。
この論文は、従来の単純な手法では故障耐性ハイパーグラフスパンナーのサイズが故障数に対して線形になってしまうという課題を解決し、クラスタリング手法に基づいて故障数に対して部分線形なサイズを持つ高速構成アルゴリズムと下限を提案するものです。
本論文は、ロール・ツー・ロール製造システムにおける制御設計と適応の自動化、および安全性の維持を実現する、LLM を活用したマルチエージェント制御フレームワークを提案し、その有効性を実験的に検証したものである。
本論文は、既存手法の限界を克服し、外部知識を効率的に取り込む新しい検索拡張型去重拡散モデル「RadDiff」を提案し、タンパク質逆折り畳みタスクにおいて既存手法を大幅に上回る性能とスケーラビリティを実証したものである。
この論文は、統計的相関に依存する従来の予測モデルの限界を克服し、事前学習された因果基礎モデルを「What-if」シミュレーターとして統合することで、故障の根本原因を特定し介入効果を定量化して生産ラインの OEE を最適化する処方箋保全フレームワークを提案しています。
本論文は、2D セグメンテーションの事前知識と 3D 一貫性教師信号を統合し、スケーラブルなプロンプトデコーダと大規模データセットを活用することで、3D 点雲の部品分割において高い汎用性、堅牢性、および粒度制御を実現する「S2AM3D」を提案するものである。
この論文は、Arm 機密計算アーキテクチャ(CCA)のファームウェアを拡張して、ハイパーバイザーや他の CVM からはアクセス不能な「機密共有メモリ(CSM)」を実現するシステム「CAEC」を提案し、暗号化を介さずに CVM 間で安全かつ高効率なデータ共有を可能にするものである。
本論文は、GUI エージェントが過去の履歴情報を効率的かつ効果的に活用できるよう、動的なコンテキストサンプリングとアンカーガイド付き履歴圧縮を備えた「History Context-aware Policy Optimization (HCPO)」を導入し、HiconAgent を開発することで、小型モデルでありながら既存の大型モデルを上回る性能と計算効率の向上を実現したことを報告しています。
MAViD は、理解と生成を統合し、Conductor-Creator 構造と AR-拡散モデルの組み合わせを用いることで、一貫性のある長尺の音声・動画対話を生成する新しいマルチモーダルフレームワークを提案するものである。
本論文は、VLLM の深い層における視覚トークンの情報量が「情報地平線」を超えて均質化・消失し、それ以降の層では既存の剪定法よりもランダム剪定の方が効率的であることを発見し、これを活用した手法が高性能・高効率を実現することを示しています。
本論文は、異種エージェント環境における自己対戦ベースの IPPO が、多様なトレーニングパートナーを意図的に導入する手法(RPT)と同等の汎化性能を示すことを明らかにし、単純な IPPO ベースラインが新規チームメイトに対しても十分な適応能力を有していることを実証しています。
オフロード環境における道路ネットワーク抽出の課題を解決するため、大規模なオフロードデータセット「WildRoad」を公開し、従来のノード中心アプローチの限界を克服する経路中心のフレームワーク「MaGRoad」を提案し、高い精度と高速推論を実現する研究です。
本論文は、手術映像における器具セグメンテーションの課題を解決するため、SAM3 のメモリ更新や容量制限、再出現時の識別問題を克服するトレーニング不要な拡張手法「ReMeDI-SAM3」を提案し、複数のデータセットで既存手法を上回る性能を達成したことを報告しています。
この論文は、5 か国 1,000 人の調査とストリートビュー画像を用いた分析を通じて、都市の緑化に対する主観的認識と客観的測定値の乖離が世界的に普遍的であり、個人の属性や性格よりも居住地域による文化的・環境的経験の影響が最も大きいことを明らかにしています。