AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models
本論文は、多視点農業画像におけるスケール混乱や論理の偏りを解消するため、大規模な多視点データセット「AgroOmni」を構築し、視覚的知覚と推論を分離する新アーキテクチャ「AgroNVILA」を提案することで、高度な農業空間計画を実現したことを報告しています。
13006 件の論文
本論文は、多視点農業画像におけるスケール混乱や論理の偏りを解消するため、大規模な多視点データセット「AgroOmni」を構築し、視覚的知覚と推論を分離する新アーキテクチャ「AgroNVILA」を提案することで、高度な農業空間計画を実現したことを報告しています。
この論文は、自動運転の生涯学習における忘却や偽相関を解決するため、ディリクレ過程混合モデルと因果推論のフロントドア調整を組み合わせて動的知識空間を構築し、適応的な知識拡張と因果表現の強化を実現する「DeLL」フレームワークを提案しています。
本論文は、Transformer の計算複雑性の限界を克服し、行列値状態を持つ非線形 RNN である M²RNN を提案することで、大規模言語モデルにおいて効率的な長期依存関係の追跡と高い性能を実現することを示しています。
本論文は、複雑な階層的アプローチに依存せず、生視覚データと曖昧な言語指示を直接連続制御信号にマッピングするミニマリストなエンドツーエンドモデル「AerialVLA」を提案し、既存の手法に比べて未見環境での成功率が約 3 倍となるなど、UAV の自律航行において最先端の性能と優れた汎化能力を実現したことを示しています。
本論文は、視覚言語行動モデルにおけるマルチタスク並列実行の効率化を目的とし、共有観測の重複計算を排除し可変長言語デコードと固定レート動作生成を分離する「統一 KV キャッシュ管理」を提案することで、デバイス上での高速かつ高品質な推論を実現する OxyGen システムを提示しています。
生成 AI によるコンテンツの再利用・再構成がもたらす正の外部性(スピルオーバー)がクリエイターのインセンティブを損なう問題を解決するため、均衡の存在を保証し社会的厚生を最大化するメカニズム設計と近似アルゴリズムを提案する研究です。
この論文は、生成動画モデルが持つ物理的な時間スケールの不整合(クロノメトリック・ハルシネーション)を解決するため、動画の視覚的ダイナミクスから物理的なフレームレート(PhyFPS)を推定する「Visual Chronometer」を提案し、その有効性をベンチマークと人間の評価を通じて実証したものです。
この論文は、スパイクニューラルネットワークに量子化感知学習と強化学習に基づく早期退出を組み合わせた統合フレームワーク「SPARQ」を提案し、エッジ AI 向けに高精度かつ極めて低消費電力な推論を実現することを示しています。
本論文は、強化学習における発散問題を解決し、安定性と探索の両立を実現するために、対数確率勾配に代わって確率勾配を最適化の基礎とした「Decoupled Gradient Policy Optimization (DGPO)」を提案し、DeepSeek-R1-Distill-Qwen シリーズでの実験で既存手法を上回る性能を実証しています。
この論文は、言語モデルの評価を従来の二値文法判断から、複数の応用分野にわたる順序スケーリング分類やスコアリングタスクへ拡張し、モデルの生成回答ではなく各評価尺度における「驚異(surprisal)」とエントロピーを測定することで、モデルの選好と不確実性を包括的に捉える新たな枠組みを提案しています。
本論文は、既存の手法が抱える単一モダリティの限界を克服するため、埋め込み空間のシグナルを基にマージ係数を推定する新しいフレームワーク「ES-Merging」を提案し、生物多モーダル大規模言語モデルの統合において既存手法やタスク特化型微調整モデルを上回る性能を実証したものである。
本論文は、限られた臨床データの問題を解決するため、6 種類の病理的歩行カテゴリを条件として 3D ポーズ軌跡から特定の歩行パターンを合成する生成敵対ネットワーク「PGcGAN」を提案し、合成データを用いたデータ拡張が病理的歩行認識の精度向上に有効であることを実証しています。
この論文は、AI エージェントの実際の行動を評価するのではなく架空のシナリオへの回答に依存する従来の安全性評価手法は、実世界でのリスクを捉える構造的妥当性が欠如しており、エージェントの真の安全性を測定するには不適切であると主張している。
この論文は、多施設データにおけるアノテーションのばらつきを課題とし、階層的事後期待最大化(HierEM)フレームワークを導入して潜在的な「クリーン」な病変マスクを推定し、サイト固有のバイアスを低減することで前立腺病変セグメンテーションのクロスサイト汎化性能を大幅に向上させる手法を提案しています。
この論文は、大規模な事前学習コーパスのデータキュレーションを自動化するために、品質評価と戦略生成を反復的に最適化する「DataEvolve」というフレームワークを提案し、進化した戦略で構築されたデータセット「Darwin-CC」が、手動設計や既存のデータセットよりも優れた性能を示すことを実証しています。
本論文は、ユーザー、コンテンツ、モデルの各次元における多様なバイアスを、柔軟に定義された「公平性」の概念に基づき、既存のマルチタスク学習ランキングモデルに軽量な分岐として統合された分布モデルを用いて偏りのない信号に変換する、モデルベースのバイアス除去フレームワーク「MBD」を提案するものである。
この論文は、事実の検索と回答生成を明示的に分離し、教師モデルから「事実そのもの」ではなく「計画と検索要求」のみを学習させる軽量な学生プランナーを導入することで、検索拡張型LLMの精度と遅延を改善する新しいフレームワークを提案し、SEAL-0ベンチマークでその有効性を示したものです。
この論文は、個々の巣箱を孤立した単位として扱う従来の手法の限界を克服し、物理的近接性と気候センサーの相関を統合した双対隣接グラフと時空間アーキテクチャを用いた「STAG-CN」と呼ばれるグラフニューラルネットワークを提案することで、養蜂場における病気の発生を精度よく予測し、環境応答パターンが空間的近接性よりも強力な予測指標となることを実証したものである。
本論文は、ツール利用エージェントの段階ごとの品質評価を可能にする初のベンチマーク「AgentProcessBench」を提案し、現実的なツール実行タスクにおけるプロセス評価の重要性と、結果のみによる監督を超えたプロセス信号の価値を実証しています。
本研究は、有限要素シミュレーションデータを用いた幾何学的深層学習フレームワーク(特にグラフニューラルネットワーク)を提案し、冷間噴射プロセスにおける粒子衝突応答の予測精度を向上させ、プロセス最適化への有効性を示したものである。