Computer vision-based estimation of invertebrate biomass
この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。
4156 件の論文
この論文は、画像のみから無脊椎動物の乾燥重量を推定し、生物多様性モニタリングを効率化するため、BIODISCOVER 装置で得られる面積や沈降速度などの新規予測変数を用いた線形モデルと、単一・多視点・メタデータ対応の深層学習アーキテクチャによるアプローチを提案し、個体レベルで 10〜20% の中央値誤差を実現したことを報告しています。
本論文は、パノラマ歯科 X 線画像の分析において、反復的な検査と左右対称性の理解を可能にする強化学習ベースの自律型ビジョン・ランゲージモデル「OralGPT-Plus」を提案し、専門家の診断経路を含むデータセット「DentalProbe」と新しいベンチマーク「MMOral-X」を用いてその有効性を示したものである。
本論文は、2D 画像からの弱教師ありセマンティックセグメンテーションの精度向上を目的として、最新のフィードフォワード 3D 復元技術を用いて 3D 幾何構造を補助教師信号として活用し、スパースな注釈からシーン全体への注釈伝播を可能にする「Rewis3d」というフレームワークを提案し、追加のラベルや推論コストを増やすことなく既存手法を 2〜7% 上回る性能を達成したことを報告しています。
本論文は、スライド画像の階層構造を保存する領域ネスト型選択的走査と、診断パターンの多様性に対応する混合専門家モデルを統合した「MoEMambaMIL」を提案し、9 つのタスクで最先端の性能を達成したことを示しています。
この論文は、DINOv3 を基盤とした深度推定モデルと ALS データを用いてトレーニングされた CHMv2 を紹介し、既存の製品と比較して森林の高さ推定精度を大幅に向上させ、高い森林におけるバイアスを低減し、樹冠の細部をより正確に捉えた全球メータ解像度の林冠高マップを提示するものである。
本論文は、セマンティックに同等なプロンプト間の一貫性を欠くという SAM3 の課題を「プロンプトグループ」概念で再定義し、品質誘導正則化とロジットレベルの整合性制約を導入することで、アーキテクチャ変更なしにテキスト誘導核分割のロバスト性と汎化性能を大幅に向上させるフレームワークを提案しています。
本論文は、リアルタイムシーングラフ生成の精度と速度のバランスを最適化するため、REACT 基盤を拡張し、クロスアテンション機構を活用して推論速度を 20% 向上させながら関係予測精度を 10% 改善した新モデル「REACT++」を提案するものです。
この論文は、侵食や欠損、不規則な形状といった実世界の課題に直面する文化遺産の断片再構成に対し、自動解法と人間のインタラクションを統合したハイブリッド枠組みを提案し、大規模な断片の再構築において精度と効率を大幅に向上させることを示しています。
この論文は、顔属性学習におけるアノテーションの不一致を軽減するため、学習に悪影響を与えるサンプルを特定し、潜在拡散オートエンコーダーを用いて画像レベルでラベルと視覚内容の整合性を保ちながら修正する「DiffInf」という新しいフレームワークを提案し、その有効性を示したものである。
この論文は、合成図形を用いた知覚的競合実験を通じて、Vision Transformer(BEiT)が図地組織の曖昧さを後期層で解決し、凸性の優位性を決定づける特定の機能単位(特にアテンションヘッド L0H9)を特定し、その単一ヘッドの調整によって知覚的決定の分布を連続的に変化させられることを示しました。
この論文は、拡散モデルで生成された動画に物理シミュレータを統合して物体の運動軌跡を物理法則に準拠させ、さらにテスト時のテクスチャ最適化手法により一貫性を高めることで、物理的に整合性が高く視覚的品質も保たれた動画生成を実現する「PSIVG」という新しいフレームワークを提案しています。
本論文は、水槽環境における屈折歪みを考慮したステレオビジョン手法とYOLOv11-Poseネットワークを組み合わせ、小型淡水魚の非侵襲的な成長モニタリングを可能にする新しいシステムを提案し、スラウェシ米魚のデータセットを用いてその有効性を検証したものである。
本論文は、既存のゼロショットモデル「nnInteractive」の少数パラメータを継続的に適応させる「CLoPA」を提案し、多様な医療画像タスクにおいて単一のトレーニングエピソードで専門家レベルの性能を達成し、特に複雑な幾何学構造を持つ標的においても効果的であることを示しています。
この論文は、物理的な探索が困難な状況でもエージェントが目標状況への未来の軌道を精神的にシミュレーションし、状況に即した推論を行うことを可能にするため、想像に基づく探索シミュレーションと推論評価のための大規模データセット「WanderDream」を提案し、その有効性を検証したものです。
本論文は、従来の視覚トークナイザーが抱える因果性の欠如や順序付けの課題を解決し、MeanFlow デコーダーと VF M 特徴量に基づく正則化手法を採用することで、ImageNet 再構成において最先端の性能を達成する 1 次元因果画像トークナイザー「CaTok」を提案するものである。
Pinterest は、厳格な製品要件を満たすために汎用モデルではなくタスク固有のデータセットで迅速に微調整した専門モデル群を採用し、背景強化やアスペクト比の拡張などにおいて大幅なエンゲージメント向上と他社モデルを上回る性能を実現した大規模画像生成システム「Canvas」を提案しています。
この論文は、フローマッチングモデルのトレーニングにおける損失重み付けや出力パラメータ化の選択が、データ多様体の次元、モデル構造、データセットサイズとどのように相互作用するかを体系的に分析し、設計上の実用的な知見を提供することを目的としています。
本論文は、視覚言語モデルの凍結された特徴空間にテキスト生成経路では表現され得ない連続的な幾何学情報が埋め込まれており、軽量な線形プローブを用いることで微調整やテキスト生成なしに高精度な物理測定が可能であることを実証しています。
本論文は、大規模なデータと計算資源への依存を排し、効率的な教師信号設計(MUST)を採用することで、限られたリソースでも最先端の性能を発揮する放射線学基盤モデル「GreenRFM」を提案し、臨床現場での民主化と公平な発展を可能にすることを示しています。
医療画像など専門分野における動画アノテーションの効率化を目指し、DINOv3 特徴量と SIREN ベースの隐式ニューラル表現を組み合わせることで、点とマスクの両方のアノテーションを動画内および動画間で高精度に伝播させる軽量フレームワーク「Match4Annotate」を提案する。