Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm
本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能(特に nrap 変異体における心筋症モデル)を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。
5768 件の論文
本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能(特に nrap 変異体における心筋症モデル)を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。
本論文は、大規模言語モデルを用いたカテゴリ固有の詳細な異常記述と、マルチスケール・多形状の交差モダリティ相互作用による高精度な局所化を組み合わせた新しいゼロショット異常検出手法「FiLo」を提案し、MVTec や VisA データセットにおいて最先端の性能を達成したことを報告しています。
この論文は、勾配降下法の「単純性バイアス」を軽減するために学習データ分布を調整する手法「USEFUL」を提案し、その理論的根拠を証明するとともに、CIFAR や ImageNet などの複数のデータセットにおいて最先端の汎化性能を実現したことを示しています。
この論文は、LiDAR の幾何学的手がかりとカメラ画像の Bird's Eye View 特徴を組み合わせる二段階学習フレームワーク「OS-Det3D」を提案し、自律運転における既知・未知の 3D 物体の検出能力を向上させることを目指しています。
本論文は、運転者の姿勢と相互作用する物体の情報を活用してトラン스포マーのトークン選択を最適化し、エッジデバイスでの効率的な実行を可能にしながら、運転中の注意散漫検出の精度と効率性を両立させた「PO-GUISE+」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。
本論文は、複数のカメラ画像、LiDAR 点群、セマンティックセグメンテーションマスク、およびテキスト記述を後期融合して包括的な場所記述子を生成する「MSSPlace」を提案し、Oxford RobotCar および NCLT データセットでの実験により、マルチモーダルなデータ統合が単一モダリティ手法を凌駕する最先端の場所認識性能を実現することを示しています。
この論文は、視覚障害者の移動支援を目的として、焦点グループ研究で特定された 90 種類の重要物体のラベル付きデータセットを公開し、既存のコンピュータビジョンモデルがこれらの物体の検出において不十分であることを示した研究です。
この論文は、高次元空間における因果モデルの課題を克服するため、VQ-VAE で学習した潜在空間に構造因果モデルを構築し、閉形式の一般化線形モデルを用いて高品質な 3D 脳 MRI 対反事実を生成する 2 段階手法を提案しています。
本論文は、複雑な水中環境における画像の品質低下や色収差などの課題に対処するため、USIS-SAM モデルに適応的チャネル注意機構を導入した「MV-Adapter」を提案し、水中インスタンスセグメンテーションの精度を向上させる手法を提示しています。
非線形な強度変化や極端な視点変化、ラベル付きデータ不足といった課題に対処するため、自己教師あり学習とモジュール設計を採用し、多様なマルチスペクトル画像の整合および登録タスクにおいて最先端の性能を発揮する新しいフレームワーク「XPoint」を提案する。
本論文は、音声とポーズの動的調和、頭部データの有効活用、およびフェーズ固有の損失関数を導入することで、追加条件を最小化しつつ高品質な半身人間アニメーションを実現する「EchoMimicV2」を提案し、既存手法を上回る性能を示すものです。
本論文は、単一のモノクロ画像から食品の3D 点雲を再構成し、2D 画像と 3D 点雲の両方の特徴を統合して深層回帰モデルを用いることで、物理的参照物や深度情報なしに高精度な食品分量推定を実現する新しいフレームワーク「MFP3D」を提案し、MetaFood3D データセットにおける既存手法を上回る性能を実証したものである。
本論文は、画像品質評価(IQA)をより微細なレベルで行うための新たなパラダイム「Grounding-IQA」を提案し、これを実現するための大規模データセット「GIQA-160K」とベンチマーク「GIQA-Bench」を構築するとともに、マルチモーダル大規模言語モデルを用いた詳細な品質評価手法を開発したことを示しています。
本論文は、観測データとノイズの情報を明示的に組み込んだ「DAWN-FM」という新しいフローマッチング手法を提案し、画像のぼけ除去や断層撮影など、ノイズや不完全なデータに起因する逆問題に対して、従来の事前学習済み拡散モデルよりも頑健で不確実性も定量化可能な高精度な解を導出することを示しています。
本論文は、大規模言語モデルを活用した融合型微細記述と、位置情報強化テキストおよび多スケール変形交差モダリティ相互作用を組み合わせた可変形状のアノマリー局在化技術により、ゼロショットおよびフューショット異常検出の精度を飛躍的に向上させる「FiLo++」を提案しています。
この論文は、直交基底に基づく多項式・三角関数・熱帯化活性化関数を提案し、適切な初期化により大規模モデルの安定した学習を可能にするだけでなく、古典的活性化関数への近似性を通じてファインチューニングへの応用価値を示すものである。
この論文は、急性虚血性脳卒中患者のルーチン CT 血管造影(CTA)画像から深層生成推論を用いて虚血性灌流欠損マップを生成し、病変の特定なしに NIHSS 下位スコアに対応する神経基盤を同定し、超急性期における臨床的・科学的価値を有する新たな機能解剖学的モデルを構築したことを示しています。
本論文は、CLIP が単一モダリティ内では属性と物体の結合情報を既に符号化しているものの、クロスモーダルな整合性の欠如によりバグ・オブ・ワーズのような振る舞いを示すことを発見し、単純な線形変換によってこの情報を復元可能であることを示しています。
本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。
この論文は、拡散モデルにおけるテキスト生成がパラメータの 1% 未満の注意層に限定されていることを発見し、この特定層を局所化することで、LoRA 微調整による性能向上、画像内テキスト編集、および有害テキストの防止など、多様な応用を可能にする手法を提案しています。