Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能(特に nrap 変異体における心筋症モデル)を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本論文は、大規模言語モデルを用いたカテゴリ固有の詳細な異常記述と、マルチスケール・多形状の交差モダリティ相互作用による高精度な局所化を組み合わせた新しいゼロショット異常検出手法「FiLo」を提案し、MVTec や VisA データセットにおいて最先端の性能を達成したことを報告しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

この論文は、勾配降下法の「単純性バイアス」を軽減するために学習データ分布を調整する手法「USEFUL」を提案し、その理論的根拠を証明するとともに、CIFAR や ImageNet などの複数のデータセットにおいて最先端の汎化性能を実現したことを示しています。

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本論文は、運転者の姿勢と相互作用する物体の情報を活用してトラン스포マーのトークン選択を最適化し、エッジデバイスでの効率的な実行を可能にしながら、運転中の注意散漫検出の精度と効率性を両立させた「PO-GUISE+」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本論文は、複数のカメラ画像、LiDAR 点群、セマンティックセグメンテーションマスク、およびテキスト記述を後期融合して包括的な場所記述子を生成する「MSSPlace」を提案し、Oxford RobotCar および NCLT データセットでの実験により、マルチモーダルなデータ統合が単一モダリティ手法を凌駕する最先端の場所認識性能を実現することを示しています。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

非線形な強度変化や極端な視点変化、ラベル付きデータ不足といった課題に対処するため、自己教師あり学習とモジュール設計を採用し、多様なマルチスペクトル画像の整合および登録タスクにおいて最先端の性能を発揮する新しいフレームワーク「XPoint」を提案する。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本論文は、単一のモノクロ画像から食品の3D 点雲を再構成し、2D 画像と 3D 点雲の両方の特徴を統合して深層回帰モデルを用いることで、物理的参照物や深度情報なしに高精度な食品分量推定を実現する新しいフレームワーク「MFP3D」を提案し、MetaFood3D データセットにおける既存手法を上回る性能を実証したものである。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本論文は、画像品質評価(IQA)をより微細なレベルで行うための新たなパラダイム「Grounding-IQA」を提案し、これを実現するための大規模データセット「GIQA-160K」とベンチマーク「GIQA-Bench」を構築するとともに、マルチモーダル大規模言語モデルを用いた詳細な品質評価手法を開発したことを示しています。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本論文は、観測データとノイズの情報を明示的に組み込んだ「DAWN-FM」という新しいフローマッチング手法を提案し、画像のぼけ除去や断層撮影など、ノイズや不完全なデータに起因する逆問題に対して、従来の事前学習済み拡散モデルよりも頑健で不確実性も定量化可能な高精度な解を導出することを示しています。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本論文は、大規模言語モデルを活用した融合型微細記述と、位置情報強化テキストおよび多スケール変形交差モダリティ相互作用を組み合わせた可変形状のアノマリー局在化技術により、ゼロショットおよびフューショット異常検出の精度を飛躍的に向上させる「FiLo++」を提案しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Deep generative computed perfusion-deficit mapping of ischaemic stroke

この論文は、急性虚血性脳卒中患者のルーチン CT 血管造影(CTA)画像から深層生成推論を用いて虚血性灌流欠損マップを生成し、病変の特定なしに NIHSS 下位スコアに対応する神経基盤を同定し、超急性期における臨床的・科学的価値を有する新たな機能解剖学的モデルを構築したことを示しています。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

この論文は、拡散モデルにおけるテキスト生成がパラメータの 1% 未満の注意層に限定されていることを発見し、この特定層を局所化することで、LoRA 微調整による性能向上、画像内テキスト編集、および有害テキストの防止など、多様な応用を可能にする手法を提案しています。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs