cs.CV 件の論文 | Gist.Science

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

本論文では、異なる実験条件や変異体への適用性を高めるために転移学習やデータ拡張などの手法を統合し、ゼブラフィッシュの心機能（特に nrap 変異体における心筋症モデル）を高精度かつ汎用的に定量化する「ZACAF」フレームワークの改良とその有効性を示しています。

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

本論文は、大規模言語モデルを用いたカテゴリ固有の詳細な異常記述と、マルチスケール・多形状の交差モダリティ相互作用による高精度な局所化を組み合わせた新しいゼロショット異常検出手法「FiLo」を提案し、MVTec や VisA データセットにおいて最先端の性能を達成したことを報告しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

この論文は、勾配降下法の「単純性バイアス」を軽減するために学習データ分布を調整する手法「USEFUL」を提案し、その理論的根拠を証明するとともに、CIFAR や ImageNet などの複数のデータセットにおいて最先端の汎化性能を実現したことを示しています。

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

この論文は、LiDAR の幾何学的手がかりとカメラ画像の Bird's Eye View 特徴を組み合わせる二段階学習フレームワーク「OS-Det3D」を提案し、自律運転における既知・未知の 3D 物体の検出能力を向上させることを目指しています。

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本論文は、運転者の姿勢と相互作用する物体の情報を活用してトラン스포マーのトークン選択を最適化し、エッジデバイスでの効率的な実行を可能にしながら、運転中の注意散漫検出の精度と効率性を両立させた「PO-GUISE+」を提案し、複数のデータセットで最先端の結果を達成したことを報告しています。

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

本論文は、複数のカメラ画像、LiDAR 点群、セマンティックセグメンテーションマスク、およびテキスト記述を後期融合して包括的な場所記述子を生成する「MSSPlace」を提案し、Oxford RobotCar および NCLT データセットでの実験により、マルチモーダルなデータ統合が単一モダリティ手法を凌駕する最先端の場所認識性能を実現することを示しています。

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

この論文は、視覚障害者の移動支援を目的として、焦点グループ研究で特定された 90 種類の重要物体のラベル付きデータセットを公開し、既存のコンピュータビジョンモデルがこれらの物体の検出において不十分であることを示した研究です。

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

この論文は、高次元空間における因果モデルの課題を克服するため、VQ-VAE で学習した潜在空間に構造因果モデルを構築し、閉形式の一般化線形モデルを用いて高品質な 3D 脳 MRI 対反事実を生成する 2 段階手法を提案しています。

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

本論文は、複雑な水中環境における画像の品質低下や色収差などの課題に対処するため、USIS-SAM モデルに適応的チャネル注意機構を導入した「MV-Adapter」を提案し、水中インスタンスセグメンテーションの精度を向上させる手法を提示しています。

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

非線形な強度変化や極端な視点変化、ラベル付きデータ不足といった課題に対処するため、自己教師あり学習とモジュール設計を採用し、多様なマルチスペクトル画像の整合および登録タスクにおいて最先端の性能を発揮する新しいフレームワーク「XPoint」を提案する。

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

本論文は、音声とポーズの動的調和、頭部データの有効活用、およびフェーズ固有の損失関数を導入することで、追加条件を最小化しつつ高品質な半身人間アニメーションを実現する「EchoMimicV2」を提案し、既存手法を上回る性能を示すものです。

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

本論文は、単一のモノクロ画像から食品の3D 点雲を再構成し、2D 画像と 3D 点雲の両方の特徴を統合して深層回帰モデルを用いることで、物理的参照物や深度情報なしに高精度な食品分量推定を実現する新しいフレームワーク「MFP3D」を提案し、MetaFood3D データセットにおける既存手法を上回る性能を実証したものである。

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

本論文は、画像品質評価（IQA）をより微細なレベルで行うための新たなパラダイム「Grounding-IQA」を提案し、これを実現するための大規模データセット「GIQA-160K」とベンチマーク「GIQA-Bench」を構築するとともに、マルチモーダル大規模言語モデルを用いた詳細な品質評価手法を開発したことを示しています。

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

本論文は、観測データとノイズの情報を明示的に組み込んだ「DAWN-FM」という新しいフローマッチング手法を提案し、画像のぼけ除去や断層撮影など、ノイズや不完全なデータに起因する逆問題に対して、従来の事前学習済み拡散モデルよりも頑健で不確実性も定量化可能な高精度な解を導出することを示しています。

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

本論文は、大規模言語モデルを活用した融合型微細記述と、位置情報強化テキストおよび多スケール変形交差モダリティ相互作用を組み合わせた可変形状のアノマリー局在化技術により、ゼロショットおよびフューショット異常検出の精度を飛躍的に向上させる「FiLo++」を提案しています。

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

この論文は、直交基底に基づく多項式・三角関数・熱帯化活性化関数を提案し、適切な初期化により大規模モデルの安定した学習を可能にするだけでなく、古典的活性化関数への近似性を通じてファインチューニングへの応用価値を示すものである。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

この論文は、急性虚血性脳卒中患者のルーチン CT 血管造影（CTA）画像から深層生成推論を用いて虚血性灌流欠損マップを生成し、病変の特定なしに NIHSS 下位スコアに対応する神経基盤を同定し、超急性期における臨床的・科学的価値を有する新たな機能解剖学的モデルを構築したことを示しています。

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

本論文は、CLIP が単一モダリティ内では属性と物体の結合情報を既に符号化しているものの、クロスモーダルな整合性の欠如によりバグ・オブ・ワーズのような振る舞いを示すことを発見し、単純な線形変換によってこの情報を復元可能であることを示しています。

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

本論文は、視覚・聴覚・テキスト入力を同時に評価する初のオムニモーダル動画理解ベンチマーク「WorldSense」を提案し、既存モデルが現実世界のシナリオ理解において依然として課題を抱えていることを示すとともに、今後の開発指針を提供することを目的としています。

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

この論文は、拡散モデルにおけるテキスト生成がパラメータの 1% 未満の注意層に限定されていることを発見し、この特定層を局所化することで、LoRA 微調整による性能向上、画像内テキスト編集、および有害テキストの防止など、多様な応用を可能にする手法を提案しています。

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

← 前へ次へ →