cs.CV 件の論文 | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

本論文は、偏光 BRDF モデルと深度ガイド可視性マスクを導入して拡散成分と鏡面反射成分を物理的に分離し、高速かつ高精度な反射表面の再構築を実現する「PolGS++」を提案するものである。

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

この論文は、ビジョン・トランスフォーマーにおけるバックドア攻撃の内部表現として「トリガ方向」を特定し、その因果的役割を実証するとともに、層ごとの処理メカニズムの差異や敵対的攻撃との関連性を分析し、重みベースの検出手法を提案することで、機械的解釈性を用いたセキュリティ脆弱性の診断と対策の枠組みを示しています。

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

この論文は、中国絵画の専門的評価を可能にする大規模視覚言語モデル「HanMoVLM」を提案し、専門家による検証付きの思考連鎖と報酬関数を用いて評価精度を向上させ、画像生成におけるテスト時スケーリングの検証器として機能させることを実証しています。

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

この論文は、現実世界の複雑な条件（重なりや照明のばらつきなど）を反映した 32 種類の薬品 8262 画像からなるインスタンスセグメンテーションデータセット「MEDISEG」を提案し、これを用いた AI モデルが既存データセットよりも優れた薬物誤認防止性能を示すことを実証しています。

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

本論文は、大規模基盤モデルの推論コストを抑えつつ不確実性を定量化する新しい予測ヘッドを導入し、ベイズ能動学習の原理に基づいて最も情報量の多い領域を自動的に特定する「BALD-SAM」というフレームワークを提案し、多様なドメインにおいて人間やオラクルの指示を上回るインタラクティブセグメンテーション性能を実現したことを報告しています。

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

本論文は、現実的なドメインシフト下での薬剤安全向上を目的とした自動ピル認識システムについて、複雑な環境やオーバーラップ条件下での局在化能力の低下を指摘しつつ、少量のラベル付きデータによるファインチューニングが意味的な認識性能の急速な適応と実用化への診断的有用性を示すことを明らかにしています。

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

既存のシグナル競合ベンチマークが示すバイアス推定の不安定性や曖昧さを克服するため、明確な定義に基づくバランスの取れたデータセットと評価指標「REFINED-BIAS」を導入し、モデルの形状・テクスチャバイアスを信頼性高く診断可能な枠組みを提案する論文です。

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

この論文は、外部センサーや追加インフラを必要とせず、市販のラップトップに内蔵された Wi-Fi ハードウェアのみを用いて、新しい「レンジフィルタード・ドップラースペクトル（RF-DS）」技術と適応的多レート処理フレームワークにより、低コストかつプライバシーに配慮した人間の存在検知を実現する初のソリューションを提案しています。

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

本論文は、乳がん超音波診断の臨床ワークフローに即し、病変の局所化から属性分析、証拠に基づく推論までを階層的なマルチエージェントが担う「UltrasoundAgents」を提案し、段階的な学習戦略により診断精度と証拠の追跡可能性を向上させることを示しています。

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

この論文は、マルチモーダル大規模言語モデルが長文脈で視覚情報の重要性を失う「視覚の薄れ」現象を、視覚とテキストトークン間の距離に依存しない新しい位置符号化手法「DIPE」を導入することで解決し、長文脈においても安定した視覚的根拠を維持できることを示しています。

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

本論文は、CLIP のクロスモーダル能力を活用した「ハゼからクリアへのテキスト指向損失」と、LoRA パラメータと注入層を同時に学習する「バイレベル層位置決め LoRA（BiLaLoRA）」戦略を提案し、ラベルなしデータを用いた実画像の除霧性能を大幅に向上させる手法を提示しています。

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

本論文は、スパースな入力点群を拡散モデルで高品質な画像に修復し、ランダムサンプリングドロップと重み付き勾配を用いた再構築戦略により、最小限の入力画像から高品質で 3 次元整合性の高い 3D ガウススプラッティング（3DGS）を生成する「S2D」と呼ばれる新規パイプラインを提案するものである。

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

この論文は、口腔がん病変の検出において、シングルトン設計パターンとバッチ処理を採用した新アーキテクチャ「OC-RPAv2」が、標準的な RPA 法に比べて 60〜100 倍の効率向上と大幅な予測時間短縮を実現したことを示しています。

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

本論文は、視覚・言語・ロボット状態の情報を多モーダル潜在空間に圧縮保存する「マルチモーダル潜在リプレイ」とタスク埋め込みの進化を正則化する「インクリメンタル調整」を組み合わせた新しい生涯模倣学習フレームワークを提案し、LIBERO ベンチマークにおいて既存手法を大幅に上回る性能と忘却の抑制を実現したことを報告しています。

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

本研究は、大規模な高品質データセットと多段階評価フレームワークを用いて開発した口腔顎顔面 CBCT 報告生成システム「CBCTRepD」が、経験レベルを問わず放射線科医の報告品質を向上させ、見落としを減少させる実用的な AI 支援ツールであることを示しています。

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

本論文は、複数のガウス混合モデルクラスタリングの制約を反復的に選択・最適化する「Historical Consensus Training」を導入することで、アーキテクチャの制約やハイパーパラメータの調整なしに、変分オートエンコーダにおける後方崩壊を根本的に防止し、安定した潜在表現を学習可能にする手法を提案しています。

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

本論文は、大規模なマルチモーダルデータや膨大なデータセットに依存せず、3 万 9 千点の点雲のみで学習された軽量トランスフォーマー「Pointy」を提案し、その設計と統一的な評価枠組みを通じて、より大規模なモデルに匹敵する性能を達成することを示しています。

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

この論文は、動画の画質が分類精度に与える影響を考慮し、画質評価（VQA）と動画分類を相互に調整する自己教師あり学習ベースの「SSL-V3」モデルを提案し、医療用動画データセットなどでの高い分類精度を実証したものである。

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

プライバシー制約と通信コストの課題を解決するため、Med-DualLoRA はグローバル共有とローカル適応を分離するパラメータ効率型連合学習フレームワークを提案し、3D 心臓 MRI における疾患検出タスクで他の手法を上回る性能と効率性を達成しました。

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

本論文は、低照度画像の輝度と色情報の分離や分布の不一致という課題を解決するため、分散に基づくチャネル再較正（VCR）フレームワークを提案し、適応的調整と分布整合モジュールを通じて画質を向上させ、既存手法を上回る性能を達成したことを報告しています。

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

← 前へ次へ →