cs.CV 件の論文 | Gist.Science

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

本論文は、拡散モデルの段階ごとのスパース性スケジュールを進化探索で最適化し、モデル複製なしにメモリ効率よく実行する「Diff-ES」という構造剪定フレームワークを提案し、DiT や SDXL における生成品質を維持しつつ大幅な高速化を実現するものです。

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

本論文は、NK 細胞と腫瘍細胞の相互作用から細胞死の帰結を時間経過とともに予測し、解釈可能な行動モードを抽出するための、軌跡ベースの再帰的状態空間モデル「BLINK」を提案するものである。

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

本論文は、異なるモダリティや属性定義を単一のモデルで統合的に処理し、既存の手法に匹敵する性能と優れた汎化能力を実現する歩行者属性認識のための統一フレームワーク「UniPAR」を提案するものです。

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

本論文は、勾配の不安定性や鋭い極小値への収束といった既存の手法の課題を克服するため、グローバルな意味情報に基づいて不整合なクリップを特定・再配向し、多目的最適化関数を用いて視覚的差異を最大化しつつ意味的一貫性を保つ「SRasP」という新たな敵対的スタイル摂動手法を提案し、ドメイン間少ショット学習の汎化性能を向上させることを示しています。

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

この論文は、人間の認知に着想を得て、タスクの複雑さに応じて即座に行動するか推論するか、あるいは異常検知時に実行を中止するかを動的に選択する適応型フレームワークを提案し、視覚情報のみを用いることで少量のデータでも高い精度でタスク複雑性を検出できることを実証しています。

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

本論文は、複雑な照明下での光沢のある表面の再構築を可能にするため、直接反射と間接反射をそれぞれモデル化し、幾何学的な事前知識を活用して反射領域のフォトメトリック損失を調整する「SSR-GS」と呼ばれる新しいフレームワークを提案し、合成および実世界のデータセットにおいて最先端の性能を達成することを示しています。

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

本研究は、胸部 X 線画像の診断モデルにおける人種的バイアス（ショートカット学習）を抑制しつつ診断精度を維持するために、単純な肺領域の切り出し（クロッピング）が効果的な前処理手法であることを明らかにしました。

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

この論文は、モーションブラーを含むぼやけた画像からジェネリックカメラを較正する際、幾何学的制約と局所的なパラメトリック照明モデルを用いて特徴点位置と空間的に変化する点広がり関数を同時に推定し、従来の画像復元では無視される並進の曖昧さを解決する手法を提案し、その有効性を実験で検証したものである。

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

本論文は、マルチモーダルグラフの構造的関係性を活用し、クロスモーダル整合性の欠如と異種モダリティの偏りを解決するために、グラフ条件付き VLM とモダリティ適応型インストラクションチューニングを導入した LLM 向け統合理論フレームワーク「Mario」を提案し、多様なベンチマークで最先端の性能を達成したことを報告しています。

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

本論文は、視覚的手がかりから学習可能な論理ルールを符号化し、患者の活動認識において「なぜ」そのリスクが発生するかを説明可能な推論と介入シミュレーションを可能にする、初の論理統合型フレームワーク「Logi-PAR」を提案し、臨床ベンチマークで最先端の性能を達成したことを報告しています。

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

この論文は、医療画像セグメンテーションにおけるクラス不均衡とバイアス問題に対処するため、クラス条件付き特徴分布の学習を通じて教師あり・表現バイアスを軽減するプラグアンドプレイモジュール「SCDL」を提案し、Synapse および AMOS データセットでの実験により、特に少数クラスの性能向上を含む最先端の結果を実証したものである。

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

本論文は、衛星画像と物理モデル（表面エネルギー収支や移流拡散反応方程式）を統合し、半教師あり学習と物理ガイド付き注意機構を用いて、地上観測点の不足を補いながら近地表気温を物理的に整合性のある高精度で推定する「SPyCer」という手法を提案し、その有効性を示したものである。

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

← 前へ次へ →

cs.CV

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Generic Camera Calibration using Blurry Images

Mario: Multimodal Graph Reasoning with Large Language Models

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers