cs.CV 件の論文 | Gist.Science

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

本論文は、継続的テスト時適応（CTTA）において、既存研究が固定化してきたマスキングの「家族（空間的か周波数的か）」を体系的に評価し、トランスフォーマーアーキテクチャでは空間的マスキングが安定性を保つ一方、CNN や微細なタスクでは周波数マスキングが有効となるなど、アーキテクチャとタスクの整合性に応じた最適なマスキング戦略を明らかにした。

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

本論文は、脳機能ネットワークを構成するノイズの多い fMRI 信号を堅牢な意味トークンに集約し、自己蒸留と学習カリキュラムを用いて安定した抽象表現を学習する自己教師ありフレームワーク「Brain-Semantoks」を提案し、これにより少量のラベル付きデータやドメイン適応なしでも多様な下流タスクで高い性能を発揮できることを示しています。

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

この論文は、画像とテキストの多段階的な粒度（文やフレーズなど）を階層的に整合させるために、動的なプーリングと新しい対照損失関数（β-CAL）を導入した新しいフレームワーク「β-CLIP」を提案し、ハードネガティブなしで学習する手法の中で最先端の密な視覚言語対応を実現したことを示しています。

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP は、単眼動画から物理的に妥当な人間運動とシミュレーション対応の環境幾何学を復元し、接触ガイダンスと強化学習を用いることで、従来の手法に比べてモーション追跡の失敗率を大幅に低減し、リアルからシミュレーションへの応用を可能にする手法です。

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

本論文は、拡散モデルやフローマッチングの多段階サンプリングに伴う非効率性を解消するため、ヤコビアン・ベクトル積の計算を不要としながら Classifier-Free Guidance を活用して ImageNet 256x256 において MeanFlow よりも優れた性能を達成する、ゼロから学習可能なワンステップ生成フレームワーク「SoFlow」を提案しています。

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

本論文は、深層学習による画像解析と家族歴データを統合した解釈可能な AI 枠組みを開発し、皮膚疾患の診断精度向上と臨床実装への道筋を示すことを目的としている。

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

本論文は、限られたラベル付きデータにおける3D物体検出の精度向上を目指し、教師モデルの幾何学的知識を学生モデルへ転送するキーポイントベースの幾何関係監視モジュールと、距離減衰メカニズムを備えたボクセル単位データ拡張戦略を提案する「GeoTeacher」を提案し、ONCEおよびWaymoデータセットで最先端の結果を達成したことを報告しています。

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

本研究は、深層学習モデルとオブジェクトベース画像解析を統合した「ForCM」手法を提案し、アマゾン熱帯雨林のマルチスペクトル・センチネル 2 画像を用いた森林被覆マッピングにおいて、従来の手法よりも高い精度を達成したことを示しています。

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Diffusion Transformer の推論高速化におけるキャッシュ誤差を最小化し、既存の誤差補正手法に追加の計算コストなしに統合可能な動的計画法ベースのプラグイン「CEM」を提案し、これにより生成忠実度を大幅に向上させることを示した。

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Aligned explanations in neural networks

この論文は、予測の根拠となる説明を設計段階で保証する「説明の整合性」を実現するため、統計的知能と疑似線形構造を融合させた新しい深層学習フレームワーク「PiNets」を提案し、画像分類やセグメンテーションタスクにおいてその有効性を示しています。

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

本論文は、新しい物体とスタイルを同時に導入する際に従来手法が抱える課題を解決するため、物体とスタイルのそれぞれに対応する 2 つのテキストプロンプトを単一のノイズ除去軌道に注入し、クロスアテンションによる物体融合と自己アテンションによるスタイル融合を組み合わせる軽量かつ学習不要なフレームワーク「TP-Blend」を提案するものである。

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

この論文は、CLIP 駆動の勾配と幾何学的制約（軟 ICP や貫通損失）を組み合わせ、事前学習モデルの再訓練なしでテキスト指示に基づいたゼロショット 3D メッシュ間の位置・回転・スケールを最適化する「Copy-Transform-Paste」手法を提案し、その有効性を新たなベンチマークで実証したものです。

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

本論文は、人間の知覚に整合するロバストな視覚特徴から誘導されたリッチマン計量を用いて、モデルの予測変化を最小限の意味的摂動で実現する「知覚的対極測地線（PCG）」を提案し、従来の平坦な幾何学に基づく手法が抱えるオフ・マンホールドのアーティファクトや意味的ドリフトを解消し、より滑らかで意味的に妥当な対極説明を可能にすることを示しています。

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

本論文は、現実世界の視覚的ノイズや複雑な推論課題に対処するため、マルチターン・多エンティティ・多スケールにわたる視覚・テキスト検索を可能にし、強化学習を通じて深層調査能力を内包させた新しいマルチモーダル大規模言語モデル「Vision-DeepResearch」を提案し、既存の最先端モデルやクローズドソースの基盤モデルを大幅に凌駕する性能を実証しています。

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

この論文は、異常検出における文脈依存性を扱うため、被験者と文脈の互換性を学習する新しいフレームワークとベンチマーク（CAAD-3K）を提案し、既存手法を大幅に上回る性能を達成したことを報告しています。

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

本論文は、多モーダル大規模言語モデルの感情理解能力を向上させるため、心の理論（ToM）に基づく階層的ベンチマーク「HitEmotion」、ToM 誘導の推論チェーン、および中間メンタル状態を教師信号とする強化学習手法「TMPO」を提案し、これらが最先端モデルの感情推論能力の欠陥を明らかにするとともに、精度と推論の忠実性を高めることを実証したものである。

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

本論文は、拡散モデルの事後学習量子化において、異なる時間ステップの勾配方向を整合させるために校正サンプルに最適な重みを学習する新しい手法を提案し、CIFAR-10、LSUN-Bedrooms、ImageNet における実験で既存手法を上回る性能を実証したものである。

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

この論文は、動画理解におけるトークンの冗長性を解決するため、正解への貢献度を明示的に最適化する強化学習ベースの新しいトークン圧縮手法「CaCoVID」を提案し、効率的な推論を実現するものである。

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

本論文は、物理的性質が未知の条件下でも多視点映像から布の動的挙動を教師なしで学習する新たな枠組み「CloDS」を提案し、メッシュベースのガウススプラッティングを用いた双方向マッピングにより、複雑な変形や自己遮蔽に対処しながら高い汎化性能を実現することを示しています。

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

本論文は、既存のベンチマークが抱える視覚検索の漏洩や非現実的な評価シナリオといった課題を解決するため、現実的な条件下でのマルチモーダル大規模言語モデルの視覚・テキスト検索能力を評価する「Vision-DeepResearch Benchmark（VDR-Bench）」を構築し、さらに効果的な視覚検索を可能にする多段階の切り抜き検索ワークフローを提案するものです。

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

← 前へ次へ →

cs.CV