cs.CV 件の論文 | Gist.Science

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

本論文は、悪天候下での LiDAR セマンティックセグメンテーションの性能低下に対処するため、データ拡張による意味的シフトを適応的に制御し、複数のベンチマークで最先端の結果を達成する「A3Point」という新しいフレームワークを提案しています。

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

本論文は、複数の視覚的・テキスト的条件を同時に満たす細粒度なマルチモーダル検索を評価するための大規模ベンチマーク「MCMR」を提案し、既存モデルの限界と条件意識型推論の重要性を実証的に明らかにしたものです。

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

この論文は、グラフィックデザインの美的評価を包括的に行うための新たなベンチマーク「AesEval-Bench」と学習データセットを提案し、既存の視覚言語モデル（VLM）の性能限界を明らかにするとともに、人間のガイドによる大規模なラベル付けと推論に基づく微調整を通じて、この分野における最初の体系的な評価枠組みを確立したものである。

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

本論文は、既存のテキスト埋め込み空間 SONAR を拡張して視覚・言語情報を統合する V-SONAR を提案し、これを用いて大規模概念モデル（LCM）を視覚言語タスクに拡張した V-LCM を開発することで、多言語・多モーダルな理解能力を大幅に向上させ、多数の言語で最先端のモデルを上回る性能を達成したことを示しています。

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

この論文は、医療画像分析における差分プライバシーの影響を、表現空間の構造的変換として解釈し、エンコーダの幾何学的変化とタスクヘッドの利用率の低下に分解して分析する新たなフレームワーク「DP-RGMI」を提案し、胸郭 X 線画像の大規模データを用いた検証を通じて、プライバシー保護が表現の等方性を均一に縮退させるのではなく、初期化やデータセットに依存した非単調な変化を引き起こすことを明らかにしています。

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

本論文は、限られた手描きサンプル（470 例）から油絵の筆触を生成するデータ効率の高い拡散モデル「StrokeDiff」を提案し、平滑化正則化（SmR）による学習安定化とベジェ曲線に基づく制御性の実現を通じて、表現豊かで構造化されたマルチメディアコンテンツ作成を可能にすることを示しています。

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

本論文は、スマートグラス上で動作する Web ネイティブの神経記号フレームワーク「Egocentric Co-Pilot」を提案し、大規模言語モデルと視覚・音声入力を統合して長期的な推論や意思決定を支援することで、視覚障害者や認知負荷の高い人々を含むユーザーの日常生活におけるアクセシビリティとタスク遂行能力を向上させることを実証しています。

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

本論文は、手術中の文脈に応じた特定の器具インスタンスを言語指示に基づいて特定する新たなベンチマーク「GroundedSurg」を提案し、既存の分類ベースの評価では捉えきれない臨床現場での視覚言語推論の必要性と課題を明らかにしたものである。

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

本論文は、医療画像セグメンテーションにおいて事前学習済みビジョンモデルを完全微調整せずに活用するため、DINOv3 の特徴を軽量なトークンプロトタイプ集約メカニズムで空間的ガイドマスクに変換し、既存のセグメンテーションアーキテクチャに事前知識を注入する「GuiDINO」というフレームワークを提案するものである。

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

本論文は、医療用視覚言語モデルの事実的幻覚を軽減し、局所的な病理学的証拠に基づいた推論を強化するため、視覚領域に根ざした推論プロセスを構築する自動データ生成パイプラインとスコアベースの最適化戦略を備えた「ClinCoT」という臨床意識型視覚連鎖推論フレームワークを提案し、複数の医療ベンチマークで既存手法を上回る性能を実証しています。

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

本論文は、複雑な構成的視覚関係（CVR）タスクを解決するため、正常な事例間の類似性を最大化し異常との差異を最小化する拡張異常コントラスト学習と、予測・検証のパラダイムを組み合わせた「PR-A²CL」を提案し、複数のデータセットで最先端の性能を達成したことを示しています。

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

この論文は、Vision Transformer 枠組み内で環境バイアス調整、直交性制約による内容とノイズの厳密な分離、そして Google の Nano Banana Pro を用いた因果的プリアの導入を通じて、画像ノイズ除去における因果的干渉と正交な内容・ノイズの解離を実現し、高い忠実度とリアルタイム処理性能を達成する「TCD-Net」を提案するものである。

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

本論文は、大規模な可動性データセットで学習された 3D 多モーダル大規模言語モデル「ArtLLM」を提案し、3D メッシュから可動アセットの部品配置と関節構造を推論して高品質な幾何形状を生成する新たなフレームワークを確立し、既存手法の限界を克服してロボティクスやシミュレーション向けにスケーラブルなデジタルツイン構築を実現することを示しています。

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

本論文は、ギガピクセル病理画像の計算的ボトルネックを解決するため、スパースなルーティングと重み付き集約を用いて診断的に重要な情報を保持しつつトークン数を大幅に削減する学習可能な「TC-SSA」フレームワークを提案し、SlideBench や TCGA などのベンチマークでサンプリングベースの手法を上回る性能を達成したことを示しています。

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

本研究は、超音波画像における針の視認性の低さや連続的な挿入中の追跡課題を解決するため、時間的依存関係をモデル化し新たな損失関数を導入したリアルタイム針検出フレームワーク「ConVibNet」を提案し、既存手法よりも高い精度で針の先端位置と角度を推定できることを実証したものである。

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

本論文は、ガウススプラット表現を用いた微分可能な実世界からシミュレーション、そして再び実世界へのエンジン「D-REX」を提案し、実世界の視覚観測とロボット制御信号から物体の質量を同定して高精度なデジタルツインを構築するとともに、限られたデータから力覚を考慮した把持ポリシーを学習することで、シミュレーションと実世界のギャップを効果的に埋めることを示しています。

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection

本論文は、高解像度リモートセンシング画像における変化検出の課題を解決するため、適応的特徴関連性・洗練（AFRAR）モジュールやゲーティング機構、差分アテンションを導入し、既存の最先端モデルを凌ぐ精度を少ないパラメータ数で達成する新しいフレームワーク「GRAD-Former」を提案するものである。

Durgesh Ameta, Ujjwal Mishra, Praful Hambarde + 1 more2026-03-03🤖 cs.AI

BeautyGRPO: Aesthetic Alignment for Face Retouching via Dynamic Path Guidance and Fine-Grained Preference Modeling

本論文は、人間の美的嗜好に合わせた顔のレタッチを実現するため、微細な好みを評価できる報酬モデルと、確率的な探索と高忠実度を両立させる動的経路誘導（DPG）を導入した強化学習フレームワーク「BeautyGRPO」を提案し、既存手法を上回る画質と美的整合性を達成したことを報告するものです。

Jiachen Yang, Xianhui Lin, Yi Dong + 4 more2026-03-03💻 cs

FREE-Edit: Using Editing-aware Injection in Rectified Flow Models for Zero-shot Image-Driven Video Editing

本論文は、編集領域に応じた注入強度を動的に制御する「編集意識注入（REE）」手法を提案し、これを Rectified Flow モデルに組み込むことで、微調整なしに高品質なゼロショット画像駆動型動画編集を実現する「FREE-Edit」フレームワークを構築したものである。

Maomao Li, Yunfei Liu, Yu Li2026-03-03💻 cs

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

本論文は、動画要約におけるモダリティの動的な重要性をフレームレベルで適応的に統合する「TripleSumm」アーキテクチャと、3 つのモダリティを備えた大規模ベンチマーク「MoSu」を提案し、既存手法を大幅に上回る性能を達成したことを示しています。

Sumin Kim, Hyemin Jeong, Mingu Kang + 3 more2026-03-03🤖 cs.LG

← 前へ次へ →