cs.CV 件の論文 | Gist.Science

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

本論文は、深層学習による画像解析と家族歴データを統合した解釈可能な AI 枠組みを開発し、皮膚疾患の診断精度向上と臨床実装への道筋を示すことを目的としている。

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

本論文は、限られたラベル付きデータにおける3D物体検出の精度向上を目指し、教師モデルの幾何学的知識を学生モデルへ転送するキーポイントベースの幾何関係監視モジュールと、距離減衰メカニズムを備えたボクセル単位データ拡張戦略を提案する「GeoTeacher」を提案し、ONCEおよびWaymoデータセットで最先端の結果を達成したことを報告しています。

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

本研究は、深層学習モデルとオブジェクトベース画像解析を統合した「ForCM」手法を提案し、アマゾン熱帯雨林のマルチスペクトル・センチネル 2 画像を用いた森林被覆マッピングにおいて、従来の手法よりも高い精度を達成したことを示しています。

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

← 前へ次へ →

cs.CV

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

Aligned explanations in neural networks

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Counterfactual Explanations on Robust Perceptual Geodesics

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Investigating Disability Representations in Text-to-Image Models

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention