cs.CV 편의 논문 | Gist.Science

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

이 논문은 동형 암호화를 활용한 프라이버시 보호 신경망 추론을 위해 새로운 행렬 인코딩 기법을 제안하고, 이를 MNIST 손글씨 이미지 분류에 적용하여 암호화된 데이터를 클라우드에서 효율적으로 처리하는 방법을 제시합니다.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

이 논문은 양자 상태에 이미지를 저장하고 이중 심층 Q-러닝 기반 제어 알고리즘을 통해 측정 전까지 사생활 보호와 활용성을 동시에 조절할 수 있는 새로운 양자 기반 프라이버시 보호 카메라의 개념을 제안하고 시뮬레이션으로 그 가능성을 입증합니다.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

이 논문은 진단 영상에서 양성 및 악성 구조물의 위상적 동등성 문제를 해결하기 위해 지속적 호몰로지와 Lipschitz-Killing 곡률을 통합한 해석 가능한 GeoTop 프레임워크를 제안하며, 피부 병변 분류에서 정확도 향상과 오진율 감소를 입증했습니다.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

이 논문은 시각적 경계가 배경과 자연스럽게 융합된 위장 객체의 특징 학습을 위해 텍스트 - 이미지 확산 모델을 활용한 오픈-어휘 위장 인스턴스 분할 (OVCIS) 을 위한 새로운 방법을 제안하고, 이를 통해 기존 방법보다 우수한 성능을 입증했습니다.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

이 논문은 3DMM 의 표정 파라미터를 소스 이미지에 직접 전달하여 3D 사전 지식을 생성하는 삼면체 (tri-plane) 생성기와 외모와 표정을 분리하는 대비적 사전 학습 프레임워크를 통해, 단일 이미지에서 외모가 유지된 채 표정과 카메라 시점을 제어할 수 있는 3D 인식형 얼굴 애니메이션 방법인 Export3D 를 제안합니다.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

이 논문은 기존 방법들의 느린 처리 속도와 딥러닝 기반 방법들의 높은 훈련 비용 및 일반화 한계를 극복하기 위해, 학습 없이도 다양한 이미지 모달리티와 도메인에서 ANTs 보다 CPU 에서 2.5 배, GPU 에서 최대 1200 배 빠르고 메모리 효율이 뛰어난 적응형 리만 최적화 기반의 다중 스케일 밀도 변형 이미지 매칭 알고리즘 'FireANTs'를 제안합니다.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

본 논문은 3D CT 스캔, 전자의무기록 및 방사선 보고서를 대규모로 학습하여 2D 기반 모델의 한계를 극복하고 다양한 진단·예후·품질 평가 작업에서 뛰어난 일반화 성능을 입증한 새로운 3D 의료 비전 - 언어 기반 모델 'Merlin' 과 해당 데이터셋을 소개합니다.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

이 논문은 자율주행차의 인식 시스템이 도로 설계 가이드라인을 준수하는 현실적인 노변 물체 배치 (예: 쓰레기통) 만으로도 심각한 오인식 및 교통법규 위반을 유발할 수 있음을 보여주기 위해 제안한 'TrashFuzz'라는 블랙박스 페이징 공격 기법과 그 실험 결과를 요약합니다.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

이 논문은 가변 크기의 확산 모델을 효율적으로 초기화하기 위해 지식의 기본 구성 요소인 '러닝유전자 (learngenes)'를 학습하여 다양한 모델 크기에 재사용할 수 있는 새로운 사전 학습 방법인 FINE 을 제안합니다.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

이 논문은 1e17 에서 6e18 FLOPs 에 이르는 광범위한 컴퓨팅 예산을 통해 확산 트랜스포머 (DiT) 에도 전력 법칙 기반의 확장 법칙이 존재함을 최초로 입증하고, 이를 통해 최적 모델 크기와 데이터 요구량을 결정하며 생성 품질을 예측할 수 있음을 보여줍니다.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

이 논문은 고해상도 글리프 정보와 지각 손실, 주의 메커니즘 기반의 레이아웃 학습, 그리고 새로운 스타일 주입 기법을 통합하여 복잡한 텍스트의 정밀한 편집과 스타일 제어를 가능하게 하는 'TextMaster' 프레임워크를 제안합니다.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

이 논문은 로봇 공학의 이상 분할 작업을 위해 정규화 흐름 (Normalizing Flow) 모델에 대비 학습 (Contrastive Learning) 과 아웃라이어 노출 (Outlier Exposure) 전략을 결합하여, 기존 방법론의 한계를 극복하고 여러 벤치마크에서 새로운 최첨단 성능을 달성한 'FlowCLAS' 프레임워크를 제안합니다.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

이 논문은 장편 비디오 이해를 위해 손-물체 추적, 활동 구역 클러스터링, 환경 레이아웃 매핑을 통합한 시맨틱 그래프 기반 프레임워크 'VideoMindPalace'와 이를 평가하기 위한 벤치마크 'VMB'를 제안하여, LLM 기반의 시공간 일관성과 인간 유사 추론 능력을 향상시켰다고 요약할 수 있습니다.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

이 논문은 다양한 드롭아웃 및 최대 풀링 설정을 가진 세 개의 CNN 아키텍처를 통합하여 불균형 데이터셋 문제를 해결하고 LIME 기법을 통해 해석 가능성을 확보한 새로운 앙상블 모델인 DCENWCNet 을 제안하여 백혈구 분류 성능을 향상시켰음을 보여줍니다.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

이 논문은 기존 PEFT 방법의 높은 계산 비용 문제를 해결하기 위해 프리트레인된 3D 포인트 클라우드 트랜스포머와 병렬로 작동하는 그래프 합성곱 측 네트워크를 도입하여 파라미터 효율성과 시간·공간적 효율성을 동시에 극대화한 'STAG' 알고리즘과 새로운 벤치마크 'PCC13'을 제안합니다.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

이 논문은 다양한 보행 속도와 신발 조건에서 150 명의 참가자로부터 수집된 20 만 개 이상의 고해상도 발바닥 압력 데이터를 포함하는 'UNB StepUP-P150'이라는 새로운 공개 데이터셋을 소개하여, 보행 분석 및 생체 인식 연구의 새로운 기준을 제시합니다.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

이 논문은 2D 특징 맵 인코딩과 SMPL 기반 도메인 정제를 통해 대규모 학습을 가능하게 하고, 2 단계 학습 패러다임을 적용하여 기존 방법 대비 57% 향상된 품질로 인간 기하학의 생성 및 포즈 변환을 수행하는 새로운 생성 모델을 제안합니다.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

이 논문은 이차 순서 신경 미분 방정식 (SONO) 과 MultiKAN 레이어를 결합하여 해석 가능성, 표현력, 계산 효율성을 동시에 향상시키고 차원에 무관한 근사 능력을 이론적으로 입증한 새로운 의료 영상 분할 모델인 'Implicit U-KAN 2.0'을 제안합니다.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

이 논문은 326 개의 백본 모델을 분석하여 이미지 분류 모델의 정확도 외의 9 가지 품질 차원을 종합적으로 평가하고, 이를 바탕으로 다양한 훈련 전략과 아키텍처가 모델의 품질에 미치는 영향을 규명하며 다차원 품질을 종합적으로 평가하는 새로운 지표인 QUBA 점수를 제안합니다.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

이 논문은 인코더와 디코더를 함께 사전 학습하는 새로운 자기지도 학습 프레임워크인 'DeCon'을 제안하여, 기존 방법론보다 밀집 예측 작업의 성능을 획기적으로 개선함을 보여줍니다.

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

← 이전 다음 →