cs.CV 편의 논문 | Gist.Science

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

이 논문은 의료 영상 이상 탐지의 어려움을 해결하기 위해 VMamba 와 Wide-ResNet 의 이원적 사전 지식을 매니폴드 차원에서 통합하고 이를 상보적인 두 개의 학생 모델로 증류하는 'PDD' 프레임워크를 제안하여 기존 최첨단 방법들을 크게 능가하는 성능을 달성했다고 요약할 수 있습니다.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

이 논문은 32 만 개의 3D 객체로 구성된 대규모 정규화 (canonicalization) 데이터셋 'CanoVerse'와 이를 자동화하는 프레임워크를 제안하여, 3D 생성의 안정성 향상, 정밀한 3D 형상 검색, 그리고 제로샷 포인트 클라우드 방향 추정 등 다양한 3D 학습 태스크의 성능을 획기적으로 개선합니다.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

이 논문은 시야 밖의 객체 상태가 고정되는 기존 생성형 비디오 월드 모델의 한계를 해결하기 위해, 관찰되지 않는 동안에도 객체가 진화하는 지속 가능한 글로벌 상태를 모델링하는 'LiveWorld' 프레임워크와 이를 평가하는 'LiveBench' 벤치마크를 제안합니다.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

이 논문은 환자 데이터 공유 없이 의료 AI 의 사생활을 보호하면서 오픈셋 환경에서의 노이즈를 효과적으로 제거하기 위해, 지역적 임상 도메인에 적응하는 가중치 공유 기반의 프롬프트 최적화를 통해 동적 VLM 게이트를 구축하는 'PromptGate' 프레임워크를 제안합니다.

Adea Nesturi, David Dueñas Gaviria, Jiajun Zeng, Shadi Albarqouni2026-03-10💻 cs

ACD-U: Asymmetric co-teaching with machine unlearning for robust learning with noisy labels

이 논문은 서로 다른 아키텍처 (CLIP 기반 비전 트랜스포머와 CNN) 를 활용한 비대칭 공동 교수법과 기계적 망각 기법을 결합하여, 노이즈가 있는 레이블 환경에서 샘플 선택 오류를 사후에 수정하고 확인 편향을 완화함으로써 기존 방법론보다 우수한 성능을 달성하는 ACD-U 프레임워크를 제안합니다.

Reo Fukunaga, Soh Yoshida, Mitsuji Muneyasu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

이 논문은 트랜스포머 기반 계산 병리학 모델의 해석 가능성을 높이기 위해 클래스 시각화와 활성화 지도를 체계적으로 평가하여, 조직 분류에서는 일관된 형태학적 개념을 포착하지만 세부 암 아종 분류에서는 내재적 병리학적 복잡성으로 인해 전문가 간 합의가 낮아지는 한계를 규명했습니다.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

FreeFly-Thinking : Aligning Chain-of-Thought Reasoning with Continuous UAV Navigation

이 논문은 OpenFly 기반의 도시 환경에서 복잡한 야외 장면을 위한 UAV 내비게이션을 위해 자연어 추론과 강화 학습을 결합한 FreeFly-Thinking 프레임워크를 제안하고, 이를 통해 새로운 데이터셋 구축과 두 단계 훈련 전략을 통해 뛰어난 성능을 입증했습니다.

Jiaxu Zhou, Shaobo Wang, Zhiyuan Yang, Zhenjun Yu, Tao Li2026-03-10💻 cs

FastSTAR: Spatiotemporal Token Pruning for Efficient Autoregressive Video Synthesis

이 논문은 비디오 생성 시 발생하는 토큰 폭주 문제를 해결하기 위해 공간적 및 시간적 유사성을 기반으로 불필요한 연산을 생략하는 'FastSTAR'라는 훈련 없는 가속화 프레임워크를 제안하여, 성능 저하 없이 비디오 합성 속도를 최대 2.01 배까지 향상시킨다고 설명합니다.

Sungwoong Yune, Suheon Jeong, Joo-Young Kim2026-03-10💻 cs

Shaping Parameter Contribution Patterns for Out-of-Distribution Detection

이 논문은 분류 모델이 예측 시 소수의 지배적인 매개변수에 의존하는 취약성을 해결하기 위해, 훈련 과정에서 과도한 매개변수 기여도를 보정하여 더 넓은 범위의 매개변수를 활용하도록 유도하는 '매개변수 기여 패턴 형성 (SPCP)' 방법을 제안함으로써 분포 외 (OOD) 데이터 탐지 성능을 향상시킵니다.

Haonan Xu, Yang Yang2026-03-10🤖 cs.LG

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

이 논문은 배경 문맥에 의존하지 않는 강건한 객체 표현을 학습하기 위해 구조적 사전 지식을 활용한 비대칭 증류와 시공간적 일관성 제약을 도입한 VINO(비문맥 객체를 위한 비디오 기반 불변성) 프레임워크를 제안하며, 이를 통해 밀집 비디오 데이터에서 객체 중심의 특징을 효과적으로 분리해내는 것을 보여줍니다.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

이 논문은 메모리, 지연 시간 및 데이터 제약이 엄격한 임상 환경에서 트랜스포머 기반 모델에 버금가는 정확도를 유지하면서도 파라미터와 연산량을 극도로 줄인 'LightMedSeg'라는 경량 3D 의료 영상 분할 아키텍처를 제안합니다.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

이 논문은 저해상도 이미지의 고주파 성분과 공간 해상도를 모두 보존하면서 스케일 간 의존성을 모델링하여 아티팩트를 줄이고 구조적 일관성을 향상시키는 비지도 학습 기반의 'BATDiff'라는 새로운 초해상도 모델을 제안합니다.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

이 논문은 고정된 가중치 오버라이딩의 한계를 극복하고, 인스턴스 조건에 따라 실시간으로 가중치 업데이트를 생성하는 기능적 신경 메모리 모듈인 HY-WU 프레임워크를 제안하여 지속적 학습과 즉각적인 개인화를 가능하게 합니다.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

이 논문은 텍스트 설명을 기반으로 거시적 텍스처와 미세한 조직 구조를 분리하여 생성하는 'FabricGen' 프레임워크를 제안함으로써, 기존 확산 모델의 한계를 극복하고 더 풍부하고 사실적인 직물 재료를 자동 생성하는 방법을 제시합니다.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

이 논문은 슬라이드 생성 모델의 성능을 정밀하게 평가하기 위해 배경 자료와 238 개의 인스턴스, 그리고 각 인스턴스당 약 54 개의 세부 체크리스트를 포함한 'PresentBench'라는 새로운 벤치마크를 제안하고, 이를 통해 기존 방법보다 인간 선호도와 높은 정합성을 보이며 NotebookLM 이 다른 방법들보다 우수함을 입증했습니다.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

이 논문은 고정된 그리드 간의 기하학적 불일치로 인해 기존 보간법이 실패하는 위성 원격 탐사 데이터의 문제를 해결하기 위해, 변환된 임베딩을 직접 예측하는 'LEPA'라는 새로운 아키텍처를 제안하고 그 유효성을 입증합니다.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

이 논문은 외부 제약 조건을 따르는 단일 단계 조건부 생성 및 역문제 해결을 위해, 샘플링 경로를 안내하는 대신 관찰 데이터에 부합하는 초기 노이즈 분포를 학습하는 '변분 흐름 맵 (Variational Flow Maps)' 프레임워크를 제안합니다.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

이 논문은 서양식 의류에 치중된 기존 벤치마크의 한계를 극복하기 위해 방글라데시 전통 의상 (사리, 판자니, 살와르 카메즈) 을 포함한 BD-VITON 데이터셋을 구축하고, 이를 기반으로 다양한 가상 의류 착용 모델들의 성능을 평가하고 개선점을 제시합니다.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

이 논문은 1,000 종 이상의 조류에 대한 이미지, 오디오, 텍스트 데이터를 통합한 대규모 데이터셋과 벤치마크를 구축하여, 조류 종별 정밀 이해와 다중 모달 질문 응답을 수행하는 최첨단 오픈소스 멀티모달 대화형 어시스턴트 'MAviS-Chat'을 제안합니다.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

이 논문은 적대적 학습에 특징 맵 평활화 기법을 결합하여 그래디언트 기반 설명의 노이즈와 불안정성을 해결하고, 인간이 신뢰할 수 있는 희소하고 안정적인 시얼리 맵을 생성하는 훈련 중심의 새로운 접근법을 제시합니다.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

← 이전 다음 →