SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection
이 논문은 희귀 병변 탐지의 장기 꼬리 문제를 해결하기 위해, 웨이블릿 도메인에서 주파수 정보를 활용한 조건부 확산 모델을 도입하여 제어 가능한 합성 데이터 생성을 가능하게 하고 탐지 성능을 획기적으로 개선한 SALIENT 프레임워크를 제안합니다.
6599 편의 논문
이 논문은 희귀 병변 탐지의 장기 꼬리 문제를 해결하기 위해, 웨이블릿 도메인에서 주파수 정보를 활용한 조건부 확산 모델을 도입하여 제어 가능한 합성 데이터 생성을 가능하게 하고 탐지 성능을 획기적으로 개선한 SALIENT 프레임워크를 제안합니다.
이 논문은 Bråtelund 과 Rydell 이 제기한 질문의 첫 번째 중요한 사례로, 호환되는 세 개의 기본 행렬 (fundamental matrix) 과 기본 행렬 (essential matrix) 의 기하학적 호환성 다양체를 완전히 특징짓는 새로운 4 차 다항식 제약 조건과 다중 차수를 계산하여 기존 연구의 불완전한 대수적 제약을 보완합니다.
이 논문은 의료 영상 분할에서 평균 풀링으로 인한 고주파 공간 정보 손실 문제를 해결하기 위해, 명시적으로 지도된 구조 추출 분기를 통해 동적 커널을 생성하는 구조 유도 동적 합성곱 (SGDC) 메커니즘을 제안하고, 이를 통해 경계 충실도를 크게 향상시킨 것을 보여줍니다.
이 논문은 U-Net 의 잠재 공간에 정규화를 도입하여 예측의 일반화 능력을 향상시키고, 추가 파라미터 없이도 지속 학습에서의 과업 간 전이와 드리프트 감소를 가능하게 하는 'SegReg' 프레임워크를 제안하고 의료 영상 분할 작업에서 그 유효성을 입증합니다.
이 논문은 동적 비전 센서 (DVS) 데이터의 부족 문제를 해결하기 위해 유니티 엔진 기반의 ANTShapes 프레임워크를 소개하여, 통계적 원리를 적용해 다양한 3D 장면과 객체 행동을 시뮬레이션하고 이상 탐지 등 컴퓨터 비전 연구에 필요한 맞춤형 뉴로모픽 데이터셋을 생성할 수 있도록 합니다.
이 논문은 얼굴 랜드마크와 고유 식별자를 구조적으로 결합한 152 차원의 'LIDMark' 워터마크와 Factorized-Head Decoder 를 활용하여 딥페이크 탐지, 변조 위치 특정, 출처 추적을 하나의 통합된 프레임워크로 동시에 수행하는 강력한 프로액티브 포렌식 솔루션을 제안합니다.
이 논문은 뇌 MRI 의 3D 의료 영상에서 파생된 사전 학습된 기반 모델을 고정하고 각 작업별 저랭크 적응 (LoRA) 모듈만 학습함으로써, 제한된 라벨 데이터 하에서 순차적 학습 시 이전 작업의 망각을 완전히 제거하고 두 가지 다른 작업 (종양 분할 및 뇌 나이 추정) 에서 균형 잡힌 성능을 달성하는 Few-Shot continual learning 방법을 제안합니다.
이 논문은 10 만 명 이상의 환자 데이터를 포함한 방사선 치료 빅데이터의 효율적인 관리를 위해, 메타데이터에 의존하지 않고 딥러닝 기반의 용량-부피 중첩 분석을 통해 치료 부위를 자동으로 분류하는 정확하고 확장 가능한 소프트웨어를 개발하고 검증한 연구입니다.
본 논문은 긴 형식의 비디오 질문 응답 작업에서 기존 신경 심볼릭 접근법의 높은 지연 시간 문제를 해결하기 위해, CLIP 기반의 적응형 샘플링과 배치화된 명제 감지를 도입하여 지연 시간을 획기적으로 줄이면서도 정확도는 유지하는 LE-NeuS 프레임워크를 제안합니다.
이 논문은 복잡한 보정 없이 RGB 와 다른 센서 데이터 간의 정렬을 가능하게 하여 대규모 RGB-X 데이터 수집의 병목 현상을 해결하는 새로운 3D 일관성 기반 뷰 합성 방법을 제시합니다.
이 논문은 안전이 중요한 3D 장면 모델링을 위해 렌더링 품질과 계산 효율성을 해치지 않으면서 단일 순전달로 우연적 및 인식적 불확실성을 모두 정량화할 수 있는 '증거 기반 신경 방사선장 (Evidential NeRF)'을 제안하고, 이를 통해 기존 방법들보다 뛰어난 장면 재구성 정확도와 불확실성 추정 능력을 입증합니다.
이 논문은 자율주행의 비전 기반 BEV 세그멘테이션 성능을 향상시키기 위해, 학습 단계에서만 활용되는 역뷰 변환 네트워크를 통해 뷰 사이클 일관성 정규화 프레임워크인 CycleBEV 를 제안하고 다양한 변환 모델에서 일관된 성능 개선을 입증합니다.
이 논문은 사전 훈련된 비모달 모델의 파라미터를 수정하지 않고 초고차원 컴퓨팅을 활용한 상징적 연산만으로 시각 및 언어 모델 간의 정렬을 수행하여 효율적인 이미지 캡셔닝을 가능하게 하는 HDFLIM 프레임워크를 제안합니다.
이 논문은 대용량 이미지 데이터의 고차원 특징을 메모리 오버헤드 없이 효율적으로 처리하기 위해 배치 단위로 증분적으로 차원을 축소하는 알고리즘을 제안하여, 기존 최첨단 이상 탐지 모델의 학습 속도를 가속화하면서도 높은 정확도를 유지함을 보여줍니다.
이 논문은 XR(가상·증강·혼합 현실) 이 교육에 혁신을 가져오지만, 높은 비용과 기술적 난제, 개인정보 보호 및 윤리적 문제 등 광범위한 도입을 가로막는 장벽을 극복하고 규제 준수와 사이버 보안을 통해 혁신과 접근성, 윤리 사이의 균형을 찾는 것이 중요함을 논의합니다.
이 논문은 가시성 주석이 포함된 대규모 이기센트릭 HPE 데이터셋 'Eva-3M'을 구축하고, 가시성 정보를 명시적으로 활용하여 추정 정확도를 높인 새로운 방법론 'EvaPose'를 제안함으로써 기존 연구의 한계를 극복하고 최첨단 성능을 달성했습니다.
이 논문은 명령어 기반 이미지 편집 모델의 소규모 객체 편집 능력을 평가하기 위해 1,889 개의 샘플과 정교한 평가 프로토콜을 포함한 새로운 벤치마크 'DeepLookEditBench(DLEBench)'를 제안하고, 이를 통해 기존 모델들의 성능 격차를 실증적으로 분석합니다.
이 논문은 다양한 분포의 포인트 클라우드로부터 구조화된 3D 건물 추상화를 위해, 노이즈가 있거나 희소한 점으로부터 분포를 복원하는 조건부 잠재 확산 모델과 이를 기반으로 컴팩트한 메쉬를 생성하는 오토레귀시브 트랜스포머를 결합한 새로운 생성 프레임워크인 BuildAnyPoint 를 제안합니다.
이 논문은 LLM 기반 의미 분해와 QR 직교화를 통해 '과거 비교' 축만을 표적으로 하는 훈련 불필요 추론 제어 프레임워크인 SDLS 를 제안하여, 방사선 보고서 생성 시 과거 소견에 기반한 환각을 억제하면서도 임상적 정확도를 향상시키는 방법을 제시합니다.
이 논문은 CLIP 임베딩과 자연어 캡션을 활용한 비전 - 언어 정렬 기반 VL-WS 프레임워크를 제안하여, 다양한 농업 환경과 데이터 소스에 걸쳐 잡초 분할의 일반화 성능과 데이터 효율성을 크게 향상시켰음을 보여줍니다.