CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras
이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.
4179 편의 논문
이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.
이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.
이 논문은 오픈소스 플랫폼에서 널리 사용되는 LoRA(저랭크 적응) 모듈을 악용해 텍스트-이미지 생성 모델에 은밀한 백도어를 주입하는 'MasqLoRA'라는 새로운 공격 프레임워크를 제안하고, 이를 통해 AI 공급망에 존재하는 심각한 보안 위협을 규명합니다.
이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.
이 논문은 포즈나 라벨 없이 유튜브의 자연스러운 주행 영상만으로 학습된 'LFG'라는 라벨 없는 교사 유도 프레임워크를 제안하여, 단일 모노큘러 카메라만으로도 기존 다중 카메라 및 라이다 기반 방법보다 우수한 자율 주행 계획 및 다양한 3D 인식 성능을 달성하는 통합 비디오 중심 기초 모델을 개발했습니다.
이 논문은 초기 확산 단계의 교차 주의 (cross-attention) 분포와 최종 이미지 품질 간의 강한 상관관계를 규명하고, 이를 기반으로 생성 완료 전에 이미지 품질을 정확히 예측하여 불필요한 연산을 줄이고 효율성을 극대화하는 경량 프레임워크인 'Diffusion Probe'를 제안합니다.
이 논문은 NeRF 및 3D 가우스 스플래팅과 같은 신경 재구성 기법의 아티팩트와 동적 객체 통합의 한계를 극복하기 위해, 사전 훈련된 확산 모델을 기반으로 실시간 시뮬레이션 환경에서 단일 GPU 로 작동하는 온디바이스 생성 향상 프레임워크인 DiffusionHarmonizer 를 제안합니다.
UFO-4D 는 두 장의 카메라 포즈가 알려지지 않은 이미지로부터 3D 기하학, 3D 운동, 카메라 포즈를 동시에 추정하는 단일 피드포워드 프레임워크를 제안하여, 동적 3D 가우시안 스플래팅을 활용하여 기존 방법보다 3 배까지 성능을 향상시키고 고충실도 4D 보간을 가능하게 합니다.
이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.
이 논문은 국소성 편향과 잔차 기반 학습의 한계를 해결하여 전역적 일관성을 확보하고, 기존 확산 기반 모델 대비 10 배 빠른 추론 속도와 50% 적은 파라미터로 이미지 초해상도 성능을 혁신적으로 개선한 'AlignVAR' 프레임워크를 제안합니다.
이 논문은 외부 보상 감독 없이 모델이 자체적으로 생성한 노이즈 복구 정확도를 기반으로 한 'SOLACE'라는 자기 신뢰 보상 프레임워크를 제안하여 텍스트 - 이미지 생성 모델의 구성, 텍스트 렌더링 및 정렬 능력을 향상시키고 외부 보상과 결합 시 보상 해킹을 완화함을 보여줍니다.
이 논문은 모호한 깊이 정보와 공간적 불균형 문제를 해결하기 위해 MoGe-2 기반의 깊이 안내 2D-to-3D 뷰 변환기와 혼합 전문가 (MoE) 에서 영감을 받은 지역 안내 전문가 변환기를 도입한 'Dr. Occ' 프레임워크를 제안하여, 순전히 카메라 입력만으로 3D 점유율 예측의 정확도를 획기적으로 향상시킵니다.
이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.
이 논문은 이미지 생성 모델을 활용한 확장 가능한 데이터 생성 파이프라인을 통해 대규모 데이터셋 RefVIE 와 평가 벤치마크를 구축하고, 참조 지시를 통합한 새로운 아키텍처 'Kiwi-Edit'를 제안함으로써 지시 기반 비디오 편집의 정밀도와 제어 가능성을 획기적으로 향상시켰습니다.
이 논문은 VGGT 스타일의 비전 트랜스포머와 새로운 3D 상관관계 기법을 활용하여 단일 영상에서 모든 픽셀의 2D 및 3D 밀집 흐름을 실시간으로 추정하고 전 세계 좌표계에서 효율적인 3D 추적을 가능하게 하는 'Track4World'라는 피드포워드 모델을 제안합니다.
이 논문은 의료 영상 분할에서 선형 시간 복잡도를 유지하면서도 정밀한 해부학적 경계를 복원하기 위해, 공통 모드 노이즈를 제거하고 관련 맥락을 증폭하는 게이트 차분 선형 어텐션 (GDLA) 메커니즘을 도입한 PVT-GDLA 디코더를 제안합니다.
이 논문은 사전 학습된 텍스트 - 이미지 확산 모델의 멀티모달 능력을 활용하여 이미지 합성 시 여러 객체에 대해 기하학적 일관성과 물리적 타당성을 갖춘 그림자를 생성하는 'MultiShadow' 방법을 제안하고, 이를 통해 단일 및 다중 객체 그림자 생성 분야에서 최첨단 성능을 달성함을 보여줍니다.
이 논문은 복잡한 비선형 좌표 변환과 IoU(교집합 비율) 지표를 극복하기 위해 IoUCert라는 새로운 형식적 검증 프레임워크를 제안하여, SSD 및 YOLOv2/v3 와 같은 앵커 기반 객체 탐지 모델의 강건성을 최초로 검증할 수 있음을 보여줍니다.
이 논문은 희귀한 쌍을 이루는 데이터를 극복하기 위해 DMD2 기반 확산 가이드와 해부학적 구조 보존 정규화를 결합한 비쌍합 신경 슈뢰딩거 브리지 프레임워크를 제안하여 초저자장 (64 mT) 뇌 MRI 의 화질을 3T 수준으로 향상시키는 방법을 제시합니다.
이 논문은 생물물리학적 성장 모델을 생성 모델과 결합하여 뇌종양의 실제 관측을 넘어선 환자별 3D MRI 종양 성장 궤적을 일관되게 합성하고 예측하는 'TumorFlow' 프레임워크를 제안합니다.