Face Time Traveller : Travel Through Ages Without Losing Identity
이 논문은 생체 및 환경적 노화 단서를 인코딩하는 프롬프트 정제 전략, 튜닝이 불필요한 역방향 매핑 방법, 그리고 적응형 어텐션 제어 메커니즘을 도입하여 기존 방법들의 한계를 극복하고 신원 유지와 배경 일관성을 보장하는 고품질 얼굴 노화 변환 프레임워크인 'Face Time Traveller (FaceTT)'를 제안합니다.
7588 편의 논문
이 논문은 생체 및 환경적 노화 단서를 인코딩하는 프롬프트 정제 전략, 튜닝이 불필요한 역방향 매핑 방법, 그리고 적응형 어텐션 제어 메커니즘을 도입하여 기존 방법들의 한계를 극복하고 신원 유지와 배경 일관성을 보장하는 고품질 얼굴 노화 변환 프레임워크인 'Face Time Traveller (FaceTT)'를 제안합니다.
이 논문은 시간적 순서를 엄격히 준수하는 인과적 다중 스케일 집계 모듈과 예측 신뢰도에 기반한 동적 다중 소스 참조 전략을 도입하여, 내시경 영상에서 폴립의 위치 변화와 유사한 배경으로 인한 어려움을 극복하고 실시간 성능을 갖춘 최첨단 비디오 폴립 분할 모델인 CMSA-Net 을 제안합니다.
이 논문은 365nm~940nm 대역의 13 개 멀티스펙트럼 밴드를 활용하는 저비용 멀티스펙트럼 이미징 시스템과 머신러닝 프레임워크를 제안하여, 토양의 점토·실트·모래 함량과 USDA 토양 질감 분류를 각각 0.99 의 결정계수와 99% 이상의 정확도로 비파괴적으로 예측하는 현장 적용 가능한 방법을 제시합니다.
이 논문은 문맥 없는 프롬프트만으로는 LLM 의 도덕적 성향을 완전히 파악할 수 없으며, 방향이 반전된 문맥적 영향력을 체계적으로 조작하여 측정하는 새로운 평가 프레임워크를 통해 모델이 명시적 중립성을 주장함에도 불구하고 문맥에 따라 편향적으로 결정이 바뀔 수 있음을 규명했습니다.
이 논문은 대규모 데이터와 연산 자원을 무작정 확장하는 기존 패러다임 대신, 훈련 데이터의 품질과 정보량을 기준으로 선별적으로 학습하는 'CheXficient'라는 새로운 흉부 X-ray 기초 모델을 제안하여, 전체 데이터의 약 22.7% 만으로 동등하거나 더 우수한 성능을 달성하면서도 계산 비용을 27.3% 이하로 절감할 수 있음을 입증합니다.
이 논문은 정적 데이터에 의존하는 기존 훈련의 한계를 극복하기 위해 진단이 데이터 생성과 강화 학습을 주도하는 나선형 루프인 '진단 기반 점진적 진화 (DPE)'를 제안하여, 대규모 멀티모달 모델의 성능을 지속적으로 향상시키는 확장 가능한 패러다임을 제시합니다.
이 논문은 잠재 확산 (Latent Diffusion) 모델에 그립 사전 지식을 통합하여 모방 학습 기반 조작 정책의 그립 정밀도와 일반화 성능을 획기적으로 향상시키는 'GraspLDP'를 제안합니다.
이 논문은 실제 촬영 환경에서 발생하는 카메라 회전으로 인한 성능 저하를 해결하기 위해 절대 위도 인코딩 제거, 사분면 일관성 구면 어텐션, 게이지 인식 상대적 위치 메커니즘 등 세 가지 기하학적 기법을 도입하여 회전 불변성을 갖춘 SO3UFormer 모델을 제안하고, 이를 통해 기존 모델이 극심한 성능 저하를 겪는 회전 조건에서도 높은 분할 정확도를 유지함을 입증합니다.
이 논문은 소량의 라벨만으로 다양한 도메인에서 강건한 멀티모달 모델을 학습하기 위한 새로운 문제인 '반지도식 멀티모달 도메인 일반화 (SSMDG)'를 제안하고, 일관성 정규화, 불일치 인식 정규화, 교차모달 프로토타입 정렬을 핵심으로 하는 통합 프레임워크와 벤치마크를 통해 기존 방법론의 한계를 극복함을 보여줍니다.
이 논문은 단일 심전도 (ECG) 신호로부터 개인별 4 차원 심장 구조와 운동을 재구성하여 범용적인 심부 디지털 트윈을 구현하는 새로운 생성 프레임워크인 'Chain of Flow(COF)'를 제안합니다.
이 논문은 시뮬레이션과 현실 간의 격차를 해소하고 안전 필수적인 철도 장애물 탐지 성능을 향상시키기 위해, Unreal Engine 5 와 LiDAR/INS/GNSS 데이터를 활용하여 OSDaR23 데이터셋에 고품질 가상 객체를 통합한 다중 모달 증강 현실 프레임워크와 공개 데이터셋 'OSDaR-AR'을 제안합니다.
이 논문은 자율 수면 선박 (ASV) 의 안전하고 정확한 항해를 위해 고안된 대규모 비디오 질문 답변 벤치마크 'WaterVideoQA'와 규제 준수 및 해석 가능한 의사결정을 가능하게 하는 신경-심볼릭 다중 에이전트 시스템 'NaviMind'를 제안하여, 수로 환경에서의 지능적이고 신뢰할 수 있는 상호작용의 새로운 패러다임을 제시합니다.
이 논문은 강화 학습을 통해 MLLM 과 경량 키 프레임 샘플러를 공동으로 진화시켜 긴 영상 이해 효율성을 극대화하는 MSJoE 프레임워크를 제안하고, 새로운 데이터셋과 다양한 벤치마크에서 기존 최강 방법 대비 1.1% 높은 정확도를 입증합니다.
이 논문은 다양한 도메인의 전문가 지식을 통합하는 'pMoE'라는 새로운 프롬프트 튜닝 방법을 제안하여, 47 개의 시각 적응 작업에서 기존 방법보다 뛰어난 성능과 효율성을 입증했습니다.
이 논문은 YOLOv8, U-net 기반 보정, 광학 흐름 추적 및 포즈 추정 기술을 활용하여 GPS 센서 없이도 팬 및 줌 영상으로부터 카누 스프린트 팀 보트의 속도와 스트로크 주기를 고정밀도로 자동 재구성하는 프레임워크를 제안하고, 엘리트 대회 데이터에서 GPS 측정값과 높은 상관관계를 입증했습니다.
이 논문은 ResNet-18 기반의 다양한 어텐션 및 동적 컨볼루션 CNN 변형체들을 이미지 분류, 세그멘테이션, 시계열 분석 등 여러 태스크에서 비교 평가하여, 기존 CNN 보다 우수한 성능과 적응력을 입증하고 ODConv 의 효과성을 강조합니다.
이 논문은 기존 데이터셋의 한계를 극복하기 위해 자동화 파이프라인을 활용해 24,726 개의 MRI 슬라이드와 20 만 개의 풍부한 지시문을 포함한 대규모 멀티모달 데이터셋 MM-NeuroOnco 와 평가 벤치마크 MM-NeuroOnco-Bench 를 구축하고, 이를 통해 미세 조정된 NeuroOnco-GPT 가 뇌종양 진단 정확도를 27% 향상시켰음을 입증합니다.
이 논문은 시각적 특징이 매우 유사한 두 질환 (흑색종과 비정형 모반, 폐부종과 폐렴) 을 구별하는 제로샷 멀티모달 에이전트 성능을 평가하고, 대비적 조정 (contrastive adjudication) 기반 다중 에이전트 프레임워크가 정확도를 향상시켰으나 임상 적용에는 여전히 한계가 있음을 보여줍니다.
이 논문은 시간 인식 위치 인코딩 왜곡 메커니즘을 통해 장기 기억과 정밀한 카메라 제어를 통합하고, 효율적인 듀얼 스트림 확산 트랜스포머와 포인트 클라우드 기반 렌더링을 활용한 데이터 큐레이션 전략을 도입함으로써, 장기간 장면 일관성과 고화질 비디오 생성의 정밀한 제어력을 획기적으로 향상시킨 UCM 프레임워크를 제안합니다.
이 논문은 소규모 및 이질적인 데이터셋에서도 훈련 가능한 자동 커널 카운터 알고리즘을 제안하여, 수동 주석이 필요 없는 쥐의 척수 조직 내 미세아교세포 수를 정량화하고 예측 불확실성을 분석하는 방법을 제시합니다.