Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation
이 논문은 관절 간의 장거리 상호작용을 포착하고 계산 복잡도를 줄이기 위해 동적 분할 합성곱과 적응형 컨텍스트 모델링을 도입한 경량 고해상도 네트워크인 Dite-HRNet 을 제안하여 COCO 및 MPII 데이터셋에서 기존 최첨단 경량 네트워크보다 우수한 성능을 달성함을 보여줍니다.
9122 편의 논문
이 논문은 관절 간의 장거리 상호작용을 포착하고 계산 복잡도를 줄이기 위해 동적 분할 합성곱과 적응형 컨텍스트 모델링을 도입한 경량 고해상도 네트워크인 Dite-HRNet 을 제안하여 COCO 및 MPII 데이터셋에서 기존 최첨단 경량 네트워크보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 이동하는 객체와 센서 제약으로 인해 기존 방법이 적용하기 어려운 야외 LiDAR 점구름을 위해 차량 및 인프라 측 데이터를 활용한 협력적 대비 학습과 맥락적 형태 예측을 결합한 CO^3 를 제안하여, 기존 방법보다 우수한 성능과 다양한 센서 및 데이터셋에 대한 전이 능력을 입증합니다.
이 논문은 태양광 패널의 결함을 이진 분류 및 다중 분류 (그림자, 균열, 먼지) 로 구분하여 각각 91.1% 와 88.6% 의 높은 정확도로 탐지하는 효율적인 합성곱 신경망 (CNN) 기반 고장 탐지 방안을 제안합니다.
이 논문은 확산 모델의 시간적 귀납 편향과 활성 뉴런에서 비롯된 선입견 편향을 분석하여, 이를 해결하는 'TDPO-R' 알고리즘을 제안함으로써 보상 과최적화 문제를 효과적으로 완화합니다.
이 논문은 다양한 모바일 카메라의 이미지 신호 처리 (ISP) 학습을 통합하는 'Uni-ISP'를 제안하고, 장치 인식 임베딩과 새로운 학습 방식을 통해 정확도와 적응성을 크게 향상시키며 FiveCam 이라는 대규모 실세계 데이터셋을 구축하여 그 유효성을 입증합니다.
이 논문은 선형 복잡도를 가진 Mamba 를 비전 백본으로 활용하고 훈련 중 컨텍스트 검색을 통해 긍정적 및 부정적 샘플 정보를 추출하여 LLM 기반의 방사선학 보고서 생성 성능을 향상시키는 새로운 프레임워크 R2GenCSR 을 제안합니다.
이 논문은 고정된 스캔 전략의 편향을 해결하기 위해 무작위 셔플과 역셔플을 도입한 'Shuffle Mamba' 프레임워크를 제안하여, 다중 모달 이미지 융합 작업에서 기존 최첨단 방법들보다 우수한 품질을 달성함을 보여줍니다.
이 논문은 수직 연방 학습 (VFL) 환경에서 라벨의 민감한 정보를 제거하면서도 기존 데이터의 성능을 유지하기 위해 표현 수준 매니폴드 믹스업과 그래디언트 기반 포기 및 복구 기법을 결합한 최초의 라벨 언러닝 방법을 제안하고 실험을 통해 그 유효성을 입증합니다.
이 논문은 LLM 사전 지식을 활용한 모션 생성과 사전 지향적 전문가 혼합 (MoE) 메커니즘을 도입하여 오디오 입력으로부터 정교한 입모양, 자연스러운 제스처, 그리고 연속적인 시점 제어가 가능한 고품질 3D 대화 영상을 생성하는 'Stereo-Talker' 시스템을 제안합니다.
이 논문은 제한된 단계의 확산 모델이 특정 하위 목표와 잘 정렬되도록 하기 위해, 밀집 보상 차이를 학습하여 저분산 혼합 단계 최적화를 가능하게 하는 새로운 강화학습 프레임워크인 단계별 확산 정책 최적화 (SDPO) 를 제안합니다.
이 논문은 LiDAR 시퀀스의 시간적 정보를 활용하여 미래 관측치를 예측하는 비지도 학습 방식인 TREND 를 제안함으로써, 기존 단일 프레임 기반 방법론보다 3D 객체 감지 성능을 획기적으로 향상시킵니다.
이 논문은 곡률 샘플링과 학습 가능한 프로토타입을 활용하여 이미지와 점구름의 상호 보완적 특성을 효율적으로 결합한 CLAP 이라는 새로운 비지도 3D 표현 학습 방법을 제안하며, 이를 통해 기존 최첨단 방법 대비 최대 2 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 AI 생성 비디오 탐지 모델의 개발을 촉진하기 위해 678 만 개의 대규모 비디오와 11 가지 최첨단 생성 모델을 포함하는 'GenVidBench'라는 새로운 벤치마크를 제안합니다.
이 논문은 이미지 스케일의 영향을 고려하여 다중 스케일 이미지를 기반으로 한 삼중 분기 합성곱 네트워크와 주의 기반 융합 모듈을 통해 다중 조명 조건에서의 색수차를 보정하는 새로운 방법을 제안하고, 이를 통해 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 동적 희소성 패턴을 활용하여 3D 풀 어텐션의 계산 병목 현상을 해결하고, 하이브리드 희소성 인식 컨텍스트 병렬화를 통해 화질 저하 없이 대규모 비디오 DiT 학습 속도를 최대 3.02 배까지 향상시킨 DSV 를 제안합니다.
이 논문은 생성된 콘텐츠의 소유권 분쟁과 윤리적 문제를 해결하기 위해 모델 재학습 없이 추론 단계에서 적용되며, 제한된 크기의 첨가적 교란과 다양한 제거 공격에 대해 강건한 워터마킹 기법을 제안합니다.
이 논문은 시뮬레이션 데이터의 도메인 격차와 샘플 효율성 문제를 해결하기 위해 제안된 'JiSAM' 방법을 통해, 실제 LiDAR 데이터의 2.5% 만으로도 최첨단 3D 객체 탐지 성능을 달성하고 라벨링이 없는 희귀 객체까지 효과적으로 인식할 수 있음을 보여줍니다.
이 논문은 기존 순차적 생성의 한계를 극복하고 무작위 병렬 디코딩을 통해 추론 속도와 메모리 효율성을 획기적으로 개선하며 제로샷 일반화 능력을 갖춘 새로운 시각적 자기회귀 모델 ARPG 를 제안합니다.
이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.
이 논문은 인간 시각의 선택적 주의 메커니즘에서 영감을 받아 '텍스트 절연 및 주의' 메커니즘을 도입하고, 새로운 벤치마크인 CVTG-2K 를 통해 복잡한 시각적 텍스트 생성의 정확성을 획기적으로 개선한 TextCrafter 프레임워크를 제안합니다.