MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
4346 편의 논문
이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.
이 논문은 기존 밀도 기반 트랜스포머 모델의 계산 과부하 문제를 해결하기 위해 물리적 상호작용과 배경 업데이트를 분리하는 '분리된 역학 예측 (DDP)' 원리를 적용한 효율적인 세계 모델 DDP-WM 을 제안하며, 이를 통해 추론 속도를 약 9 배 향상시키고 계획 성공률을 98% 로 개선함을 보여줍니다.
이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.
이 논문은 예측 불확실성과 라디올로지스트가 정의한 관심 영역 (ROI) 에 대한 주의력 정렬 오차를 결합한 이중 기준 전략을 통해, 의료 영상 분석에서 데이터 효율성과 임상적 해석 가능성을 동시에 향상시키는 설명 가능한 능동 학습 프레임워크를 제안합니다.
이 논문은 알리바바 전자상거래 플랫폼의 실시간 산업 검색을 위해 절대 ID 인식 임베딩과 비교·보정 리스트와식 리랭커를 도입하여 정밀도와 효율성을 동시에 극대화한 Pailitao-VL 시스템을 제안하고 그 우수성을 입증했습니다.
이 논문은 EEG 신호의 비정상성과 비대칭적 신경 역학을 해결하기 위해 양방향 델타 모듈과 게이트된 시간 컨볼루션을 결합한 'DeltaGateNet'을 제안하여, 다양한 데이터셋에서 기존 방법보다 우수한 운전 피로 인식 성능을 입증했습니다.
이 논문은 최신 AI 생성 영상 탐지의 한계를 극복하기 위해 사전 학습된 임베딩을 직접 모델링하는 'EA-Swin'과 대규모 벤치마크 'EA-Video'를 제안하여, 기존 최첨단 방법론보다 정확도와 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.
이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.
이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.
이 논문은 오픈소스 플랫폼에서 널리 사용되는 LoRA(저랭크 적응) 모듈을 악용해 텍스트-이미지 생성 모델에 은밀한 백도어를 주입하는 'MasqLoRA'라는 새로운 공격 프레임워크를 제안하고, 이를 통해 AI 공급망에 존재하는 심각한 보안 위협을 규명합니다.
이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.
이 논문은 포즈나 라벨 없이 유튜브의 자연스러운 주행 영상만으로 학습된 'LFG'라는 라벨 없는 교사 유도 프레임워크를 제안하여, 단일 모노큘러 카메라만으로도 기존 다중 카메라 및 라이다 기반 방법보다 우수한 자율 주행 계획 및 다양한 3D 인식 성능을 달성하는 통합 비디오 중심 기초 모델을 개발했습니다.
이 논문은 초기 확산 단계의 교차 주의 (cross-attention) 분포와 최종 이미지 품질 간의 강한 상관관계를 규명하고, 이를 기반으로 생성 완료 전에 이미지 품질을 정확히 예측하여 불필요한 연산을 줄이고 효율성을 극대화하는 경량 프레임워크인 'Diffusion Probe'를 제안합니다.
이 논문은 NeRF 및 3D 가우스 스플래팅과 같은 신경 재구성 기법의 아티팩트와 동적 객체 통합의 한계를 극복하기 위해, 사전 훈련된 확산 모델을 기반으로 실시간 시뮬레이션 환경에서 단일 GPU 로 작동하는 온디바이스 생성 향상 프레임워크인 DiffusionHarmonizer 를 제안합니다.
UFO-4D 는 두 장의 카메라 포즈가 알려지지 않은 이미지로부터 3D 기하학, 3D 운동, 카메라 포즈를 동시에 추정하는 단일 피드포워드 프레임워크를 제안하여, 동적 3D 가우시안 스플래팅을 활용하여 기존 방법보다 3 배까지 성능을 향상시키고 고충실도 4D 보간을 가능하게 합니다.
이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.
이 논문은 국소성 편향과 잔차 기반 학습의 한계를 해결하여 전역적 일관성을 확보하고, 기존 확산 기반 모델 대비 10 배 빠른 추론 속도와 50% 적은 파라미터로 이미지 초해상도 성능을 혁신적으로 개선한 'AlignVAR' 프레임워크를 제안합니다.
이 논문은 외부 보상 감독 없이 모델이 자체적으로 생성한 노이즈 복구 정확도를 기반으로 한 'SOLACE'라는 자기 신뢰 보상 프레임워크를 제안하여 텍스트 - 이미지 생성 모델의 구성, 텍스트 렌더링 및 정렬 능력을 향상시키고 외부 보상과 결합 시 보상 해킹을 완화함을 보여줍니다.
이 논문은 모호한 깊이 정보와 공간적 불균형 문제를 해결하기 위해 MoGe-2 기반의 깊이 안내 2D-to-3D 뷰 변환기와 혼합 전문가 (MoE) 에서 영감을 받은 지역 안내 전문가 변환기를 도입한 'Dr. Occ' 프레임워크를 제안하여, 순전히 카메라 입력만으로 3D 점유율 예측의 정확도를 획기적으로 향상시킵니다.
이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.