Stem: Rethinking Causal Information Flow in Sparse Attention
이 논문은 인과적 주의 메커니즘의 정보 흐름 관점을 재해석하여, 초기 토큰의 누적 의존성을 고려한 토큰 위치 감쇠 전략과 출력 민감도 기반 메트릭을 도입한 'Stem' 모듈을 제안함으로써 긴 문맥 처리 시 계산 복잡성과 사전 채우기 지연을 줄이면서도 높은 정확도를 달성합니다.
9504 편의 논문
이 논문은 인과적 주의 메커니즘의 정보 흐름 관점을 재해석하여, 초기 토큰의 누적 의존성을 고려한 토큰 위치 감쇠 전략과 출력 민감도 기반 메트릭을 도입한 'Stem' 모듈을 제안함으로써 긴 문맥 처리 시 계산 복잡성과 사전 채우기 지연을 줄이면서도 높은 정확도를 달성합니다.
이 논문은 PINN 의 느린 학습 속도와 기존 PIELM 의 무작위 초기화 한계를 극복하기 위해, 확률적 적응 샘플링 기법을 통해 PIELM 의 커널을 물리 현상이 집중된 영역에 자동으로 배치하여 경계층이 있는 강성 PDE 를 고정밀도로 빠르게 해결하는 GMM-PIELM 프레임워크를 제안합니다.
이 논문은 2D 투영 간의 상관관계를 고려하지 않는 기존 방법의 한계를 극복하기 위해, 서로 다른 두 평면에서 학습된 수직 스코어 기반 확산 모델을 결합하여 치과 CBCT 영상의 임플란트 아티팩트를 제거하는 3D 인페인팅 기법을 제안하고 그 유효성을 입증합니다.
이 논문은 기계 고장 진단의 정확성과 잡음 내성을 향상시키기 위해 고정된 그래프 구조에 의존하지 않고 데이터 기반의 적응형 메시지 전달을 가능하게 하는 새로운 관계 학습 프레임워크인 '극성 직접 교차 어텐션 (PolaDCA)'을 제안하고 산업 데이터셋에서 기존 방법들을 능가하는 성능을 입증합니다.
이 논문은 엔트로피 기반 불확실성 점수를 계산하고 플랫 스케일링으로 보정한 후 강화학습을 통해 언어 모델을 학습시키는 3 단계 파이프라인을 제안하여, 고비용의 사후 추정 방식 없이도 해석 가능하고 보정된 불확실성 추정을 효율적으로 수행할 수 있음을 보여줍니다.
이 논문은 재귀적 자기 개선 과정에서 발생할 수 있는 정렬 편향을 방지하기 위해 목표 편향 지수, 제약 조건 보존 검증, 회귀 위험 정량화라는 세 가지 안전 장치를 도입한 'SAHOO' 프레임워크를 제안하고, 코드 생성 및 추론 등 다양한 작업에서 성능을 향상시키면서도 안전성을 유지하는 것을 입증합니다.
이 논문은 CT 이미지와 구조 컨투어로부터 단일 아크 VMAT 전립선 치료 계획을 1 초 미만으로 직접 추론하여 기존 자동화 방식보다 획기적으로 속도를 높이고 임상 워크플로우를 간소화하는 종단간 딥러닝 프레임워크인 AIRT 를 제안합니다.
이 논문은 MoE 기반 대규모 언어 모델의 전문가 부하 불균형 문제를 해결하기 위해 서버리스 컴퓨팅을 활용한 'MoEless' 프레임워크를 제안하며, 이를 통해 추론 지연 시간을 43%, 비용을 84% 감소시킨다고 보고합니다.
이 논문은 이미지의 정보 밀도와 확산 단계에 따라 토큰 수를 동적으로 조절하여 계산 효율성과 생성 품질을 동시에 향상시키는 '동적 청킹 확산 트랜스포머 (DC-DiT)'를 제안합니다.
이 논문은 다중 시간 규모의 동역학을 포착하는 데 한계가 있는 기존 해밀토니안 신경망의 문제를 해결하기 위해, 서로 다른 시간 규모에서 샘플링된 데이터로 학습되는 여러 네트워크를 통해 해밀토니안을 주파수 분리 방식으로 파라미터화하는 '주파수 분리형 해밀토니안 신경망 (FS-HNN)'을 제안하고, 이를 통해 ODE 및 PDE 문제에서 장기 예측 성능과 일반화 능력을 크게 향상시켰음을 보여줍니다.
이 논문은 정규화 압축 거리가 공식적인 거리 속성을 갖지 않음에도 불구하고 커널 방법과 결합하여 소량의 데이터로 높은 정확도를 달성하며, 프라이버시를 보호하고 제한된 하드웨어에서도 실행 가능한 경량 클라이언트 측 분류 모델을 가능하게 함을 보여줍니다.
이 논문은 고차원 산업 데이터의 복잡성과 노이즈를 해결하기 위해 비지도 딥러닝 표현 학습과 지도 분류를 통합한 CLAIRE 프레임워크를 제안하며, 이를 통해 기존 방법보다 우수한 고장 탐지 성능과 게임 이론 기반의 해석 가능성을 동시에 달성함을 보여줍니다.
이 논문은 전역 매끄러움 상수나 선 탐색 없이도 적응적으로 국소 매끄러움을 추정하여 확률적 합성 비볼록 최적화 문제를 해결하는 새로운 투영 없는 프레임워크인 ALFCG 를 제안하고, 기존 방법론보다 우수한 수렴 복잡도와 실험 성능을 입증합니다.
이 논문은 이산적이고 노이즈가 포함된 데이터에서 공간 미분값을 정확하게 추정하기 위해 국소화된 커널 회귀 기법인 운동론 기반 정규화 (KBR) 를 확장하여 명시적 및 암시적 두 가지 학습 방식을 제안하고, 이를 보존 법칙을 유지하는 1 차원 쌍곡형 편미분방정식 (PDE) 의 안정적 해법으로 적용하는 방법을 제시합니다.
이 논문은 과학적 워크플로우의 유연성과 결정론적 실행 간의 상충 관계를 해결하기 위해 대화와 실행 권한을 분리하고 스키마를 필수 실행 경계로 삼는 '스키마 게이트' 아키텍처를 제안하며, 이를 통해 인간 전문가 패널을 대체할 수 있는 다중 모델 평가 방법론과 3 가지 운영 원칙을 제시합니다.
이 논문은 강화학습을 통해 최적화된 집합 수준의 목표를 학습 데이터로 변환한 후 경량 확산 모델을 훈련하여, 기존 강화학습 기반 검색의 높은 추론 비용 문제를 해결하면서도 다양성과 일관성 등 고차원 속성을 갖춘 효율적인 팬아웃 검색을 가능하게 하는 'R4T' 프레임워크를 제안합니다.
이 논문은 6G XL-MIMO 시스템의 데이터 부족과 일반화 한계를 해결하기 위해 대규모 방사지도 데이터셋을 구축하고, 물리 기반 빔 맵 (beam map) 접근법을 도입하여 훈련되지 않은 안테나 구성 및 환경에서도 높은 정확도로 방사 지도를 예측할 수 있는 새로운 프레임워크를 제시합니다.
이 논문은 다양한 모달리티와 제약 조건 하에서 MLLM 추론을 효율적으로 스케줄링하기 위해 경량 어댑터 기반 예측기, 프라임-듀얼 제약 관리기, 그리고 2 단계 스케줄러로 구성된 M-CMAB 프레임워크를 제안하며, 이를 통해 기존 방법론보다 높은 보상과 성능을 달성함을 보여줍니다.
이 논문은 다양한 강화학습 프레임워크의 아키텍처 패턴을 체계적으로 분석하여 공통 기준을 마련하기 위한 참조 아키텍처를 제안하고, 이를 통해 프레임워크의 개선 방향을 제시합니다.
이 논문은 기존 제로샷 모델인 nnInteractive 의 성능 한계를 극복하기 위해, 주석 데이터 흐름에 따라 소수의 파라미터만 지속적으로 미세 조정하는 CLoPA 전략을 제안하여 다양한 의료 영상 작업에서 전문가 수준의 분할 성능을 달성함을 보여줍니다.