BitDance: Scaling Autoregressive Generative Models with Binary Tokens
이 논문은 이진 토큰 예측과 차분 헤드, 그리고 차분 기반 패치 예측을 통해 기존 자동회귀 (AR) 모델 대비 압도적인 파라미터 효율성과 추론 속도를 달성하면서도 ImageNet 에서 최상의 생성 품질을 보여주는 확장 가능한 이미지 생성 모델 'BitDance'를 제안합니다.
11336 편의 논문
이 논문은 이진 토큰 예측과 차분 헤드, 그리고 차분 기반 패치 예측을 통해 기존 자동회귀 (AR) 모델 대비 압도적인 파라미터 효율성과 추론 속도를 달성하면서도 ImageNet 에서 최상의 생성 품질을 보여주는 확장 가능한 이미지 생성 모델 'BitDance'를 제안합니다.
이 논문은 에이전트 토폴로지, 도구, 메모리를 스스로 생성하고 관리할 수 있는 최초의 에이전트 개발 키트인 'OpenSage'를 제안하여, 기존 인간 중심의 에이전트 개발 패러다임을 AI 중심의 패러다임으로 전환할 수 있는 가능성을 제시합니다.
이 논문은 추론 비용과 성능 간의 균형을 최적화하기 위해, 필요 시에만 더 큰 모델로 에스컬레이션하는 계층적 혼합 에이전트 아키텍처인 'Pyramid MoA'를 제안하고, 이를 통해 계산 비용을 절감하면서도 오라클 모델 수준의 정확도를 유지하는 확률적 anytime 추론 프레임워크를 제시합니다.
이 논문은 불규칙한 다변량 시계열 데이터의 예측 모델링에 있어 복잡한 시계열 모델 대신 관측값의 요약 통계량을 추출하여 고정 차원 벡터로 변환하는 단순한 통계적 접근법이, 생물의학 분야에서 최신 딥러닝 모델보다 더 높은 성능과 효율성을 달성함을 증명합니다.
이 논문은 LLM 의 스테가노그래피 탐지를 위해 기존 참조 분포에 의존하지 않는 새로운 의사결정 이론적 관점을 제시하고, 숨겨진 정보를 해독할 수 있는 에이전트와 그렇지 않은 에이전트 간의 유용성 차이를 정량화하는 '스테가노그래피 갭' 개념을 도입하여 이를 탐지하고 완화하는 방법을 제안합니다.
이 논문은 기존 비전 - 언어 모델의 한계를 극복하기 위해 얼굴 인식 도구를 활용해 사실 기반의 캐릭터 식별을 보장하고 점진적 추상화 파이프라인을 통해 긴 영상 콘텐츠의 일관된 줄거리 생성을 가능하게 하는 'MovieTeller' 프레임워크를 제안합니다.
이 논문은 산업용 로봇 훈련을 위한 증강현실 (AR) 애플리케이션의 정적 한계를 극복하고 학습자의 인지 프로필에 맞춰 실시간으로 적응할 수 있도록, 다중 에이전트 AI 와 대형 언어 모델 (LLM) 을 활용한 지능형 적응 프레임워크를 제안하고 그 기반을 마련한 연구를 요약합니다.
이 논문은 멀티모달 추론에서 미세한 시각적 세부 사항을 정확하게 인식하기 위해 불필요한 계산과 주의력 이탈을 방지하는 적응형 시각 - 의미 융합 프레임워크인 'SvfEye'를 제안하며, 기존 최첨단 방법 대비 약 4 배의 추론 속도 향상과 성능 개선을 달성했습니다.
이 논문은 비전 - 언어 모델 (VLM) 의 교차 모달 정렬 능력을 지식 그래프 임베딩에 통합하여 이질적인 멀티모달 지식 그래프의 표현 학습 및 링크 예측 성능을 향상시킨 VL-KGE 프레임워크를 제안합니다.
이 논문은 입력 난이도를 고려한 경량화 모듈, 동적 계획 기반의 최적화 알고리즘, 적응형 계수 관리 시스템을 통해 기존 조기 종료 DNN 의 한계를 극복하고 AlexNet, ResNet-18, VGG-16 등에서 뛰어난 속도와 에너지 효율성을 달성하는 'DART' 프레임워크를 제안합니다.
이 논문은 추론 작업에서 대형 언어 모델의 최종 출력 대신 중간 은닉 상태에 경량 프로브를 학습시켜 더 깨끗한 지도 신호를 생성함으로써, 데이터가 제한된 상황에서도 학생 모델의 성능을 향상시키는 새로운 지식 증류 프레임워크인 \method{}를 제안합니다.
이 논문은 대규모 언어 모델이 동일한 사실에 대해 여러 번의 컨텍스트 내 지식 업데이트를 처리할 때 발생하는 회상 편향을 인지 심리학의 AB-AC 간섭 패러다임에 빗대어 분석하고, 업데이트 횟수가 증가할수록 최신 정보의 정확도가 급격히 저하되며 기존 메커니즘으로는 이를 효과적으로 해결하기 어렵다는 점을 규명했습니다.
이 논문은 사용자의 피드백이 포함된 다중 턴 상호작용 데이터를 모델이 스스로 학습할 수 있도록 하는 자기 증류 기법을 제안하여, 별도의 명시적 피드백 없이도 언어 모델의 정렬, 개인화 및 지속적인 적응을 가능하게 함을 보여줍니다.
이 논문은 언어 모델이 텍스트의 출처가 아닌 작성 방식에 따라 역할을 판단하는 '역할 혼동' 메커니즘으로 인해 프롬프트 인젝션 공격에 취약하며, 이는 잠재 공간에서 권한이 할당되는 방식과 인터페이스의 보안 정의 사이의 근본적인 격차에서 비롯됨을 규명합니다.
이 논문은 NTC 온도 센서와 FlexiForce 압력 센서로 수집된 시계열 데이터를 활용하여 Isolation Forest 와 KNN 같은 비지도 학습 알고리즘으로 당뇨 발 궤양의 초기 위험을 예측하는 분석 프레임워크를 제시합니다.
이 논문은 지각, 기억, 가치 평가, 의식적 접근을 통합하는 DIME(Detect-Integrate-Mark-Execute) 이라는 새로운 신경 아키텍처를 제안하여 현대 신경과학의 분산된 이론들을 단일 연산 프레임워크로 통합하고 인공지능 및 로봇공학에 적용 가능한 모델을 제시합니다.
이 논문은 AIS 기반의 원시 선박 궤적 데이터를 지리적, 기상적 맥락 정보를 통합하여 구조화된 의미 풍부 표현으로 변환하고, 이를 통해 LLM 이 생성한 제어된 자연어 설명을 통해 해상 추론 및 분석을 용이하게 하는 컨텍스트 인식 궤적 추상화 프레임워크를 제안합니다.
이 논문은 LLM 의 추론 능력을 그래프 신경망에 증류하여 비용 효율적으로 학술적 인용 오류 (miscitation) 를 탐지하는 새로운 프레임워크인 LAGMiD 를 제안하고, 이를 통해 기존 방법론의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.
이 논문은 뇌-컴퓨터 인터페이스 (BCI) 개발의 데이터 부족 문제를 해결하기 위해 뇌 신호 생성 방법론을 체계적으로 분류하고, 다양한 BCI 패러다임에 대한 벤치마크 평가 및 향후 연구 방향을 제시하는 포괄적인 개요를 제공합니다.
이 논문은 고차원 노이즈와 계층 간 의미적 드리프트 문제를 해결하여 대규모 언어 모델의 정밀한 제어력을 향상시키기 위해, 네트워크 표현의 기하학적 안정성에 기반한 훈련 없는 'GER-steer' 프레임워크를 제안합니다.