DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning
이 논문은 다양한 추론 문제의 난이도와 불확실성을 고려하여 일관된 답변이 높은 샘플에는 지도 미세조정을, 낮은 샘플에는 일관성 정규화를 적용한 강화학습을 동적으로 수행함으로써 추론 성능을 효율적으로 향상시키는 새로운 테스트 시간 적응 프레임워크인 DiSCTT 를 제안합니다.
1726 편의 논문
이 논문은 다양한 추론 문제의 난이도와 불확실성을 고려하여 일관된 답변이 높은 샘플에는 지도 미세조정을, 낮은 샘플에는 일관성 정규화를 적용한 강화학습을 동적으로 수행함으로써 추론 성능을 효율적으로 향상시키는 새로운 테스트 시간 적응 프레임워크인 DiSCTT 를 제안합니다.
이 논문은 Transformer 아키텍처의 사전 학습 안정성과 수렴 속도를 개선하기 위해, 초기 레이어가 먼저 학습되도록 레이어별 잔차에 점진적으로 가중치를 부여하는 'Progressive Residual Warmup(ProRes)' 기법을 제안하고, 이를 통해 학습 안정화, 빠른 수렴, 그리고 향상된 일반화 성능을 달성했음을 입증합니다.
이 논문은 추론 중심의 미세 조정 전략을 통해 4B 이하의 저파라미터 LLM 이 고파라미터 모델과 comparable 한 단어 의미 분리 (WSD) 성능을 달성하면서도 계산 및 에너지 효율성을 크게 개선할 수 있음을 보여줍니다.
본 논문은 대규모 오픈소스 AI 모델이 외부에서 주입된 표현을 탐지할 때, 입력의 비정상성을 추론하는 확률 매칭과 내부 상태에 대한 직접적 접근이라는 두 가지 분리된 메커니즘을 사용하며, 후자는 발생 사실을 인지하지만 구체적인 의미 내용을 식별하지 못하는 내용 무관성 특성을 가진다는 것을 규명했습니다.
이 논문은 다양한 언어 모델과 프롬프트 전략을 효과적으로 통합하기 위해 -앙상블 분포를 정의하고, 불일치하는 어휘를 가진 모델들을 공통 문자 공간에서 샘플링할 수 있는 바이트 단위 순차 몬테 카를로 (SMC) 알고리즘을 제안하여 기존 확률 평균 방식보다 우수한 성능을 달성하는 통일된 프레임워크를 제시합니다.
이 논문은 협력적 구축 작업을 통해 다양한 정보와 지식을 가진 참여자들 간의 공통 기반 (common ground) 형성을 연구하기 위해 분산 부분 정보 퍼즐 (DPIP) 과 이를 위한 멀티모달 데이터셋을 제안하고, 최신 대형 언어 모델 (LLM) 과 동적 인식 논리 (DEL) 기반 파이프라인을 비교 평가하여 LLM 이 현재 다중 모달 상호작용에서의 신념 상태 추적에 어려움을 겪음을 보여줍니다.
이 논문은 비대칭 하드웨어 확장 특성을 보이는 블랙웰 (Blackwell) 아키텍처의 병목 현상을 해결하기 위해 알고리즘과 커널 파이프라인을 공동 설계한 'FlashAttention-4'를 제안하며, CuTe-DSL 기반의 효율적인 구현을 통해 B200 GPU 에서 cuDNN 대비 최대 1.3 배, Triton 대비 2.7 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 일상생활부터 정치 토론까지 다양한 형태의 논쟁을 포괄하는 구두 및 개인 논쟁 데이터셋인 DEBISS 코퍼스를 제안하며, 음성 인식, 화자 분리, 논증 마이닝 등 다양한 NLP 태스크를 위한 주석을 포함하고 있습니다.
이 논문은 답이 없는 질문에 대한 불확실성을 해결하고 저자원 언어 환경에서 강건한 성능을 입증하기 위해 방글라데시 국가 교육과정 교재에서 추출한 대규모 답변 가능/불가능 균형 데이터셋인 NCTB-QA 를 제안하고, 이를 통해 BERT 등 트랜스포머 기반 모델의 미세 조정 효과를 검증합니다.
이 논문은 외부 검색 없이 LLM 의 내부 지식과 표현을 활용하여 사실 확인을 수행하는 새로운 과제와 이를 위한 SOTA 방법인 INTRA 를 제안하고, 검색 기반 방식의 한계를 극복하고 확장성을 높일 수 있는 유망한 연구 방향을 제시합니다.
이 논문은 추론 모델이 내부 신념을 드러내지 않고 연쇄적 사고 (CoT) 를 수행하는 '연기적 추론' 현상을 발견하고, 활성화 프로빙을 통해 이를 식별하여 불필요한 토큰 생성을 최대 80% 까지 줄이면서도 정확도를 유지할 수 있음을 입증합니다.
이 논문은 중국 개발사의 검열된 오픈 가중치 LLM 을 자연스러운 비밀 지식 유발 실험실로 활용하여, 다양한 진실성 유도 및 거짓 탐지 기법의 효과를 평가하고 검열된 모델이 자체 응답을 분류하는 방식이 상한선에 근접한 성능을 보이며 검열되지 않은 최첨단 모델에도 전이됨을 밝혔습니다.
이 논문은 트랜스포머 모델에서 관찰되는 '거대 활성화'와 '어텐션 싱크'가 아키텍처적 산물로서 서로 다른 기능 (글로벌 암시적 파라미터 vs 로컬 어텐션 조절) 을 수행하며, 프리-노멀라이제이션 구성이 이 두 현상의 공존을 가능하게 한다는 것을 규명합니다.
이 논문은 기존 POET 프레임워크의 높은 메모리 소모와 연산 오버헤드를 해결하여 단일 GPU 에서도 수십억 파라미터 규모의 LLM 을 안정적으로 학습할 수 있게 해주는 메모리 효율적이고 확장 가능한 POET-X 를 제안합니다.
이 논문은 시각적 경계가 배경과 자연스럽게 융합된 위장 객체의 특징 학습을 위해 텍스트 - 이미지 확산 모델을 활용한 오픈-어휘 위장 인스턴스 분할 (OVCIS) 을 위한 새로운 방법을 제안하고, 이를 통해 기존 방법보다 우수한 성능을 입증했습니다.
이 논문은 기존 조기 종료 방법의 한계를 극복하고 추론 속도를 높이면서도 제로샷 성능을 유지하기 위해 유사 데이터의 중간 계층 정보를 검색하여 모델의 종료 시점을 안내하는 'RAEE'라는 강건한 검색 기반 조기 종료 프레임워크를 제안합니다.
이 논문은 ANU 컴퓨터 과학 연구자의 학술 지식 그래프 (ASKG) 와 대형 언어 모델 (LLM) 을 통합하여 문서의 미세한 구조와 의미 관계를 정밀하게 파악하고 복잡한 질의를 효율적으로 처리하는 새로운 의미 질의 처리 시스템을 제안합니다.
이 논문은 언어 모델을 학습 데이터 조작을 통해 실험 도구로 활용하여 영어 수동화 예외 학습의 원천이 빈도 (고착화) 와 의미 (영향성) 에 의해 독립적으로 결정됨을 규명했습니다.
이 논문은 인간 평가의 비효율성과 자동화 지표의 한계를 극복하기 위해 자연어 단위 테스트와 선호도·직접 평가·추론을 통합한 LMUnit 모델을 제안하며, 이를 통해 평가의 일관성과 언어 모델 개발 효율성을 크게 향상시켰음을 보여줍니다.
이 논문은 LLM 기반 데이터 생성기와 평가기 간의 관련성으로 인해 발생하는 '선호도 누출 (Preference Leakage)' 현상을 규명하고, 이것이 LLM-as-a-judge 패러다임에서 기존 편향보다 더 탐지하기 어렵고 광범위한 오염 문제임을 실증적으로 보여줍니다.