HumanLM: Simulating Users with State Alignment Beats Response Imitation
이 논문은 사용자의 표면적 언어 패턴이 아닌 심리적 상태를 정렬하는 강화학습 기반의 새로운 훈련 프레임워크 'HumanLM'을 제안하여, 기존 시뮬레이터보다 실제 사용자의 반응을 훨씬 더 정확하게 모사하고 인간과 유사한 성능을 달성했음을 보여줍니다.
1732 편의 논문
이 논문은 사용자의 표면적 언어 패턴이 아닌 심리적 상태를 정렬하는 강화학습 기반의 새로운 훈련 프레임워크 'HumanLM'을 제안하여, 기존 시뮬레이터보다 실제 사용자의 반응을 훨씬 더 정확하게 모사하고 인간과 유사한 성능을 달성했음을 보여줍니다.
이 논문은 의미적 계획과 구조적 제어를 분리하는 훈련 없는 추론 절차인 '초안 기반 제약 디코딩 (DCCD)'을 제안하여, 구조화된 생성 작업에서 기존 제약 디코딩 방식보다 엄격한 정확도를 크게 향상시키고 파라미터 효율성을 개선함을 보여줍니다.
이 논문은 TOON 이 인-도메인 생성 작업에서 토큰 효율성과 정확도 면에서 유망한 결과를 보이지만, 짧은 컨텍스트에서는 프롬프트 오버헤드로 인해 이점이 감소하며, 특히 단순 구조에서는 제약 디코딩을 통한 JSON 생성이 TOON 보다 더 낮은 토큰 사용량을 보여 TOON 의 효율성은 특정 임계점을 넘어 누적된 구문 절감 효과가 프롬프트 오버헤드를 상쇄할 때 비로소 실현된다는 것을 밝혔습니다.
이 논문은 수동 코딩의 한계를 극복하고 대규모 텍스트 코퍼스에 적용 가능한 확장성 있는 분석을 위해 BERTopic 과 ENA 를 결합한 'TopicENA'프레임워크를 제안하고, 다양한 분석 사례를 통해 그 유효성과 설정 가이드라인을 제시합니다.
이 논문은 'History-Echoes' 프레임워크를 통해 대화의 과거가 확률적 마르코프 체인과 기하학적 잠재 공간 분석을 통해 LLM 의 미래 생성에 어떻게 편향을 유발하고 기하학적 함정으로 작용하는지 규명합니다.
이 논문은 LLM 기반의 시맨틱 분석과 VARK 학습 스타일 인지 프로파일링을 결합한 하이브리드 프레임워크를 제안하여, 사용자 및 아이템의 상호작용 데이터가 부족한 콜드 스타트 문제를 해결하고 초기 접촉 단계에서도 개인화되고 설명 가능한 추천을 가능하게 합니다.
이 논문은 토큰 인덱스가 아닌 불확실성의 흐름을 기반으로 한 '엔트로피 시간 추론' 패러다임을 제안하여, vLLM 을 확장하고 엔트로피 인식 스케줄링 및 적응형 온도 제어를 통해 LLM 추론을 계산 자원을 지능적으로 할당하는 열역학적 과정으로 변환하는 시스템을 설계했습니다.
이 논문은 1990 년대 초부터 2012 년까지 상업적으로 운영된 대규모 명시적 규칙 기반 영어 - 일본어 기계 번역 시스템인 'Logovista'의 아키텍처, 개발 관행, 그리고 유지보수 과정에서 겪은 실제적 도전과제와 보존된 아티팩트를 기술적·역사적 기록으로 문서화합니다.
이 논문은 EEG 신호에서 자연어를 해독할 때 발생하는 의미 편향과 신호 무시 문제를 해결하기 위해, 감성·주제·길이·놀라움이라는 네 가지 분리된 의미 목표를 통해 신경 입력에 기반한 생성을 강제하는 'SemKey' 프레임워크를 제안하고, 기존 BLEU 점수의 한계를 넘어 N-way 검색 정확도 및 프라체트 거리와 같은 새로운 평가 지표를 통해 모델의 성능을 입증합니다.
본 연구는 특정 작업에 대한 파인튜닝이 대규모 언어 모델의 내부 표현을 인간 감각운동 경험과 더 정렬되도록 유도할 수 있음을 입증하지만, 이러한 개선 효과는 학습 목표에 따라 작업 간 전이가 제한적임을 보여줍니다.
이 논문은 외부 도구에 의존하지 않고 대규모 언어 모델의 내재적 프롬프트 노이즈 저항력을 향상시키기 위해 대비 학습 기반 역 선호도 최적화 (CoIPO) 방법을 제안하고, 이를 검증하기 위해 NoisyPromptBench 벤치마크를 구축하여 기존 최첨단 기법보다 뛰어난 성능을 입증했습니다.
이 논문은 밈의 의미와 독성 (toxicity) 을 포괄적으로 이해하기 위한 새로운 의미론적 프레임워크와 이를 기반으로 생성된 609 개의 질문 - 답변 쌍으로 구성된 M-QUEST 벤치마크를 제안하고, 다양한 오픈소스 대형 언어 모델의 성능을 평가하여 밈 해석에 있어 지시 튜닝과 추론 능력이 중요함을 입증했습니다.
이 논문은 시각적 데이터셋 대신 중국어와 그리스어의 표의성 (iconicity) 을 가진 수어 데이터를 타겟 언어인 아랍어와 플랑드르어로 전이 학습하여 적용했을 때 각각 7.02% 와 1.07% 의 인식 성능 향상을 확인함으로써 표의성 기반 전이 학습의 유효성을 입증했습니다.
이 논문은 대화 중 LLM 의 행동을 턴 단위로 정밀하게 제어할 수 있도록 설계된 퓨샷 프롬핑 기법인 'Retcon'을 제안하고, 기존 제로샷 및 전통적인 퓨샷 프롬핑보다 뛰어난 성능을 입증합니다.
이 논문은 기존 양자 자기주의 메커니즘이 텍스트 분류에만 국한되었던 것과 달리, GPT-1 의 전체 자동회귀 언어 모델링 파이프라인에 양자에서 영감을 받은 자기주의 (QISA) 를 최초로 통합하여, 추론 시간 2.6 배 증가에 비해 오타율, 단어 오류율, 교차 엔트로피 손실에서 각각 15.5 배, 4.7 배, 13 배의 획기적인 성능 향상을 달성했다고 요약할 수 있습니다.
이 논문은 사전 정의된 편향 목록에 의존하지 않고 스패스 오토인코더 기반의 개념 추출 방법을 통해 LLM 평가자의 선호도를 자동으로 발견하고 해석 가능한 편향 요인들을 체계적으로 분석하는 새로운 프레임워크를 제시합니다.
이 논문은 사회적 과학 이론과 귀납적 추론을 기반으로 한 신경-상징적 접근법을 제안하여, 기존 대규모 언어 모델이 수행하기 어려운 '우리'에서 '나'로의 서사 전환 과제를 성공적으로 해결하고 원본 메시지의 충실도를 유지하면서도 서사적 일관성을 크게 향상시켰음을 보여줍니다.
이 논문은 인간 평가 패턴과 부합하는 형식적 속성과 독립성 제약을 적용하여 지시 사항을 유형별 술어로 자동 분해하고 만족도를 평가하는 대화형 LLM 지시 수행 평가 프레임워크인 DIALEVAL 을 제안하며, 이를 통해 기존 방법 대비 오류를 26.45% 줄이고 인간 판단과의 상관관계를 크게 향상시켰음을 보여줍니다.
이 논문은 기존 벤치마크의 데이터 오염 및 정적 한계를 극복하기 위해, 12 개의 생물의학 하위 분야를 매달 업데이트하며 최신 LLM 의 새로운 지식 발견 능력을 평가하는 동적 자동화 프레임워크인 'DBench-Bio'를 제안하고 그 유효성을 검증합니다.
이 논문은 안전성 정렬 과정에서 발생하는 과도한 거절 (over-refusal) 문제를 해결하기 위해, 실제 유해한 콘텐츠와 겉보기에 유해한 콘텐츠를 명확히 구분하는 '대조적 정제 (Contrastive Refinement)' 기법을 도입하여 모델의 유용성과 안전성을 동시에 향상시키는 새로운 정렬 단계를 제안합니다.