Faster, Cheaper, More Accurate: Specialised Knowledge Tracing Models Outperform LLMs
이 논문은 학생의 향후 응답을 예측하는 지식 추적 (KT) 모델이 대규모 언어 모델 (LLM) 보다 정확도가 높고, 추론 속도가 빠르며, 배포 비용이 저렴함을 입증하여 교육 예측 작업에는 도메인 특화 모델이 더 적합함을 보여줍니다.
2252 편의 논문
이 논문은 학생의 향후 응답을 예측하는 지식 추적 (KT) 모델이 대규모 언어 모델 (LLM) 보다 정확도가 높고, 추론 속도가 빠르며, 배포 비용이 저렴함을 입증하여 교육 예측 작업에는 도메인 특화 모델이 더 적합함을 보여줍니다.
이 논문은 전 세계 언어의 음소 빈도 분포가 거시적으로는 대칭적 디리클레 분포의 순서 통계를 따르고 미시적으로는 발음, 음운론적, 어휘적 제약이 포함된 최대 엔트로피 모델로 설명될 수 있음을 보여줌으로써 음소 빈도 구조에 대한 통합된 정보이론적 설명을 제시합니다.
이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.
이 논문은 LLM 기반 페르소나 시뮬레이션이 인간 대화 패턴을 얼마나 충실히 반영하는지 평가하기 위해, 페르소나 준수성, 일관성, 자연스러움이라는 세 가지 차원을 인간 대화 말뭉치를 기준으로 측정하는 새로운 평가 프레임워크인 'Eval4Sim'을 제안합니다.
이 논문은 데이터 접근 없이도 미세조정된 모델의 매개변수 차이를 통해 입력 공분산을 추정하여 간섭을 완화하는 이론적으로 정립된 폐형식 (closed-form) 솔루션인 ACE-Merging 을 제안함으로써, 데이터 없는 모델 병합 분야에서 새로운 최고 성능을 달성했습니다.
이 논문은 강화학습을 통해 실행 단계별 맥락을 고려한 사전적 프라이버시 지침을 생성하는 'Contextualized Defense Instructing(CDI)' 패러다임을 제안함으로써, 기존 정적 방어 방식보다 프라이버시 보호와 유용성 간의 균형을 획기적으로 개선하고 적대적 조건에서도 강력한 성능을 보임을 입증합니다.
이 논문은 긴 문맥 모델링 시 발생하는 계산 비용과 패딩으로 인한 상태 오염 문제를 해결하기 위해, 전역 의존성 모델링을 위한 트랜스포머 레이어와 선형 시간 상태 업데이트를 위한 마밤 (Mamba) 레이어를 교차 배치하고 패딩 안전 마스킹 기법을 도입한 하이브리드 인코더 'MaBERT'를 제안합니다.
이 논문은 정신 건강 분야에서 대형 언어 모델 (LLM) 의 신뢰성을 체계적으로 평가하기 위한 'TrustMH-Bench'라는 새로운 벤치마크를 제안하고, 다양한 모델들이 신뢰성 측면에서 심각한 결함을 보임을 실험을 통해 입증했습니다.
이 논문은 대규모 언어 모델이 텍스트 설명을 고품질의 TikZ 과학 도표로 변환하는 능력을 향상시키기 위해, DaTikZ-V4 라는 대규모 고품질 데이터셋을 구축하고 역그래픽 기반 이미지 인코더를 활용한 강화 학습을 도입한 'TikZilla' 모델을 제안하며, 이를 통해 GPT-4o 를 능가하고 GPT-5 와 대등한 성능을 달성함을 보여줍니다.
이 논문은 거절 응답과 가짜 유해 출력을 억제하고 유해한 완성을 유도하는 2 단계 손실 함수와 방향 우선 토큰 최적화 전략을 통해 기존 최적화 기반 제이브랙 공격보다 높은 성공률을 달성하는 새로운 방법인 TAO-Attack 을 제안합니다.
이 논문은 지시 미세 조정된 대규모 언어 모델을 활용한 컴팩트 프롬프트 기반 생성 방식을 도입하여, 기존 시퀀스 라벨링이나 파이프라인 방식보다 우수한 성능을 보이는 논쟁적 구성 요소 탐지 (ACD) 에 대한 새로운 접근법을 제시합니다.
이 논문은 WavLM 기반의 자기지도학습 음성 특징 벡터의 주성분 분석을 통해 음높이, 성별, 강도 등 화자 특성이 개별 차원에 체계적으로 인코딩되어 있음을 규명하고, 이를 통해 합성 음성의 특성을 제어할 수 있음을 입증했습니다.
이 논문은 대화형 LLM 시스템에서 중간에 모델이 전환될 때 발생하는 성능 편차를 측정하는 '스위치 행렬' 벤치마크를 제안하고, 단일 전환만으로도 모델 간 격차에 버금가는 통계적으로 유의미한 성능 변화가 발생하며, 이를 모델의 접두어 영향력과 접미어 민감도로 분해하여 모니터링할 수 있음을 보여줍니다.
이 논문은 ESCO 직업 분류 체계의 기술과 대학 강의를 매칭하는 대규모 데이터셋을 공개하고, 이를 기반으로 학습된 BERT 모델이 강의와 기술 간 매칭에서 87% 의 F1 점수를 달성하여 교육 커리큘럼과 전문 역량을 연결하는 작업의 실현 가능성을 입증했습니다.
이 논문은 대규모 언어 모델 (LLM) 을 활용하여 과학적 핵심 내용을 유지하면서 논문 텍스트를 개선하고 향후 인용 수를 예측하는 새로운 자동화 시스템 'APRES'를 제안하며, 인간 전문가 평가에서 원본보다 선호도를 높이고 인용 예측 오차를 크게 줄인 결과를 입증합니다.
이 논문은 자연어 요구사항을 솔버 실행 가능한 최적화 모델로 변환할 때 발생하는 구조적 오류를 해결하기 위해, 도메인 특화 지식 그래프를 기반으로 최소 의존성 폐쇄를 보장하는 타입 인식 검색 증강 생성 (RAG) 방법을 제안하고 산업 최적화 사례에서 기존 방법 대비 우수한 실행 가능성과 일반화 성능을 입증했습니다.
이 논문은 오버모달 LLM 에서 발생하는 교차 모달 환각을 완화하기 위해, 관련 없는 모달리티의 왜곡에 대한 불변성과 관련 모달리티의 변화에 대한 민감성을 강제하며 텍스트 편향을 줄이는 '모달리티 분리 선호 최적화 (MoD-DPO)' 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 기존 코드 에이전트 평가의 한계를 지적하고 교차 저장소 및 도메인 전문성 등 더 넓은 범위를 다루는 새로운 벤치마크 'BeyondSWE' 와 검색 기반 프레임워크 'SearchSWE' 를 제안하여, 현재 최첨단 모델조차 복잡한 실세계 작업에서 성능이 제한적이며 검색 증강이 일관된 개선을 보장하지 않음을 밝혔습니다.
이 논문은 다양한 물리적 구현체에 공통적으로 필요한 공간 지능을 공유 기반대로 활용하여, SSR(기반 구축 - 전문화 - 조화) 패러다임과 GRPO 최적화를 통해 자율 주행, 로봇, UAV 등을 아우르는 범용 embodied intelligence 모델인 ACE-Brain-0 을 제안하고 다양한 벤치마크에서 최첨단 성능을 입증했습니다.
이 논문은 에이전트 언어 모델이 다단계 도구 사용 중 발생할 수 있는 치명적인 오류를 방지하기 위해, 안전성 판단과 거부를 명시적인 행동으로 통합하고 선호도 기반 강화학습을 통해 학습하는 'MOSAIC'이라는 새로운 정렬 프레임워크를 제안합니다.