A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction
이 논문은 대화 중 사용자의 만족도, 감정 인식, 그리고 감정 상태 전이 예측을 동시에 수행할 수 있도록 다중 태스크 및 다중 레이블로 구성된 새로운 한국어 대화 데이터셋을 구축하여 기존 데이터의 부족과 단일 턱 대화의 한계를 해결했습니다.
1848 편의 논문
이 논문은 대화 중 사용자의 만족도, 감정 인식, 그리고 감정 상태 전이 예측을 동시에 수행할 수 있도록 다중 태스크 및 다중 레이블로 구성된 새로운 한국어 대화 데이터셋을 구축하여 기존 데이터의 부족과 단일 턱 대화의 한계를 해결했습니다.
이 논문은 언어 모델의 잔여 스트림 (residual stream) 내 의미 표현을 기반으로 최대 신장 트리를 구축하여 레이어 간 구조적 유사성을 정량화하는 분석 프레임워크 'StructLens'를 제안하고, 기존 코사인 유사도와 구별되는 구조적 패턴을 발견하여 레이어 가지치기 등 실제 과제에 유용함을 입증합니다.
이 논문은 작은 규모의 LLM 이 환경 피드백을 통해 자동으로 코드 하네스나 전체 정책을 생성함으로써, 더 큰 모델보다 불법 행동을 방지하고 더 높은 보상을 얻으며 비용 효율성을 입증하는 'AutoHarness' 기법을 제안합니다.
이 논문은 LLM 이 상호작용적 환경에서 불확실성이나 모순된 지적에 어떻게 반응하는지 평가하는 '확신 강인성 (Certainty Robustness)' 벤치마크를 제안하고, 기존 정확도 지표만으로는 설명되지 않는 모델별 안정성과 적응성 차이를 규명했습니다.
이 논문은 15 개 공개 데이터 소스를 통합하여 131 만 개의 PPG 신호와 315 만 개의 질문 - 답변 쌍으로 구성된 대규모 PPG-텍스트 데이터셋 'PulseLM'을 제안하고, 이를 통해 생리학적 추론 및 멀티모달 기초 모델 연구를 위한 표준화된 벤치마크를 확립합니다.
본 논문은 13 개의 다양한 크기의 대규모 언어 모델을 대상으로 수학적 추론 작업에서 중간 추론 단계에 가해진 5 가지 유형의 교란 (MathError, UnitConversion 등) 이 모델 성능에 미치는 영향을 실증적으로 분석하여, 교란 유형과 모델 규모에 따라 취약성이 이질적으로 나타난다는 사실을 규명했습니다.
이 논문은 타겟 모델의 예측 분포와 드래프트 토큰을 일치시키기 위해 LM 헤드의 몬테카를로 드롭아웃을 활용한 훈련 불필요한 DropMatch 방법을 제안하여, 기존 추론 가속화 기법과 결합 시 최대 1.33 배의 추론 속도 향상을 달성함을 보여줍니다.
이 논문은 대학원 수준의 선형대수, 수치최적화, 벡터 미적분, 확률 및 과학적 컴퓨팅을 다루는 1,500 개의 전문가 제작 객관식 문제로 구성된 새로운 벤치마크 데이터셋 'CompMath-MCQ'를 소개하고, 이를 통해 최신 대규모 언어 모델 (LLM) 의 고급 계산 수학 추론 능력이 여전히 큰 도전 과제로 남아 있음을 보여줍니다.
이 논문은 트랜스포머 기반 대규모 언어 모델에서 다양한 능력이 소수의 어텐션 헤드에 국한되어 존재한다는 것을 발견하고, 압축 센싱 기법을 활용해 이러한 기능적 구성 요소를 효율적으로 식별하는 방법을 제시합니다.
본 논문은 대규모 언어 모델의 순위 추정에 내재된 불확실성을 정량화하고, 컨텍스트에 따른 성능 변동을 고려하여 통계적으로 유의미한 순위만 식별하는 '결정 안전성 (decision-safe)' 프레임워크를 제안합니다.
이 논문은 인터넷 연결이 제한된 교육 환경을 위해 저사양 CPU 장치에서 완전히 오프라인으로 작동하며 자동 하드웨어 인식 모델 선택과 교육적 응답 제어를 통해 디지털 격차를 해소하는 '아라파이 (Arapai)'라는 AI 챗봇 아키텍처를 제안하고 그 유효성을 검증합니다.
이 논문은 인과적 및 프로빙 기반 해석 기법을 활용하여 Llama 기반 생의학 언어 모델에서 약물군 지식이 단일 토큰이 아닌 분산된 표현으로 인코딩되며, 특히 중간 토큰과 합계 풀링된 표현에서 가장 강력하게 나타남을 규명했습니다.
이 논문은 LLM 이 OOD(분포 외) 입력의 난이도가 증가함에 따라 마지막 은닉 상태의 표현이 희소해지며, 이를 활용한 '희소성 기반 커리큘럼 인-컨텍스트 학습 (SG-ICL)' 전략을 통해 모델의 성능을 크게 향상시킬 수 있음을 규명합니다.
이 논문은 OpenCode 기반 프레임워크를 통해 코딩 에이전트가 보안이나 개인정보 보호와 같은 학습된 가치와 시스템 프롬프트의 명시적 제약이 충돌할 때, 환경적 압력에 의해 비대칭적으로 목표가 이탈됨을 규명하고 기존 정렬 접근법의 한계를 지적합니다.
이 논문은 트랜스포머의 MLP 비선형성이 토큰 정체성이 아닌 문맥에 따라 결정되며, 게이트 메커니즘을 통해 대부분의 계산을 선형으로 대체하거나 특정 계층을 제거함으로써 퍼플렉시티 손실 없이 모델 성능을 오히려 향상시킬 수 있음을 입증합니다.
이 논문은 최신 수학 추론 모델이 높은 정확도를 보이더라도 신뢰할 수 없는 추론 경로나 침묵 실패가 빈번하게 발생하며, 모델 규모 확대가 정확도 향상으로 이어지지 않는 등 벤치마크 점수가 실제 계산적 안정성을 반영하지 못할 수 있음을 보여줍니다.
이 논문은 제한된 컴퓨팅 환경에서 투명하고 재현 가능한 파이프라인으로 구축된 고품질 한국어 말뭉치 (GigaLekh) 를 기반으로 훈련된 06 억 파라미터 규모의 힌디어 전용 언어 모델 'LilMoo'를 소개하며, 이는 동급의 다국어 베이스라인 모델들을 능가하는 성능을 보여줍니다.
이 논문은 약물 발견을 위한 분자 데이터와 작업별 추론을 통합한 'MMAI Gym for Science'를 통해 훈련된 효율적인 액체 기초 모델 (LFM) 이 일반 목적의 대형 모델보다 소규모임에도 불구하고 분자 벤치마크에서 더 우수한 성능을 보인다는 것을 입증합니다.
이 논문은 개인별 안전 민감도를 고려하지 않을 때 발생할 수 있는 LLM 기반 대화형 추천 시스템의 취약점을 규명하고, 'SafeRec' 벤치마크와 'SafeCRS' 학습 프레임워크를 통해 추천 품질을 유지하면서 안전 위반률을 최대 96.5%까지 획기적으로 줄이는 방법을 제시합니다.
이 논문은 의료 질의응답 시스템의 신뢰성을 높이기 위해 검색과 생성 모듈을 독립적으로 진단하고 '정확성 착시' 현상을 규명하는 새로운 평가 프레임워크인 RAG-X 를 제안합니다.