GLUScope: A Tool for Analyzing GLU Neurons in Transformer Language Models
이 논문은 SwiGLU 와 같은 게이트 활성화 함수를 사용하는 최신 트랜스포머 언어 모델의 해석 가능성을 높이기 위해, 각 뉴런의 게이트와 입력 활성화의 네 가지 부호 조합에 따른 텍스트 예시와 발생 빈도를 분석하는 오픈소스 도구인 GLUScope 를 제안합니다.
2667 편의 논문
이 논문은 SwiGLU 와 같은 게이트 활성화 함수를 사용하는 최신 트랜스포머 언어 모델의 해석 가능성을 높이기 위해, 각 뉴런의 게이트와 입력 활성화의 네 가지 부호 조합에 따른 텍스트 예시와 발생 빈도를 분석하는 오픈소스 도구인 GLUScope 를 제안합니다.
이 논문은 중국어 전문 글쓰기에서 언어적 오류와 사실적 오류를 통합적으로 수정하는 새로운 태스크인 CLFEC 를 제안하고, 이를 위한 다도메인 데이터셋을 구축하여 대규모 언어 모델 기반의 다양한 수정 패러다임을 체계적으로 평가하고 산업 현장 적용을 위한 실증적 통찰을 제공합니다.
이 논문은 BERT 와 CLIP 을 활용한 멀티모달 멀티태스크 모델과 의사레이블 기반 데이터 증강 기법을 통해 AI 생성 이미지 탐지 및 생성 모델 식별 성능을 향상시키고, 'CT2' 대회에서 상위권을 차지한 결과를 제시합니다.
이 논문은 20 개 이상의 프로그래밍 언어와 3,600 개 이상의 저장소에서 32,000 개 이상의 실행 가능한 소프트웨어 엔지니어링 (SWE) 태스크와 12 만 개 이상의 확장 데이터를 포함하는 대규모 언어 중립적 SWE 벤치마크인 'SWE-rebench V2'를 소개하며, 이를 통해 강화학습 기반 SWE 에이전트 훈련을 위한 재현 가능한 환경과 데이터셋을 제공합니다.
이 논문은 KL 발산 대신 직접적인 수용률 최적화를 목표로 하는 'LK 손실'을 제안하여, 다양한 크기의 모델과 도메인에서 스펙큘레이티브 디코딩의 수용 길이를 8~10%까지 향상시키고 구현의 용이성과 추가 비용 부재를 입증했습니다.
이 논문은 기존 참조 표현 이해 (REC) 벤치마크의 단점을 보완하고 단순한 단서 의존성을 배제하기 위해 고안된 'Ref-Adv'라는 새로운 벤치마크를 제시하며, 이를 통해 최신 멀티모달 LLM 들이 기존 데이터셋에서는 높은 성능을 보이지만 실제 시각적 추론과 정밀한 grounding 능력에서는 심각한 한계를 드러냄을 규명합니다.
이 논문은 대규모 언어 모델 (LLM) 이 무의미한 단어로 대체된 텍스트에서도 문법적 구조와 세계 지식을 활용해 원문의 의미를 놀라운 정확도로 복원할 수 있음을 보여주며, 이는 언어 처리에서 구문론과 어휘적 의미, 그리고 일반 지식이 긴밀하게 통합되어야 함을 시사합니다.
이 논문은 25,006 개의 문장으로 구성된 네덜란드어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네덜란드어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다. *(참고: 원문 초록에 'Nepali(네팔어)'라고 명시되어 있으나, 번역 시 'Devanagari script(데바나가리 문자)'와 'Nepali(네팔어)'의 혼동을 방지하기 위해 'Nepali'를 '네팔어'로 정확히 번역했습니다. 위 문장에서는 '네덜란드어'가 아닌 '네팔어'로 수정하여 작성해야 합니다.)* **수정된 정확한 답변:** 이 논문은 25,006 개의 문장으로 구성된 네팔어 데이터셋을 사용하여 10 가지 BERT 기반 모델을 벤치마크한 결과, MuRIL-large 가 90.60% 의 F1 점수로 가장 우수한 성능을 보였으며, 이는 네팔어 NLP 응용을 위한 강력한 기준을 제시한다는 내용을 담고 있습니다.
이 논문은 18 세기 프랑스 백과전서에서 추출한 지리적 좌표의 정밀한 주석 데이터셋 (EDDA-Coordinata) 을 구축하고 이를 기반으로 학습된 트랜스포머 모델을 통해 고전 텍스트에서 좌표를 자동으로 추출 및 정규화하는 두 단계의 방법을 제안하며, 이를 다양한 언어와 도메인에서 검증한 결과를 제시합니다.
이 논문은 대규모 언어 모델의 기억 시스템이 감정 정보를 처리하는 데 있어 한계가 있음을 규명하기 위해 감정 정보 추출, 업데이트, 질문 응답의 세 가지 차원을 평가하는 새로운 벤치마크와 HLME 데이터셋을 제안하고 있습니다.
이 논문은 언어 모델의 사실적 및 반사실적 기울기를 기반으로 특징 방향을 학습하는 오픈소스 파이썬 패키지 'GRADIEND'를 소개하며, 데이터 생성부터 모델 재작성 및 평가에 이르는 통합 워크플로우를 제시합니다.
이 논문은 유튜브의 자동 자막 시스템이 단일 스페인어 옵션만 제공함으로써 특정 방언과 성별에 따라 편향된 성능 차이를 보이며, 디지털 플랫폼의 알고리즘이 사용자의 다양성을 반영하도록 보정되어야 함을 입증합니다.
이 논문은 인간 피드백의 한계로 인한 보상 모델의 인식적 불확실성을 체계적으로 평가하고 비교하기 위해 'RewardUQ'라는 통합 프레임워크를 제안하며, 모델 크기와 초기화가 성능에 가장 큰 영향을 미친다는 사실을 규명하고 오픈소스 패키지를 공개합니다.
이 논문은 디지털 트윈과 기계 학습을 결합한 데이터 기반 파이프라인을 통해 분산 LLM 어댑터 서빙 환경에서 요청 starvation 과 GPU 메모리 오류를 방지하면서 목표 워크로드를 지원하는 데 필요한 GPU 수를 최소화하여 효율성을 극대화하는 방법을 제안합니다.
이 논문은 추론 기능이 감정 분석 과제의 복잡도에 따라 성능에 상반된 영향을 미쳐 단순 작업에서는 오히려 성능을 저하시키지만 복잡한 작업에서는 향상시킨다는 것을 실증적으로 보여주며, 계산 비용 대비 효율성을 고려할 때 추론은 단순 작업보다는 복잡한 감정 인식 과제에 한정적으로 유용함을 밝힙니다.
이 논문은 기존 LLM 기반 에이전트들이 해결하지 못했던 결제 업무의 자동화 과제를 해결하기 위해, 대화형 결제 에이전트부터 감독 및 라우팅 에이전트까지의 계층적 구조를 통해 종단 간 결제 워크플로우를 구현한 최초의 다중 에이전트 시스템인 HMASP 를 제안하고 그 타당성을 입증합니다.
이 논문은 고대 중국 송사 (SongCi) 음악의 리듬과 스타일을 복원하기 위해 고안된 최초의 음악 생성 모델 '송송 (SongSong)'과 대규모 데이터셋 'OpenSongSong'을 소개하며, 기존 모델들보다 우수한 성능을 입증합니다.
이 논문은 동일한 입력 프롬프트에 대한 서로 다른 응답을 사용하는 선호도 최적화 (DPO 등) 훈련 시 중복 프롬프트의 어텐션 연산과 KV 캐시 메모리 사용을 줄여 훈련 시간을 최대 37% 단축하고 기존 최적화 기법과 결합 시 3.22 배의 속도 향상을 이루는 '선호도 패킹 (Preference Packing)' 기법을 제안합니다.
이 논문은 온라인 논쟁에서 서사적 요소가 설득에 미치는 영향을 분석하기 위해 'ARGUS'라는 새로운 프레임워크와 'ChangeMyView' 코퍼스를 소개하며, 이를 통해 설득 성공에 영향을 미치는 구체적인 서사적 특성을 규명합니다.
이 논문은 RLVR 환경에서 부분적으로 올바른 추론 경로를 폐기하지 않고 프로세스 보상 모델을 활용해 첫 번째 오류 단계를 정밀하게 수정함으로써 탐색 다양성을 확보하고 수학 및 일반화 추론 성능을 획기적으로 개선하는 새로운 프레임워크 'SCOPE'를 제안합니다.