Circuit Insights: Towards Interpretability Beyond Activations
이 논문은 기존 활성화 기반 분석의 한계를 극복하고 외부 모델이나 데이터셋 없이도 학습된 가중치와 구성 요소 간 상호작용을 직접 분석하여 기계적 해석 가능성을 확장하는 두 가지 새로운 방법인 WeightLens 와 CircuitLens 를 제안합니다.
2173 편의 논문
이 논문은 기존 활성화 기반 분석의 한계를 극복하고 외부 모델이나 데이터셋 없이도 학습된 가중치와 구성 요소 간 상호작용을 직접 분석하여 기계적 해석 가능성을 확장하는 두 가지 새로운 방법인 WeightLens 와 CircuitLens 를 제안합니다.
이 논문은 주석 데이터가 부족한 시각적 추론 도메인 (예: 차트, 문서, 웹페이지) 에서 소량의 시드 질문을 원시적 요소로 분해하고 재조합하여 대규모 합성 데이터를 생성하고, 이를 통해 다중 모달 대규모 언어 모델의 일반화 추론 능력을 향상시키는 'COGS'프레임워크를 제안합니다.
이 논문은 대규모 언어 모델의 보편적 정직성 정렬을 위해 소량의 정답 주석만으로 고품질의 신뢰도 조정이 가능한 'EliCal' 프레임워크를 제안하고, 이를 검증하기 위해 대규모 벤치마크 'HonestyBench'를 공개했습니다.
이 논문은 RAG 시스템의 응답 생성과 무관하게 발생하는 '인용 실패' 현상을 정의하고, 이를 분석하기 위한 벤치마크 'CITECONTROL'과 생성·주의·검색 기반 방법을 통합한 효율적 해결 프레임워크 'CITENTION'을 제안합니다.
이 논문은 타오바오 비주얼 검색 시스템의 '사용자-검색 시스템 의도 불일치' 문제를 해결하기 위해 오프라인에서 대규모 모델을 활용한 잠재적 의도 마이닝과 온라인에서 실시간 의사결정을 수행하는 새로운 프레임워크 REVISION 을 제안하여 클릭 없는 요청률을 크게 감소시켰음을 보여줍니다.
이 논문은 텍스트, 오디오, 비디오 모달리티가 모두 주석된 독일어 멀티모달 풍자 데이터셋인 MuSaG 을 소개하고, 기존 모델들이 텍스트에 의존하는 반면 인간은 오디오에 크게 의존한다는 인간과 모델 간의 성능 격차를 규명하여 향후 연구의 기초를 마련합니다.
이 논문은 이기적인 에이전트 데이터 형식을 통합하는 경량 표현 언어인 '에이전트 데이터 프로토콜 (ADP)'을 제안하여, 다양한 소스의 데이터를 표준화함으로써 도메인 특화 튜닝 없이도 LLM 에이전트의 성능을 평균 20% 향상시키고 최첨단 수준에 도달하게 했음을 보여줍니다.
이 논문은 프랑스 의학 학생들의 실제 시험을 기반으로 한 CareMedEval 데이터셋을 소개하여, 현재 대규모 언어 모델이 과학적 문헌에 대한 비판적 평가와 추론에서 여전히 한계를 보이고 있음을 규명했습니다.
이 논문은 암 환자 인터뷰 및 포럼 데이터를 기반으로 대규모 언어 모델 (LLM) 과 인간 개입 방식을 결합하여 네덜란드어 은유를 추출하고 'HealthQuote.NL' 코퍼스를 구축함으로써 환자-임상진 간 소통 개선과 맞춤형 치료 경로 설계에 기여하는 방안을 제시합니다.
이 논문은 ContArgA 코퍼스를 기반으로 제로샷 프롬프팅 실험을 수행하여, 논증의 설득력 예측에 범주형 감정 모델보다 평가 이론 (appraisal theories) 이 더 효과적임을 최초로 체계적으로 입증했습니다.
이 논문은 오픈 소스 커뮤니티에서 저자원 언어인 바스크어를 위한 강력한 멀티모달 대형 언어 모델을 개발하기 위해 자체 데이터셋을 구축하고, 바스크어 지시형 백본 모델이 필수적이지 않으며 소량의 바스크어 멀티모달 데이터만으로도 우수한 성능을 달성할 수 있음을 입증했습니다.
이 논문은 웹 페이지의 주요 콘텐츠를 추출하기 위해 생성형 LLM 의 높은 비용과 할루시네이션 문제를 해결하면서도 전통적 휴리스틱 방법보다 뛰어난 정확도를 보여주는 경량화된 프레임워크 'Dripper'를 제안하고, 이를 통해 고품질 학습 코퍼스 구축과 모델 성능 향상을 가능하게 했음을 보여줍니다.
이 논문은 대조적 설명을 통해 기계 번역 모델이 성별을 선택하는 데 영향을 미치는 소스 문장의 입력 토큰을 분석하고, 인간의 성별 인식과 모델의 할당 패턴 간의 유사성을 규명하여 성별 편향을 완화하는 데 기여합니다.
이 논문은 기존 AI 의 모호성 조기 해소 한계를 극복하기 위해, 다중 벡터 임베딩과 비-수렴 어텐션 등을 통해 모호성을 유지하고 맥락에 따른 정체성을 보존하는 '비해석 추론 (NRR)' 프레임워크를 제안합니다.
이 논문은 네 가지 주요 대규모 언어 모델 (LLM) 을 정치, 이념, 동맹, 언어, 성별 차원에서 체계적으로 분석한 결과, 모델이 중립적으로 정렬되어 있음에도 불구하고 다양한 형태의 편향과 경향을 여전히 드러낸다는 점을 밝혔습니다.
이 논문은 확률적 추론을 테스트베드로 활용하여 RLVR(검증 가능한 보상을 통한 강화학습) 이 초기 추론 역량이 충분한 모델에서 복잡한 인과적 추론 과제의 일반화 성능을 향상시킨다는 것을 실증적으로 규명했습니다.
이 논문은 대규모 멀티테넌트 검색 환경에서 자동화된 파이프라인을 통해 데이터셋을 구축하고, 문서 인덱스를 재구성하지 않고 쿼리 인코더만 효율적으로 미세 조정하는 'DevRev-Search' 프레임워크를 제안하여 확장 가능한 검색 적응을 가능하게 합니다.
이 논문은 지식 그래프를 암시적 보상 모델로 활용하여 axiomatic 사실을 기반으로 한 하향식 학습 파이프라인을 제안함으로써, 복잡한 다단계 추론에서 기존 최첨단 모델들을 능가하는 구성적 추론 능력을 달성했음을 보여줍니다.
이 논문은 모호한 입력에 대한 LLM 의 조기 의미 확정 (collapse) 을 방지하고 여러 해석을 공존시키는 비-해결 추론 (NRR) 프레임워크를 구현하기 위해, 텍스트를 비-축퇴 상태 공간으로 매핑하는 'NRR-Phi'라는 형식적 체계와 하이브리드 추출 파이프라인을 제안합니다.
이 논문은 시간 기반 질문 응답에서 불확실성을 인정하고 답변을 유보하는 능력을 학습시키기 위해 체인 오브 씽킹 (CoT) 감독과 유보 인식 보상을 활용한 강화 학습 (RL) 파이프라인을 제안하고, 이를 통해 기존 모델보다 정확도와 신뢰성을 크게 향상시켰음을 실증적으로 보여줍니다.