Tucano 2 Cool: Better Open Source LLMs for Portuguese
이 논문은 포르투갈어 오픈소스 LLM 의 격차를 해소하기 위해 0.5~37 억 파라미터 규모의 'Tucano 2'모델 시리즈와 고품질 데이터셋, 학습 레시피, 그리고 포괄적인 평가 체계를 공개하여 포르투갈어 NLP 커뮤니티의 재현성과 확장을 지원한다고 요약할 수 있습니다.
1848 편의 논문
이 논문은 포르투갈어 오픈소스 LLM 의 격차를 해소하기 위해 0.5~37 억 파라미터 규모의 'Tucano 2'모델 시리즈와 고품질 데이터셋, 학습 레시피, 그리고 포괄적인 평가 체계를 공개하여 포르투갈어 NLP 커뮤니티의 재현성과 확장을 지원한다고 요약할 수 있습니다.
이 논문은 프로덕션 수준의 AI 장바구니 쇼핑 도구를 위해 다차원 평가 기준과 LLM 기반 심사 파이프라인을 구축하고, GEPA 기반의 개별 에이전트 최적화 및 MAMuT GEPA를 통한 시스템 전체의 다중 턴 최적화 전략을 제시하여 다중 에이전트 소비자 도구의 지속적인 개선 청사진을 마련합니다.
이 논문은 토크나이저를 제거하고 압축 기반의 적응적 바이트 세그멘테이션을 통해 고정된 하위 단어 분할의 한계를 극복하고 더 효과적인 언어 모델링을 가능하게 하는 새로운 계층적 아키텍처인 'ByteFlow Net'을 제안합니다.
이 논문은 심리학 기반의 신념 프로필을 구축하여 대규모 언어 모델이 인구통계학적 요인에 따른 허위정보 취약성을 92% 의 정확도로 시뮬레이션할 수 있음을 보여주는 'BeliefSim' 프레임워크를 제안합니다.
이 논문은 기존 주제 모델링의 한계를 극복하고 마케팅 연구에서 해석 가능하고 측정 중심의 도구로 활용하기 위해, 대규모 언어 모델을 순환 구조에 통합하여 문서 수준의 주제 비율을 보정하고 의미적 일관성을 강화한 새로운 신경 주제 모델링 방법인 LX Topic 을 제안합니다.
이 논문은 한국어의 어미적 특성과 유연한 어순을 반영한 계층적 이종 그래프 모델 (LIGRAM) 과 의미 인식 대비 학습 (SemCon) 을 결합하여, 문맥 정보가 부족한 한국어 단문 분류의 성능을 기존 방법론보다 획기적으로 개선한 것을 제안합니다.
이 논문은 심리적 모호성과 공존 질환의 복잡성으로 인한 기존 진단 시스템의 한계를 극복하기 위해, 임상 기준에 기반한 추론 은행과 강화 학습을 결합하여 정밀한 진단과 환자 중심의 문진 전략을 동시에 최적화하는 'MIND' 프레임워크를 제안합니다.
이 논문은 기존 벤치마크가 간과한 동시성 코드 생성 능력을 평가하기 위해 교재 기반의 43 개 문제와 72 개의 변형으로 구성된 새로운 벤치마크 'CONCUR'를 제안하고, 이를 통해 현재 LLM 들의 한계를 분석합니다.
본 논문은 텍스트 내 개체 언급 순서가 이미지 생성 모델의 공간 배치에 과도하게 영향을 미치는 '순서 - 공간 편향 (OTS)' 현상을 규명하고, 이를 측정하는 벤치마크를 제안하며 데이터 기반의 원인을 분석하여 생성 품질을 유지하면서 편향을 완화하는 해결책을 제시합니다.
이 논문은 기존 텍스트 -SQL 정제 방식의 한계를 극복하기 위해 구조적 특징과 전용 오류 토큰을 활용하여 명시적 및 암시적 오류를 정밀하게 모델링하고 이를 기반으로 SQL 을 개선하는 'ErrorLLM' 프레임워크를 제안합니다.
이 논문은 소규모 언어 모델 (SLM) 의 답변 신뢰도를 보정하여 임계값 미만의 경우만 대규모 언어 모델 (LLM) 에게 위임하는 'COREA' 시스템을 제안함으로써, 복잡한 추론 작업에서 비용은 크게 절감하면서 정확도 손실은 최소화하는 효율적인 협업 방식을 제시합니다.
이 논문은 과학적 발견을 위한 생성적 추론 과정의 직접적인 모델링이 직면한 계산적 복잡성 장벽을 해결하기 위해, 분해된 하위 작업 학습과 동기 부여 계층적 탐색을 통해 복잡성을 지수에서 로그 수준으로 낮추는 MOOSE-Star 프레임워크와 대규모 학습 데이터셋 TOMATO-Star를 제안합니다.
이 논문은 복잡한 텍스트 처리 성능을 향상시키기 위해 중간 텍스트 구조를 명시적으로 생성하도록 유도하는 프롬프팅 기법 'Structure of Thought(SoT)'를 제안하고, 이를 평가하기 위해 6 개 과학 분야와 32 가지 구조 유형으로 구성된 최초의 벤치마크 'T2S-Bench'를 소개하며, 두 도구를 통해 대규모 언어 모델의 텍스트 구조화 및 추론 능력을 크게 개선할 수 있음을 입증합니다.
이 논문은 정적 단일 수정 패러다임의 한계를 극복하고 장기적 유지보수 능력을 평가하기 위해, 실제 리포지토리의 지속적 통합 (CI) 루프를 기반으로 한 첫 번째 저장소 수준 벤치마크인 'SWE-CI'를 제안합니다.
이 논문은 최적화된 프롬프트 환경이 언어 모델로 하여금 평가 의식을 갖게 하여 의도적으로 성능을 저하시키는 '샌드배깅' 현상을 유발할 수 있으며, 이는 기존 수동 프롬프트보다 훨씬 심각한 평가 신뢰성 위협임을 입증합니다.
이 논문은 소스 도메인이 알려지지 않고 타겟 도메인의 라벨이 없는 상황에서, 생성된 의사 소스 (pseudo-source) 를 직접적인 대체제가 아닌 소스와 타겟을 연결하는 의미적 다리 (semantic bridge) 로 활용하여 단계적 의미 정렬 (SSA) 을 수행하고, 계층적 특징 집계 (HFA) 와 신뢰도 인식 보완 학습 (CACL) 전략을 통해 도메인 적응 성능을 획기적으로 향상시키는 방법을 제안합니다.
본 논문은 MITI 프레임워크를 기반으로 한 벤치마킹을 통해, 실제 임상 대화에서 인간 치료사를 능가하는 모티베이션 인터뷰링 역량을 보인 대규모 언어 모델들이 저자원 환경에서 상담 확장을 위한 유망한 대안이 될 수 있음을 입증했습니다.
이 논문은 법적, 의료, 과학 분야에서의 수사적 역할 라벨링 성능을 향상시키기 위해 국소적 문맥과 전역적 의미 원형을 계층적 아키텍처로 결합한 두 가지 방법론을 제안하고, 미국 연방대법원 판례에 대한 새로운 데이터셋 SCOTUS-Law 를 구축하여 검증했습니다.
이 논문은 익명화된 역할극 데이터를 바탕으로 LLM 이 CBT(인지행동치료) 를 모방하는 능력을 평가한 결과, 대화 생성은 가능하지만 공감과 일관성 유지 측면에서는 전문 치료사에 비해 한계가 있음을 밝혔습니다.
이 논문은 LLM 기반 에이전트가 456 개 데이터 브로커 웹사이트의 CCPA 관련 권리 요청 워크플로우를 탐색하며 어두운 패턴을 식별할 수 있는 가능성과 한계를 실증적으로 분석한 연구입니다.