Evaluating LLM-Based Grant Proposal Review via Structured Perturbations
이 논문은 EPSRC 제안서를 대상으로 구조적 변형을 통해 LLM 기반 심사 방식을 평가한 결과, 섹션 단위 분석이 가장 효과적이었으나 현재 LLM 은 명확성 결함을 놓치고 순응성 확인에 치우쳐 고위험 평가에서는 보조적 역할만 수행할 수 있음을 밝혔습니다.
1699 편의 논문
이 논문은 EPSRC 제안서를 대상으로 구조적 변형을 통해 LLM 기반 심사 방식을 평가한 결과, 섹션 단위 분석이 가장 효과적이었으나 현재 LLM 은 명확성 결함을 놓치고 순응성 확인에 치우쳐 고위험 평가에서는 보조적 역할만 수행할 수 있음을 밝혔습니다.
이 논문은 다중 모달 및 언어 중립적 문장 임베딩과 개체명 주입 메커니즘을 결합한 'SBARThez'라는 새로운 프레임워크를 제안하여, 특히 저자원 언어와 다국어 환경에서 사실적 일관성을 높이고 더 간결한 추상적 요약을 생성하는 것을 목표로 합니다.
이 논문은 LLM 기반 자동 주석과 인간 검증 프로세스를 결합하여 미국 연방 대법원 및 텍사스 형사 상고 판례에서 구축된 대규모 법률 논증 마이닝 코퍼스 LAMUS 를 소개하고, 체인 오브 씽킹 프롬프팅이 모델 성능을 크게 향상시킨다는 것을 입증합니다.
이 논문은 단일 음성 기반 모델을 통해 의미 및 화자 표현 등 다양한 발화 수준 속성 표현을 동시에 학습할 수 있는 통합 후학습 프레임워크를 제안하고, 이를 다국어 음성 검색 및 화자 인식 작업에서 효과적으로 검증했습니다.
이 논문은 VLM 기반 GUI 에이전트의 응답 효율성을 저해하는 새로운 백도어 공격 'SlowBA'를 제안하며, 특정 트리거 패턴 하에서 과도한 추론 체인을 유도하여 응답 지연을 발생시키는 메커니즘과 이를 위한 강화학습 기반의 이단계 주입 전략을 소개합니다.
이 논문은 방대한 문서 코퍼스를 대상으로 복잡한 질문에 답할 때 표준 RAG 의 증거 부족과 장문맥 LLM 의 추론 한계를 해결하기 위해, 각 문서를 전용 에이전트가 처리하고 조정자가 이를 통합하는 계층적 다중 에이전트 프레임워크인 SPD-RAG 를 제안하며, LOONG 벤치마크에서 기존 방법보다 높은 정확도와 비용 효율성을 입증했습니다.
이 논문은 어텐션 출력 프로젝션에 가중치 매개변수가 없는 월시-해다마르 변환을 도입하여 모델 파라미터와 메모리 사용량을 줄이면서도 성능은 유지하거나 오히려 향상시키는 효율적인 트랜스포머 아키텍처를 제안합니다.
이 논문은 언어 모델이 조건문 내의 전제 투사 (proviso problem) 를 어떻게 처리하는지 진단용 데이터셋과 설명 가능성 분석을 통해 평가한 결과, 모델은 인간의 판단과 대체로 일치하지만 심층적인 의미나 화용론적 추론보다는 얕은 패턴 매칭에 의존한다는 점을 밝혔습니다.
이 논문은 언어적 사전 지식이 없이 음성 및 시·청각 입력만으로 초기 언어 습득을 설명하는 자기지도식 및 시각 기반 계산 모델의 최근 발전과 그 실증적 타당성을 검토합니다.
이 논문은 적응형 루프와 게이트형 메모리 뱅크를 결합한 트랜스포머 모델이 수학 추론과 상식 태스크에서 기존 등가 FLOP 모델보다 뛰어난 성능을 보이며, 특히 두 메커니즘의 시너지로 3 배 더 깊은 모델보다 우수한 결과를 달성한다는 것을 보여줍니다.
이 논문은 만성 질환 환자의 개인화된 생활 습관 상담을 생성하는 LLM 기반 파이프라인 'COACH'와 개발자, 전문가, 사용자의 관점을 통합하는 평가 프레임워크 'QUORUM'을 소개하며, 다중 이해관계자 평가를 통해 생성된 상담의 신뢰성과 환자 중심성을 확보하는 방법을 제시합니다.
이 논문은 토큰 조건부 생성과 강화 학습을 결합한 ToCoRL 프레임워크를 제안하여 대규모 언어 모델이 재학습 없이도 상황에 맞는 행동을 유연하게 전환하고 학습할 수 있도록 함으로써, 복잡한 추론 모델이 사실 기반 질문 답변과 같은 다른 영역에서도 뛰어난 성능을 발휘하도록 함을 보여줍니다.
이 논문은 대규모 교육적 담화 데이터를 연구자의 전문성과 결합하여 확장 가능하면서도 엄격한 질적 분석을 가능하게 하고, 개인정보 보호와 LLM 할루시네이션 문제를 해결하는 하이브리드 AI-주도 시스템 'Sandpiper'를 제안합니다.
이 논문은 인간과 AI 의 선호도 데이터가 실험적 맥락에 의해 쉽게 조작될 수 있으며, 이러한 '선택 맹목 (choice blindness)' 현상은 기존 평가 지표로는 탐지되지 않아 강화학습 (RLHF) 의 보상이 무효화되고 정책이 저하된다는 사실을 실험을 통해 규명했습니다.
이 논문은 LLM 에이전트의 숨은 상태 (hidden states) 를 직접 임베딩 공간으로 매핑하는 경량 프로젝션 헤드를 도입하여 별도의 임베딩 모델 없이도 검색 품질을 유지하면서 인프라 복잡성과 지연 시간을 줄이는 '원 모델' 접근법을 제안합니다.
이 논문은 현재 비전 - 언어 모델이 시각적 단서 없이 객체를 추적하는 '쉘 게임' 과 같은 작업에서 심각한 한계를 보인다는 점을 지적하고, 이를 해결하기 위해 제안한 '시공간 기반 체인 오브 씽킹 (SGCoT)' 기법을 통해 90% 이상의 정확도로 해당 과제를 성공적으로 수행할 수 있음을 보여줍니다.
이 연구는 100 명의 환자를 대상으로 한 전향적 임상 타당성 연구를 통해, 실시간 안전 감독 하에 AMIE 라는 대화형 진단 AI 가 실제 1 차 진료 환경에서 안전하고 환자와 의료진 모두에게 만족스러운 경험을 제공하며 진단 정확도 면에서 기존 주치의와 유사한 성능을 보였음을 입증했습니다.
이 논문은 영어-스웨덴어 번역에서 번역체와 자연스러운 표현을 대비시킨 최초의 공개 데이터셋을 소개하고, 언어 모델이 원문 노출 여부와 관계없이 종종 번역체 표현을 선호한다는 사실을 규명하여 더 자연스러운 번역 생성을 위한 벤치마크를 제공합니다.
이 논문은 경계 인식 청킹과 삼각 부등식에 기반한 계층적 KV 인덱싱을 통해 KV 캐시 검색을 로그 시간으로 최적화하여, 장기 컨텍스트 추론 시 3.6 배의 속도 향상을 달성하면서도 모델 성능 저하를 최소화하는 'LycheeCluster'를 제안합니다.
이 논문은 할루시네이션을 줄이고 코란, 하디스, 이슬람 법학 (Fiqh) 의 정통성을 보장하기 위해 의도 인식 라우팅, 검증된 인용, 그리고 특정 법학파 (Madhhab) 에 따른 계산기를 갖춘 다중 에이전트 아키텍처 'Fanar-Sadiq'을 제안하고 그 효과성을 입증합니다.