When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
이 논문은 LLM 기반 다중 에이전트 시스템에서 집단적 기억 왜곡 현상인 만델라 효과를 탐구하기 위해 MANBENCH 벤치마크를 제안하고, 프롬프트 및 모델 정렬 기반 방어 전략을 통해 해당 효과를 평균 74.40% 감소시키는 방안을 제시합니다.
2405 편의 논문
이 논문은 LLM 기반 다중 에이전트 시스템에서 집단적 기억 왜곡 현상인 만델라 효과를 탐구하기 위해 MANBENCH 벤치마크를 제안하고, 프롬프트 및 모델 정렬 기반 방어 전략을 통해 해당 효과를 평균 74.40% 감소시키는 방안을 제시합니다.
이 논문은 활성화 메모리 사용량을 상수 수준으로 유지하고 KV 캐시를 효율적으로 관리하는 혁신적인 최적화 기법을 통해 단일 GPU 에서도 수백만 토큰의 긴 문맥으로 대규모 언어 모델을 학습할 수 있는 'OOMB' 시스템을 제안합니다.
이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 조건을 반영한 '비전-딥리서치 벤치마크 (VDR-Bench)'를 구축하고, 이를 통해 현재 멀티모달 모델의 시각적 검색 능력을 향상시키기 위한 다중 라운드 크롭 검색 워크플로우를 제안합니다.
이 논문은 24 개 아프리카 언어의 1 억 2,500 만 명 이상의 화자를 포괄하며 자동 음성 인식 (ASR) 및 텍스트 음성 변환 (TTS) 을 위한 대규모 공개 음성 데이터셋 'WAXAL'을 소개하고, 데이터 수집 방법론과 윤리적 고려사항을 논의하여 아프리카 언어 기술의 디지털 격차 해소를 목표로 합니다.
본 논문은 RoPE 의 주파수-조각 (FC) 수준에서 발견된 기능적 희소성을 활용하여 쿼리 인식 토큰 제거를 수행함으로써 긴 컨텍스트 처리 시 KV 캐시 메모리 병목 현상을 해결하고 기존 방법들을 능가하는 성능을 보여주는 FASA 프레임워크를 제안합니다.
이 논문은 사전 훈련된 ASR 및 SE 모델이 겪는 도메인 불일치 문제를 해결하기 위해, 잡음 및 채널 인코더와 동적 확률적 교란 기법을 활용한 범용 강건한 적응 프레임워크 'URSA-GAN'을 제안하고 다양한 조건에서 성능을 크게 향상시켰음을 입증합니다.
본 논문은 Stable Diffusion XL 및 DALL-E 3 를 분석하여 텍스트 - 이미지 생성 모델이 장애인을 어떻게 표현하는지, 그리고 완화 전략이 이러한 표현에 미치는 영향을 감정 분석과 인간 평가를 통해 조사하여 지속적이고 포용적인 장애 묘사를 위한 개선의 필요성을 강조합니다.
이 논문은 토큰 수준의 중요도 샘플링 비율의 높은 분산으로 인한 정책 최적화의 불안정성을 해결하기 위해, 과거 토큰의 상태에 기반하여 오프라인으로 추정된 중요도 비율을 칼만 필터링을 통해 실시간으로 보정하는 '온라인 인과적 칼만 필터링 기반 정책 최적화 (KPO)' 방법을 제안하고 수학 추론 작업에서 뛰어난 성능을 입증합니다.
이 논문은 희소 어텐션과 선형 어텐션을 혼합한 9B 파라미터 모델 'MiniCPM-SALA'를 제안하여, 기존 풀-어텐션 모델 대비 75% 낮은 비용으로 학습하고 256K 토큰에서 3.5 배 빠른 추론 속도와 1M 토큰까지의超长 컨텍스트를 효율적으로 처리할 수 있음을 보여줍니다.
이 논문은 Ascend NPU 에 최적화된 HiFloat(HiF8 및 HiF4) 포맷을 평가하여, 고변동성 데이터와 4 비트 환경에서 기존 정수 형식보다 우수한 정밀도와 효율성을 제공하며 최신 양자화 프레임워크와 호환됨을 입증합니다.
본 논문은 17 개의 대형 언어 모델 (LLM) 을 대상으로 방글라어 혐오 발언 태깅 작업을 수행한 결과, 모델 규모가 커진다고 해서 주석 품질이 향상되는 것은 아니며 오히려 편향과 불안정성이 발견되어 저자원 언어의 민감한 태스크에서 LLM 을 자동 주석가로 사용하기 전에 신중한 평가가 필요함을 시사합니다.
이 논문은 대규모 언어 모델 (LLM) 이 알고리즘에 대한 선언적 지식은 풍부하지만, 실제 계산 과정을 추론하거나 알고리즘 실행 결과를 정확히 예측하는 데 있어 체계적이고 거의 완전한 실패를 보이는 '알고리즘적 맹목성'을 겪고 있음을 밝혀냈습니다.
이 논문은 확률적 튜링 기계가 결정론적 기계보다 더 많은 것을 계산할 수 없다는 기존 정설을 넘어서는 '동적 레벨 세트'라는 새로운 수학적 개념을 제안하며, 이는 불가결한 물리적 과정을 통해 계산 단계마다 재구성되는 자기 수정 가능성의 원리에 기반합니다.
이 논문은 사전 학습된 Whisper 모델을 미세 조정하여 다음 토큰 예측을 통해 딥페이크 단어를 탐지하고, 부분적으로 보코딩된 데이터를 활용하여 데이터 수집 비용을 절감하는 비용 효율적인 방법을 제안하고 그 성능을 평가합니다.
이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.
이 논문은 ICLR-2025 와 EMNLP-2024 의 리뷰 데이터를 대규모로 분석하여 약 25% 의 저자 약속이 이행되지 않았음을 발견하고, 이를 감시하기 위해 LLM 기반의 '저자 약속 체크리스트' 도입을 제안합니다.
이 논문은 동적 슬라이딩 윈도우 어텐션 모듈을 활용하여 문장 간 국소 및 중거리 의미 의존성과 구조적 관계를 포착하는 데이터 기반 그래프 문서 표현 구축 방법을 제안하며, 이를 통해 기존 접근법보다 낮은 계산 비용으로 문서 분류에서 경쟁력 있는 성능을 달성하고 추출형 문서 요약에 대한 잠재력을 탐색했습니다.
이 논문은 BERT 기반 임상 개체명 인식 (NER) 모델의 높은 오탐지율을 해결하기 위해, 단순 확률 임계값 대신 토큰 시퀀스 내의 확률 분포 특성을 포착하는 '확률 밀도 지도 (PDM)'를 활용한 노이즈 제거 모델을 개발하여 오탐지를 50~90% 감소시켰음을 제시합니다.
이 논문은 개인화가 LLM 의 정서적 일치성을 전반적으로 높이지만, 조언자 역할일 때는 사용자의 전제를 도전하는 인지적 독립성을 강화하는 반면 사회적 동료 역할일 때는 이를 약화시켜 역할에 따라 사교적 순응에 상반된 영향을 미친다고 주장합니다.
이 논문은 의료 주석과 같은 토큰 수준의 민감한 구조적 생성 작업에서 기존 DPO 의 한계를 극복하고, 토큰 가중치와 조건부 장벽을 도입하여 TAB-PO 를 제안함으로써 성능을 크게 향상시킨다는 내용을 담고 있습니다.