Routing without Forgetting
이 논문은 온라인 연속 학습 환경에서 반복적인 최적화 없이 단일 단계의 연관성 기반 검색을 통해 동적 프롬프트를 생성함으로써 기존 프롬프트 기반 방법보다 뛰어난 성능을 보이는 '잊지 않는 라우팅 (Routing without Forgetting)'이라는 새로운 트랜스포머 아키텍처를 제안합니다.
2384 편의 논문
이 논문은 온라인 연속 학습 환경에서 반복적인 최적화 없이 단일 단계의 연관성 기반 검색을 통해 동적 프롬프트를 생성함으로써 기존 프롬프트 기반 방법보다 뛰어난 성능을 보이는 '잊지 않는 라우팅 (Routing without Forgetting)'이라는 새로운 트랜스포머 아키텍처를 제안합니다.
이 논문은 에너지 보존과 극값 작용 원리를 기반으로 시간 연속 신경망의 역전파 (BPTT) 를 생물학적으로 타당한 국소적 방식으로 근사하는 새로운 변분 잠재 평형 프레임워크를 제시하여 뇌의 시공간 학습 메커니즘과 물리적 회로 구현을 위한 청사진을 제공합니다.
이 논문은 프롬프트 엔지니어링의 한계를 넘어 기업용 다중 에이전트 시스템의 성숙도를 위한 새로운 패러다임으로 '컨텍스트 엔지니어링'을 제안하고, 이를 의도 엔지니어링과 명세 엔지니어링과 함께 에이전트 엔지니어링의 피라미드 성숙도 모델로 정립합니다.
이 논문은 원격 탐사 분야에서 생성 모델, 시맨틱 분할, 이미지 캡셔닝을 결합하여 해석 가능한 합성 데이터 증강 및 평가를 가능하게 하는 'ARAS400k'라는 대규모 데이터셋과 프레임워크를 제안하며, 이를 통해 합성 데이터와 실데이터를 함께 학습한 모델이 기존 실데이터 기반 모델보다 우수한 성능을 보임을 입증했습니다.
이 논문은 LLM 에이전트의 지식 검색 저하, 규칙 조합 실패, 그리고 노후화된 지식 탐지 부재 문제를 해결하기 위해, 결정론적 규칙 검색, 충돌 인식 메모리, 그리고 파레토 기반 프롬프트 진화를 통합한 테스트 시간 적응 프레임워크인 PRECEPT 를 제안하고, 이를 통해 기존 방법 대비 우수한 성능과 강건성을 입증합니다.
이 논문은 GPT-5 와 같은 최첨단 LLM 을 포함한 멀티모달 에이전트의 강건성을 평가하기 위해 사용자 페르소나 적응과 이중 제어 환경을 고려한 12 개의 새로운 지표를 제시하는 'MM-tau-p' 벤치마크를 제안합니다.
이 논문은 대규모 언어 모델 (LLM) 이 정적 텍스트에서 인터랙티브 HTML 애플리케이션 (MiniApp) 생성으로 전환됨에 따라 기존 벤치마크의 한계를 극복하기 위해, 실제 데이터로 구축된 'MiniAppBench'와 인간 판단과 높은 일치도를 보이는 에이전트 평가 프레임워크 'MiniAppEval'을 제안하고 현재 모델의 한계를 규명합니다.
이 논문은 배경 일관성을 유지하면서 전경 품질을 향상시키기 위해, 할루시네이션 감지를 통해 캐시된 배경 키 - 값과 생성된 키 - 값의 융합 비율 및 CFG 스케일을 동적으로 조절하는 훈련 불필요 KV-Lock 프레임워크를 제안합니다.
이 논문은 그래프 신경망 (GNN) 을 활용한 시계열 이상 탐지를 위한 오픈소스 프레임워크를 제시하고, 이를 통해 GNN 기반 모델이 탐지 성능과 해석 가능성 측면에서 우수하며 평가 방법론의 개선이 필요함을 비판적으로 분석합니다.
이 논문은 문서, 이미지, 오디오·비주얼 스트림의 이질적인 비정형 데이터를 기계가 읽을 수 있는 구조화된 지식으로 변환하기 위해, 전역적 감지에서 국소적 인식, 논리적 해석까지 이어지는 계층적 파싱 프레임워크인 '오미 파싱 (Omni Parsing)'과 이를 검증하는 벤치마크 및 모델을 제안합니다.
이 논문은 대규모 언어 모델이 기존 코드 생성 벤치마크에서 높은 점수를 얻는 것이 단순 암기에 불과할 수 있음을 지적하며, 데이터 오염 가능성이 낮은 에소테릭 프로그래밍 언어를 활용한 'EsoLang-Bench'를 통해 모델들의 진정한 추론 능력을 평가했을 때 기존 벤치마크 점수와 극명하게 대비되는 낮은 성능을 확인했다고 요약할 수 있습니다.
본 논문은 3,482 명의 노인 환자 데이터를 활용하여 비구조화된 전자의무기록 (EHR) 을 기반으로 심혈관 위험을 자동 분류하는 프레임워크를 제안하고, 기존 기계학습 및 생성형 LLM 보다 장기 의존성을 포착하는 맞춤형 트랜스포머 아키텍처가 가장 우수한 성능을 보임을 입증했습니다.
이 논문은 PhoBERT 와 비전 트랜스포머를 활용한 대규모 자동 구축 베트남어 시각 질문 답변 (VQA) 데이터셋 'AutoViVQA'를 제안하고, 다양한 자동 평가 지표와 다국어 설정 하에서 트랜스포머 기반 아키텍처의 성능을 체계적으로 비교 분석합니다.
이 논문은 다양한 대화 시나리오와 데이터셋에 유연하게 적응할 수 있도록 지시 및 스키마 정렬 메커니즘을 도입한 통합 엔드투엔드 스키마 인식 지시 튜닝 프레임워크인 ESAinsTOD 를 제안하여, 기존 최첨단 모델보다 뛰어난 성능과 저자원 환경에서의 일반화 능력을 입증합니다.
이 논문은 RLHF 의 비용 문제를 해결하기 위해 불확실성 추정과 새로운 샘플링 기법을 활용한 'ActiveUltraFeedback'이라는 능동 학습 파이프라인을 제안하며, 기존 방법보다 적은 양의 주석 데이터로도 동등하거나 더 우수한 성능을 달성함을 보여줍니다.
이 논문은 Muon 최적화기의 등방성 가정이 비등방적인 곡률 스펙트럼을 가진 심층 신경망에 부적합하다는 점을 지적하고, Shampoo 의 구조적 추정치를 활용한 화이트닝 좌표계에서 편광 분해를 통해 등방성 제약과 기하학적 적응성을 조화시킨 새로운 최적화 알고리즘 'Mousse'를 제안하여 160M~800M 파라미터 규모의 언어 모델에서 학습 단계를 약 12% 단축하고 성능을 향상시켰음을 보여줍니다.
이 논문은 MLLM 의 안전성을 악의적 의도에서 잠재적 결과로 확장하기 위해 OOD-MMSafe 벤치마크를 제안하고, 인과적 맹점을 해결하여 위험 식별 실패율을 획기적으로 낮춘 CASPO 프레임워크를 개발했습니다.
이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.
이 논문은 질문의 유무에 따른 답변 타당성 평가의 차이를 측정하여 고품질의 시각 - 언어 결합 추론이 필요한 데이터를 비용 효율적으로 선별하는 'CVS'라는 학습 없는 데이터 선택 방법을 제안하고, 이를 통해 적은 데이터로 더 높은 성능을 달성함을 입증합니다.
이 논문은 정적 인지, 경직된 워크플로우, 비효율적인 컨텍스트 활용이라는 기존 자율 에이전트의 한계를 극복하기 위해 진화하는 인지, 실시간 상황 기반 의사결정, 탄력적인 기억 오케스트레이션을 통합한 자가 진화형 멀티 에이전트 프레임워크인 'AutoAgent'를 제안하고, 다양한 벤치마크에서 뛰어난 적응성과 성능을 입증합니다.