Reinforcement Learning with Conditional Expectation Reward
이 논문은 수학적 영역을 넘어 자유형 답변이 필요한 일반 추론 영역에서도 외부 검증기 없이 대규모 언어 모델을 활용하여 정답 생성에 대한 조건부 기댓값을 보상으로 제공하는 '조건부 기댓값 보상 (CER)'을 제안함으로써 강화 학습의 적용 범위를 확장하고 있음을 보여줍니다.
12002 편의 논문
이 논문은 수학적 영역을 넘어 자유형 답변이 필요한 일반 추론 영역에서도 외부 검증기 없이 대규모 언어 모델을 활용하여 정답 생성에 대한 조건부 기댓값을 보상으로 제공하는 '조건부 기댓값 보상 (CER)'을 제안함으로써 강화 학습의 적용 범위를 확장하고 있음을 보여줍니다.
이 논문은 정상 입력에서는 정상 작동하지만 특정 트리거가 포함될 때 공격자의 의도대로 작동하는 머신러닝 백도어를 탐지하고 제거하기 위해 신경망 내의 활성 경로를 기반으로 한 설명 가능한 새로운 접근법을 제시하며, 이를 침입 탐지 시스템에 적용한 실험을 통해 그 유효성을 입증합니다.
이 논문은 물류 및 작업장 스케줄링과 같은 공유 작업 공간에서 다중 객체 탐색을 위해 기성 스케줄러와 모션 플래너를 교차시키며 공간적 충돌 및 시간 조정에 대한 기호 피드백을 점진적으로 학습하는 새로운 프레임워크를 제안하고 그 유효성을 검증합니다.
이 논문은 실제 환경의 교란 조건에서 비디오 추론 모델의 성능 저하를 해결하기 위해, 난이도 인식 온라인 학습 전략과 강인성 인식 일관성 보상을 도입한 새로운 학습 프레임워크 'ROVA'와 이를 평가하기 위한 벤치마크 'PVRBench'를 제안합니다.
이 논문은 추상 해석과 LiRPA 기반 바운딩을 활용하여 대규모 신경망에서도 설명 크기를 줄이면서 확장 가능한 새로운 형태의 귀납적 설명인 FAME(Formal Abstract Minimal Explanation) 을 제안하고, 이를 통해 기존 방법 대비 설명 크기와 실행 시간 측면에서 일관된 개선을 달성했음을 보여줍니다.
이 논문은 진단을 단일 회귀 예측이 아닌 상호작용적 심층 임상 연구 과정으로 재정의하여, MIMIC-CDM 벤치마크에서 임상가 수준의 정확도를 달성하고 외부 코호트에서도 성능을 크게 향상시킨 'DxEvolve'라는 자가 진화형 진단 에이전트를 제안합니다.
이 논문은 OpenBCI Galea 헤드셋과 SuperTux 기반의 게임 환경을 통합하여 생체 신호와 상호작용 데이터를 플랫폼에 구애받지 않고 동기화 및 구조화함으로써, 향후 윤리적 승인을 거친 포용적 디지털 인간 모델링 및 AI 연구의 기반을 마련하는 프레임워크를 제안합니다.
이 논문은 지식 증류와 탐색 공간의 정밀한 축소를 기반으로 하여 블랙박스 신경망에 대한 적대적 예제를 보장된 수렴성으로 계산하는 'Contract And Conquer (CAC)' 방법을 제안하고 ImageNet 데이터셋에서 기존 최첨단 방법들을 능가하는 성능을 입증합니다.
이 논문은 교차 사일로 연방 학습에서 무거운 암호화 기법 없이 백도어 주입과 망각 현상을 활용해 경량의 내재적 증명 (Intrinsic Proofs) 을 구축함으로써, 서버의 무결성 위반을 검출하면서도 최종 모델의 유용성을 보존하는 새로운 검증 가능 집계 아키텍처를 제안합니다.
이 논문은 시각 기반 모델의 지적 재산권을 보호하기 위해 입력 이미지의 내부 표현에 무작위 디지털 워터마크를 임베딩하여 모델 소유권을 검증하는 새로운 방법을 제안하고, 이론적·실험적 검증을 통해 그 정확성을 입증합니다.
이 논문은 실제 세계의 스키마 진화에 대비하여 텍스트 -SQL 시스템의 견고성을 평가하고 향상시키기 위해 열 가지 교란 유형을 포함하는 포괄적인 벤치마크인 EvoSchema 를 제안하고, 이를 통해 테이블 수준의 변경이 모델 성능에 더 큰 영향을 미치며 다양한 스키마 설계로 훈련된 모델이 더 뛰어난 견고성을 보임을 입증합니다.
본 논문은 Schema.org 마크업과 링크드 데이터 플랫폼 기반의 구조화된 엔티티 페이지를 활용하여 표준 및 에이전트 기반 RAG 시스템의 정확도와 답변 품질을 크게 향상시킬 수 있음을 실험을 통해 입증했습니다.
이 논문은 혼합 음성과 짧은 등록 음성을 조건으로 하여 혼합 비율 예측 없이 한 번의 단계로 목표 화자 음성을 추출하는 새로운 생성 모델 'AlphaFlowTSE'를 제안하며, 이를 통해 지연 시간을 줄이고 화자 유사성 및 실제 환경에서의 자동 음성 인식 성능을 향상시켰습니다.
이 논문은 기존 음성 위조 탐지 모델의 한계를 극복하고 다양한 생성 기술과 입력 변형에 대한 견고성을 검증하기 위해 제안된 모델 독립적인 확률적 프레임워크인 PV-VASM 과 그 이론적 상한선 및 실험적 유효성을 소개합니다.
이 논문은 열화상과 가시광선 영상을 활용한 교차 스펙트럼 기반의 CTCNet 모델과 교통 규제 지식을 통합한 새로운 대규모 벤치마크 Traffic-VQA 를 제안하여, 열악한 조명 조건에서도 UAV 를 통한 정교한 교통 장면 이해 및 위반 행위 감지를 가능하게 합니다.
이 논문은 대규모 오디오 언어 모델과 인간이 주석한 데이터셋에서 도출된 사고 연쇄 추론을 결합하여, 새로운 오디오 도메인 및 생성기에 대한 일반화 성능과 예측에 대한 인간이 이해할 수 있는 해석 가능성을 동시에 갖춘 새로운 음성 딥페이크 탐지 프레임워크인 HIR-SDD 를 제안합니다.
이 논문은 기존 모델의 재학습 없이도 베이지안 항등 매핑과 구조화된 교란 분석을 통해 알레토릭 및 에피스테믹 불확실성을 동시에 추정할 수 있는 범용 플러그인 프레임워크 'CUPID'를 제안합니다.
이 논문은 제한된 공통 무작위성 하에서 데이터 샘플만을 활용하여 목표 분포와 AE 출력 분포 간의 총변동 거리를 최소화하는 오토인코더 기반의 심층 무작위 분산 함수 계산 (DeepRDFC) 프레임워크를 제안하고, 기존 데이터 압축 방법 대비 뛰어난 통신 부하 효율성을 입증합니다.
이 논문은 비전 언어 모델의 얕은 계층에서 직접 스칼라 활성화 값을 추출하여 '슈퍼 뉴런'을 식별함으로써, 추가 학습 없이도 분류 성능을 향상시키고 최대 5.10 배의 속도 향상을 이루는 새로운 효율적 접근법을 제안합니다.
이 논문은 5G/6G 네트워크 계획의 신뢰성을 높이기 위해 공간적 자기상관으로 인한 데이터 누출을 방지하고 잔차 보정을 적용한 문맥 인식 2 단계 분할 전략을 통해 셀룰러 트래픽 수요를 정확하게 예측하는 AI 기반 프레임워크를 제안합니다.