Can Thinking Models Think to Detect Hateful Memes?
이 논문은 강화 학습 기반의 사고 모델 (Thinking-based MLLM) 에 그룹 상대적 정책 최적화 (GRPO) 를 적용하여 해로운 밈의 복합적 다중 모달 추론 능력을 향상시키고, 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크를 제안합니다.
2555 편의 논문
이 논문은 강화 학습 기반의 사고 모델 (Thinking-based MLLM) 에 그룹 상대적 정책 최적화 (GRPO) 를 적용하여 해로운 밈의 복합적 다중 모달 추론 능력을 향상시키고, 벤치마크에서 최첨단 성능을 달성한 새로운 프레임워크를 제안합니다.
이 논문은 다중 턴 대화에서 LLM 이 자신의 이전 출력에 기반할 때 모델마다 다른 방식으로 신뢰도 보정 오차가 변화하는 '자기 앵커링 보정 드리프트 (SACD)' 현상을 실증적으로 규명하고, 특히 클로드가 신뢰도 하락을, GPT 는 개방형 영역에서 오차 증가를, 지미는 자연스러운 보정 개선이 억제되는 양상을 보인다고 보고합니다.
이 논문은 최종 답변이 엄격한 템플릿을 따르도록 강제하여 파싱을 용이하게 하고 정확도를 높이는 '접미사 제약 탐욕 검색 (suffix-constrained greedy search)' 알고리즘을 제안합니다.
이 논문은 대규모 언어 모델의 의료 도메인 지식 한계를 구조화된 지식 그래프와 능동적 인-컨텍스트 학습을 통해 보완하여, 선진단 평가 시 환자에게 적합한 후속 질문을 생성하는 'KG-Followup' 모델을 제안하고 기존 최첨단 방법보다 재현율에서 5~8% 향상된 성능을 입증했습니다.
본 논문은 LLM 의 자기 설명이 실제 작업 상태가 아닌 의미적 맥락 (예: 도구 설명의 어조) 에 따라 변하는 '의미 불변성'을 결여하고 있음을 보여주며, 이는 모델의 자기 보고가 능력이나 진전을 입증하는 증거로 신뢰하기 어렵다는 점을 시사합니다.
이 논문은 기존 주의력 조향 방법의 메모리 비효율성을 해결하고, FlashAttention 과 호환되며 학습 없이 토큰 주의를 증폭시키는 'Spectral Editing Key Amplification(SEKA)'과 이를 동적으로 조정하는 'AdaSEKA'를 제안하여 기존 기법보다 높은 성능과 낮은 오버헤드를 달성함을 보여줍니다.
이 논문은 어텐션 분포를 평탄화하여 기억된 지식의 어휘 및 의미적 연관성을 직접 억제함으로써, 모델의 유용성을 유지하면서 민감 정보를 효과적으로 삭제하는 새로운 프레임워크인 '어텐션 스무딩 언러닝 (ASU)'을 제안합니다.
이 논문은 저자원 환경에서 긴 문서의 요약 시 발생하는 계산 병목 현상을 해결하기 위해 트랜스포머의 의미적 강점과 Mamba 의 선형 시간 처리 능력을 결합한 최초의 하이브리드 추출형 요약 모델을 제안하며, 다양한 도메인에서 기존 모델 대비 ROUGE 점수 향상과 추론 속도 개선을 입증했습니다.
이 논문은 10 년 이상의 개인 메시징 데이터를 기반으로 다양한 LLM 시뮬레이션 기법을 평가한 결과, 친분 있는 지인에게는 현재 기술이 '개인 튜링 테스트'를 통과하지 못하지만, 언어 스타일과 개인적 의견에 따라 파인튜닝과 검색/메모리 기반 접근법 간에 명확한 성능 trade-off 가 존재함을 규명했습니다.
이 논문은 34 개 지역과 22 개 언어를 포괄하는 최초의 벤치마크인 JailNewsBench 를 제안하여, 다양한 언어와 지역에서 LLM 의 지옥공격 (jailbreak) 을 통한 가짜 뉴스 생성에 대한 방어 취약점과 안전성 불균형을 체계적으로 평가했습니다.
이 논문은 지시 튜닝된 추론 모델의 임베딩이 미세하게 변형될 경우 안전 분류기가 고신뢰도 오분류로 인한 침묵적 실패를 겪으며, 오히려 정렬된 시스템이 안전 보호가 더 어려워진다는 것을 보여줍니다.
이 논문은 LLM 기반의 자율 에이전트 'Catalyst-Agent'가 대규모 재료 데이터베이스를 탐색하고 구조를 수정하며 흡착 에너지를 계산하는 폐쇄 루프 워크플로우를 통해 산소, 질소, 이산화탄소 환원 반응과 같은 핵심 촉매 반응을 효율적으로 선별하고 최적화하여 과학적 발견을 가속화한다는 것을 보여줍니다.
이 논문은 LLM 의 추론을 고정된 활성화가 아닌 층 간 기하학적 이동 궤적으로 모델링하여 '진실 궤적 (Truth as a Trajectory)'을 제안함으로써, 기존 탐지법의 어휘적 편향을 극복하고 추론의 유효성을 더 정확하게 식별할 수 있음을 보여줍니다.
이 논문은 LLM 기반의 두 에이전트 (위치 파악 및 해결) 프레임워크인 SWE-Adept 를 제안하여, 에이전트 주도 심도 우선 탐색과 적응적 계획 및 버전 관리 도구를 통해 대규모 코드베이스 분석 및 문제 해결 성능을 향상시켰음을 보여줍니다.
이 논문은 이산 확산 언어 모델의 단계 간 정보 단절 문제를 해결하기 위해, 고정된 크기의 지속적 작업 기억 (MetaState) 을 도입하여 생성 품질을 향상시키는 경량화 방법을 제안합니다.
이 논문은 실제 췌장암 환자 질문과 전문가 평가 기준을 기반으로 한 벤치마크 'PanCanBench'를 개발하여 다양한 대규모 언어 모델의 임상적 완전성, 사실성, 그리고 웹 검색 통합 효과를 평가하고, 최신 모델이 반드시 사실 오류를 줄이는 것은 아니며 AI 생성 평가 기준이 점수를 부풀릴 수 있음을 밝혔습니다.
이 논문은 도메인별 전문 용어를 기반으로 고품질의 합성 지시 데이터 (CoT 포함) 를 구축하는 일반적 방법을 제안하고, 이를 일본 금융 도메인에 적용하여 95 억 토큰 규모의 데이터셋을 생성한 결과, 베이스라인 모델 대비 금융 벤치마크 성능이 향상됨을 입증하고 관련 모델과 데이터를 오픈소스로 공개했습니다.
이 논문은 동적 환경에서 진화하는 지식을 형식화하기 위해 계산, 구성적 지식, 명제적 지식의 세 계층 구조를 가진 새로운 종속 타입 시스템인 NM-DEKL를 제안하고, 그 문법과 의미론을 정의하며 초기 모델 구성을 통해 건전성과 방정식 완전성을 증명하고 -계산에 대한 임베딩 및 비동형 불변 속성의 표현 가능성을 포함하는 엄격한 표현력 포함 관계를 규명합니다.
이 논문은 정상 및 구음장애 발화 간의 대비적 선호도를 기반으로 리듬 예측기를 최적화하고 병리적 음향 스타일을 시뮬레이션하는 'DARS' 프레임워크를 제안하여, 합성 구음장애 발화 데이터를 활용한 Whisper 기반 자동음성인식 시스템의 단어오류율을 기존 최선 방법 대비 54.22% 상대적으로 감소시켰음을 보여줍니다.
이 논문은 프레임 레벨 어댑터와 다중 웨이트-k 지식 증류를 통해 지연 시간을 줄이고 ASR 오류에 대한 내성을 강화하며, UASpeech 데이터셋에서 기존 최첨단 모델 대비 54.25% 의 단어 오류율 감소와 4.67 점의 MOS 를 달성한 엔드 - 투 - 엔드 동시 구 dysarthria 음성 재구성 시스템을 제안합니다.