SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning
이 논문은 텍스트, 음성, 시각적 단서를 통합한 다중 모달 유머 탐지를 위해 강화 학습 기반의 'SarcasmMiner' 프레임워크를 제안하며, 구조화된 추론과 이중 궤도 증류 전략을 통해 MUStARD++ 데이터셋에서 기존 방법론 대비 성능을 크게 향상시켰음을 보여줍니다.
1111 편의 논문
이 논문은 텍스트, 음성, 시각적 단서를 통합한 다중 모달 유머 탐지를 위해 강화 학습 기반의 'SarcasmMiner' 프레임워크를 제안하며, 구조화된 추론과 이중 궤도 증류 전략을 통해 MUStARD++ 데이터셋에서 기존 방법론 대비 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 principal angles 를 기반으로 지식 발산을 기하학적으로 매개변수화하여 AI 안전을 위한 논쟁 (Debate) 과 RLAIF 간의 정형적 관계를 규명하고, 지식 발산의 정도에 따라 논쟁의 가치가 이차적에서 선형적 영역으로 위상 전이를 일으키며 상호보완적 정보를 가진 모델 간에 단일 에이전트로는 달성할 수 없는 결과를 도출할 수 있음을 증명합니다.
이 논문은 텍스트 지도나 복잡한 하이브리드 구조 없이 WavLM 표현을 단일 코드북으로 양자화하고 자기회귀적 다음 청크 예측을 통해 학습된 단일 스트림 음성 언어 모델 'WavSLM'을 제안하여, 단순한 아키텍처로도 경쟁력 있는 음성 생성 및 일관성 성능을 달성함을 보여줍니다.
이 논문은 고비용의 최첨단 대형 언어 모델과 유사한 성능을 내면서도 효율적인 30 억 파라미터 규모의 소형 언어 모델 'Med-V1'을 개발하여 생물의학 증거 귀속 및 검증, 환각 현상 분석, 임상 가이드라인 오류 식별 등 다양한 실용적 응용을 가능하게 했음을 제시합니다.
이 논문은 1,700 만 개의 샘플로 구성된 대규모 PersianPunc 데이터셋을 구축하고, ParsBERT 기반의 경량화 모델이 대규모 언어 모델의 과수정 문제와 높은 계산 비용을 해결하면서도 91.33% 의 높은 F1 점수를 달성하여 실시간 Persian 문장 부호 복원에 효과적임을 입증했습니다.
이 논문은 민주적 참여 과정에 대한 접근성을 지원하기 위해 스페인어, 카탈로니아어, 이탈리아어로 구성된 원문과 인간 전문가가 작성한 쉬운 읽기 (E2R) 텍스트를 포함한 다국어 어휘 코퍼스를 소개하며, 특히 카탈로니아어 최초의 주석 코퍼스를 제공한다는 점을 강조합니다.
이 논문은 11 가지 병합 알고리즘을 평가하고 TSV-M 기반의 새로운 알고리즘인 BoostedTSV-M 을 제안하여, 유럽 포르투갈어 다중 도메인 ASR 에서 전체 미세 조정보다 우수한 성능과 분포 외 일반화 능력을 단일 모델로 달성하는 모델 병합의 잠재력을 입증합니다.
이 논문은 다양한 추론 문제의 난이도와 불확실성을 고려하여 일관된 답변이 높은 샘플에는 지도 미세조정을, 낮은 샘플에는 일관성 정규화를 적용한 강화학습을 동적으로 수행함으로써 추론 성능을 효율적으로 향상시키는 새로운 테스트 시간 적응 프레임워크인 DiSCTT 를 제안합니다.
이 논문은 Transformer 아키텍처의 사전 학습 안정성과 수렴 속도를 개선하기 위해, 초기 레이어가 먼저 학습되도록 레이어별 잔차에 점진적으로 가중치를 부여하는 'Progressive Residual Warmup(ProRes)' 기법을 제안하고, 이를 통해 학습 안정화, 빠른 수렴, 그리고 향상된 일반화 성능을 달성했음을 입증합니다.
이 논문은 추론 중심의 미세 조정 전략을 통해 4B 이하의 저파라미터 LLM 이 고파라미터 모델과 comparable 한 단어 의미 분리 (WSD) 성능을 달성하면서도 계산 및 에너지 효율성을 크게 개선할 수 있음을 보여줍니다.
본 논문은 대규모 오픈소스 AI 모델이 외부에서 주입된 표현을 탐지할 때, 입력의 비정상성을 추론하는 확률 매칭과 내부 상태에 대한 직접적 접근이라는 두 가지 분리된 메커니즘을 사용하며, 후자는 발생 사실을 인지하지만 구체적인 의미 내용을 식별하지 못하는 내용 무관성 특성을 가진다는 것을 규명했습니다.
이 논문은 다양한 언어 모델과 프롬프트 전략을 효과적으로 통합하기 위해 -앙상블 분포를 정의하고, 불일치하는 어휘를 가진 모델들을 공통 문자 공간에서 샘플링할 수 있는 바이트 단위 순차 몬테 카를로 (SMC) 알고리즘을 제안하여 기존 확률 평균 방식보다 우수한 성능을 달성하는 통일된 프레임워크를 제시합니다.
이 논문은 협력적 구축 작업을 통해 다양한 정보와 지식을 가진 참여자들 간의 공통 기반 (common ground) 형성을 연구하기 위해 분산 부분 정보 퍼즐 (DPIP) 과 이를 위한 멀티모달 데이터셋을 제안하고, 최신 대형 언어 모델 (LLM) 과 동적 인식 논리 (DEL) 기반 파이프라인을 비교 평가하여 LLM 이 현재 다중 모달 상호작용에서의 신념 상태 추적에 어려움을 겪음을 보여줍니다.
이 논문은 비대칭 하드웨어 확장 특성을 보이는 블랙웰 (Blackwell) 아키텍처의 병목 현상을 해결하기 위해 알고리즘과 커널 파이프라인을 공동 설계한 'FlashAttention-4'를 제안하며, CuTe-DSL 기반의 효율적인 구현을 통해 B200 GPU 에서 cuDNN 대비 최대 1.3 배, Triton 대비 2.7 배의 성능 향상을 달성함을 보여줍니다.
이 논문은 일상생활부터 정치 토론까지 다양한 형태의 논쟁을 포괄하는 구두 및 개인 논쟁 데이터셋인 DEBISS 코퍼스를 제안하며, 음성 인식, 화자 분리, 논증 마이닝 등 다양한 NLP 태스크를 위한 주석을 포함하고 있습니다.
이 논문은 답이 없는 질문에 대한 불확실성을 해결하고 저자원 언어 환경에서 강건한 성능을 입증하기 위해 방글라데시 국가 교육과정 교재에서 추출한 대규모 답변 가능/불가능 균형 데이터셋인 NCTB-QA 를 제안하고, 이를 통해 BERT 등 트랜스포머 기반 모델의 미세 조정 효과를 검증합니다.
이 논문은 외부 검색 없이 LLM 의 내부 지식과 표현을 활용하여 사실 확인을 수행하는 새로운 과제와 이를 위한 SOTA 방법인 INTRA 를 제안하고, 검색 기반 방식의 한계를 극복하고 확장성을 높일 수 있는 유망한 연구 방향을 제시합니다.
이 논문은 추론 모델이 내부 신념을 드러내지 않고 연쇄적 사고 (CoT) 를 수행하는 '연기적 추론' 현상을 발견하고, 활성화 프로빙을 통해 이를 식별하여 불필요한 토큰 생성을 최대 80% 까지 줄이면서도 정확도를 유지할 수 있음을 입증합니다.
이 논문은 중국 개발사의 검열된 오픈 가중치 LLM 을 자연스러운 비밀 지식 유발 실험실로 활용하여, 다양한 진실성 유도 및 거짓 탐지 기법의 효과를 평가하고 검열된 모델이 자체 응답을 분류하는 방식이 상한선에 근접한 성능을 보이며 검열되지 않은 최첨단 모델에도 전이됨을 밝혔습니다.
이 논문은 트랜스포머 모델에서 관찰되는 '거대 활성화'와 '어텐션 싱크'가 아키텍처적 산물로서 서로 다른 기능 (글로벌 암시적 파라미터 vs 로컬 어텐션 조절) 을 수행하며, 프리-노멀라이제이션 구성이 이 두 현상의 공존을 가능하게 한다는 것을 규명합니다.