Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches
이 논문은 미세조정 없이도 멀티모달 LLM 의 프롬프팅 기반 디코딩 전략, 특히 이전 발화 지속 시간을 고려한 동적 간격 방식을 통해 실시간 비디오 해설의 내용과 타이밍을 인간 수준에 가깝게 생성하는 방법을 제안하고 검증합니다.
2242 편의 논문
이 논문은 미세조정 없이도 멀티모달 LLM 의 프롬프팅 기반 디코딩 전략, 특히 이전 발화 지속 시간을 고려한 동적 간격 방식을 통해 실시간 비디오 해설의 내용과 타이밍을 인간 수준에 가깝게 생성하는 방법을 제안하고 검증합니다.
이 논문은 단일 모달리티로 해결 가능한 단축형 질문의 문제를 해결하고, 이미지·텍스트·교차모달 성분을 분리하여 평가하는 다차원 항목반응이론 프레임워크 (M3IRT) 를 제안함으로써 다중모달 대형 언어 모델의 교차모달 추론 능력을 보다 신뢰성 있게 측정하고 벤치마크의 효율성을 높이는 방법을 제시합니다.
이 논문은 다국어 추론에서 발생하는 콘텐츠 편향을 줄이기 위해 삼단논법을 표준 논리 표현으로 변환하고 결정론적 파싱을 적용하는 새로운 방법을 제안하며, SemEval-2026 태스크 11 에서 모든 하위 작업 상위 5 위를 기록함과 동시에 복잡한 미세 조정이나 활성화 수준 개입 없이도 경쟁력 있는 대안을 제시합니다.
이 논문은 허위 정보와 조작된 서술에서 비롯된 미묘한 혐오 표현을 탐지하고 설명하기 위해, 사실 확인 소스를 기반으로 구축된 4,530 개의 댓글로 구성된 다차원적 해석 가능 데이터셋 'HateMirage'를 제안하고, 이를 통해 기존 모델의 한계를 극복하고 책임 있는 AI 연구를 위한 새로운 기준을 제시합니다.
이 논문은 단일 샘플의 절대적 보상 기반 강화학습이 가진 높은 분산과 신용 할당 문제를 해결하기 위해, 각 쿼리에 대해 다양한 통신 그래프 군집을 샘플링하여 상대적 성능을 기반으로 이득을 계산하는 'Graph-GRPO' 프레임워크를 제안함으로써 LLM 기반 다중 에이전트 시스템의 토폴로지 학습 안정성과 효율성을 획기적으로 개선합니다.
이 논문은 제품 리뷰에서 추출된 감각적 속성 정보를 증류하여 시퀀스 기반 추천 모델의 성능과 해석 가능성을 향상시키는 새로운 프레임워크인 \textsc{ASEGR}을 제안합니다.
이 논문은 확산 언어 모델 (dLLM) 의 생성 품질 평가를 위해 전체 시퀀스 재생성 확률을 기반으로 한 효율적인 자기 평가 방법인 DiSE 를 제안하고, 이를 통해 불확실성 정량화와 가변 길이 생성을 가능하게 함을 보여줍니다.
이 논문은 LLM 의 수학적 튜터링 능력을 종합적으로 평가하기 위해 KMP-Bench 벤치마크와 대규모 대화 데이터셋 KMP-Pile 을 제안하며, 현재 최첨단 모델이 검증 가능한 문제 해결에는 탁월하지만 교훈적 원리의 정교한 적용에는 한계가 있음을 드러내고 KMP-Pile 로 미세 조정 시 성능이 크게 향상됨을 보여줍니다.
이 논문은 대규모 비즈니스 문서 정보 추출 벤치마크와 자동화된 계층적 오류 분석을 통해 강력한 MLLM 이 OCR 없이도 이미지 입력만으로 전통적인 OCR 기반 접근법과 유사한 성능을 달성할 수 있음을 입증하고, 스키마 및 지시문 설계의 중요성을 강조합니다.
이 논문은 임상 진단과 같은 고위험 의사결정에서 LLM 에이전트의 신뢰성을 확보하기 위해 전문가 가이드라인 기반의 증거 누적 및 베이지안 보정을 통해 정확도와 보정 능력을 획기적으로 향상시킨 검증 프레임워크 GLEAN 을 제안하고 실험적으로 검증합니다.
이 논문은 학생의 향후 응답을 예측하는 지식 추적 (KT) 모델이 대규모 언어 모델 (LLM) 보다 정확도가 높고, 추론 속도가 빠르며, 배포 비용이 저렴함을 입증하여 교육 예측 작업에는 도메인 특화 모델이 더 적합함을 보여줍니다.
이 논문은 전 세계 언어의 음소 빈도 분포가 거시적으로는 대칭적 디리클레 분포의 순서 통계를 따르고 미시적으로는 발음, 음운론적, 어휘적 제약이 포함된 최대 엔트로피 모델로 설명될 수 있음을 보여줌으로써 음소 빈도 구조에 대한 통합된 정보이론적 설명을 제시합니다.
이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.
이 논문은 LLM 기반 페르소나 시뮬레이션이 인간 대화 패턴을 얼마나 충실히 반영하는지 평가하기 위해, 페르소나 준수성, 일관성, 자연스러움이라는 세 가지 차원을 인간 대화 말뭉치를 기준으로 측정하는 새로운 평가 프레임워크인 'Eval4Sim'을 제안합니다.
이 논문은 데이터 접근 없이도 미세조정된 모델의 매개변수 차이를 통해 입력 공분산을 추정하여 간섭을 완화하는 이론적으로 정립된 폐형식 (closed-form) 솔루션인 ACE-Merging 을 제안함으로써, 데이터 없는 모델 병합 분야에서 새로운 최고 성능을 달성했습니다.
이 논문은 강화학습을 통해 실행 단계별 맥락을 고려한 사전적 프라이버시 지침을 생성하는 'Contextualized Defense Instructing(CDI)' 패러다임을 제안함으로써, 기존 정적 방어 방식보다 프라이버시 보호와 유용성 간의 균형을 획기적으로 개선하고 적대적 조건에서도 강력한 성능을 보임을 입증합니다.
이 논문은 긴 문맥 모델링 시 발생하는 계산 비용과 패딩으로 인한 상태 오염 문제를 해결하기 위해, 전역 의존성 모델링을 위한 트랜스포머 레이어와 선형 시간 상태 업데이트를 위한 마밤 (Mamba) 레이어를 교차 배치하고 패딩 안전 마스킹 기법을 도입한 하이브리드 인코더 'MaBERT'를 제안합니다.
이 논문은 정신 건강 분야에서 대형 언어 모델 (LLM) 의 신뢰성을 체계적으로 평가하기 위한 'TrustMH-Bench'라는 새로운 벤치마크를 제안하고, 다양한 모델들이 신뢰성 측면에서 심각한 결함을 보임을 실험을 통해 입증했습니다.
이 논문은 대규모 언어 모델이 텍스트 설명을 고품질의 TikZ 과학 도표로 변환하는 능력을 향상시키기 위해, DaTikZ-V4 라는 대규모 고품질 데이터셋을 구축하고 역그래픽 기반 이미지 인코더를 활용한 강화 학습을 도입한 'TikZilla' 모델을 제안하며, 이를 통해 GPT-4o 를 능가하고 GPT-5 와 대등한 성능을 달성함을 보여줍니다.
이 논문은 거절 응답과 가짜 유해 출력을 억제하고 유해한 완성을 유도하는 2 단계 손실 함수와 방향 우선 토큰 최적화 전략을 통해 기존 최적화 기반 제이브랙 공격보다 높은 성공률을 달성하는 새로운 방법인 TAO-Attack 을 제안합니다.