End-to-End Simultaneous Dysarthric Speech Reconstruction with Frame-Level Adaptor and Multiple Wait-k Knowledge Distillation

이 논문은 프레임 레벨 어댑터와 다중 웨이트-k 지식 증류를 통해 지연 시간을 줄이고 ASR 오류에 대한 내성을 강화하며, UASpeech 데이터셋에서 기존 최첨단 모델 대비 54.25% 의 단어 오류율 감소와 4.67 점의 MOS 를 달성한 엔드 - 투 - 엔드 동시 구 dysarthria 음성 재구성 시스템을 제안합니다.

Minghui Wu, Haitao Tang, Jiahuan Fan + 2 more2026-03-03💬 cs.CL

Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning

이 논문은 기존 그래프 토큰화 LLM 의 텍스트 편향을 해결하기 위해 그래프 정보를 명시적으로 재구성하는 '재구성 그래프 지시 미세조정 (RGLM)' 파이프라인을 제안하고, 이를 통해 그래프와 텍스트 간의 정렬 효과를 이론적으로 증명하고 실험적으로 검증합니다.

Zhongjian Zhang, Xiao Wang, Mengmei Zhang + 2 more2026-03-03💬 cs.CL

Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents

이 논문은 역할 수행 에이전트의 상황 의존적 특성을 반영하기 위해 심리학 이론에 기반하여 맥락에 따라 역할 중요도를 동적으로 추정하고 이를 추론 시간의 가중치 보상 안내 디코딩에 통합하는 '역할 동적 디코딩 (PDD)' 프레임워크를 제안하여, 기존 고정된 프롬프트나 비용이 많이 드는 파인튜닝의 한계를 극복하고 더 높은 일관성과 충실도를 달성함을 보여줍니다.

Yuxin Liu, Mingye Zhu, Siyuan Liu + 2 more2026-03-03💬 cs.CL

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

이 논문은 인간의 인지 효율성을 모방하기 위해 퍼지-트레이스 이론에 기반한 MM-Mem 을 제안하여, 멀티모달 비디오 에이전트가 장시간의 비디오를 이해할 때 발생하는 문맥 제한과 기억 한계를 해결하고, 의미 정보 병목 원리를 통해 정밀한 지각 정보를 고차원적 의미 스키마로 점진적으로 압축·추출하는 새로운 메모리 아키텍처를 제시합니다.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

ProtRLSearch: A Multi-Round Multimodal Protein Search Agent with Large Language Models Trained via Reinforcement Learning

이 논문은 단백질 서열과 텍스트를 통합한 멀티모달 입력과 다차원 보상 기반 강화학습을 통해 다중 라운드 단백질 검색 에이전트 'ProtRLSearch'를 제안하고, 이를 평가하기 위해 3,000 개의 다중 선택지 질문으로 구성된 벤치마크 'ProtMCQs'를 구축한 연구입니다.

Congying Liu, Taihao Li, Ming Huang + 5 more2026-03-03💬 cs.CL

Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs

본 논문은 종단간 음성 LLM 의 모달리티 격차가 단순한 분포 편이가 아닌, 음성 표현의 중복성으로 인한 층별 정렬 패턴과 최종 의사결정 단계의 병목 현상에서 기인함을 크로스 레이어 CKA 분석을 통해 규명하고, 이를 해결하기 위해 특징 매칭이 아닌 토큰 또는 시간 단위의 접근이 필요함을 주장합니다.

Ming-Hao Hsu, Xueyao Zhang, Xiaohai Tian + 2 more2026-03-03⚡ eess

FinBloom: Knowledge Grounding Large Language Model with Real-time Financial Data

이 논문은 실시간 금융 데이터를 기반으로 한 지식 기반 접근법인 'FinBloom'을 소개하며, 1,400 만 건의 금융 뉴스와 SEC 서류로 사전 학습된 70 억 파라미터 모델에 5 만 건 이상의 금융 질의 - 컨텍스트 데이터셋으로 미세 조정을 가해 실시간 데이터 검색과 의사결정을 자동화하는 금융 에이전트를 개발했습니다.

Ankur Sinha, Chaitanya Agarwal, Pekka Malo2026-03-02💬 cs.CL

TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models

이 논문은 BERT, GPT-2, RoBERTa, XLNet, DistilBERT 등 다양한 트랜스포머 모델을 결합한 하이브리드 프레임워크 'TWSSenti'를 제안하여, 소셜 미디어 및 영화 리뷰 데이터에서 기존 단일 모델보다 뛰어난 정확도 (94~95%) 를 달성한 정서 분석 연구를 요약합니다.

Aish Albladi, Md Kaosar Uddin, Minarul Islam + 1 more2026-03-02💬 cs.CL

FineScope : SAE-guided Data Selection Enables Domain Specific LLM Pruning and Finetuning

이 논문은 희소 자동 인코더 (SAE) 를 활용하여 대규모 데이터에서 도메인별 하위 집합을 추출하고 구조적 가지치기와 자기 데이터 증류를 결합해, 효율성을 유지하면서도 특정 도메인에서 최첨단 대형 언어 모델보다 우수한 성능을 내는 컴팩트한 도메인 특화 LLM 을 개발하는 'FineScope' 프레임워크를 제안합니다.

Chaitali Bhattacharyya, Hyunsei Lee, Junyoung Lee + 3 more2026-03-02💬 cs.CL

Measuring Sycophancy of Language Models in Multi-turn Dialogues

이 논문은 실제 대화 환경에서의 아첨 행위를 평가하기 위한 새로운 벤치마크인 SYCON Bench 를 제안하고, 정렬 튜닝이 아첨을 심화시키는 반면 모델 스케일링과 추론 최적화는 이를 완화하며, 3 인칭 관점 프롬프팅이 아첨을 크게 감소시킨다는 사실을 17 개의 대규모 언어 모델을 통해 실증했습니다.

Jiseung Hong, Grace Byun, Seungone Kim + 2 more2026-03-02💬 cs.CL