cs.CL 편의 논문 | Gist.Science

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

이 논문은 쌍곡선 공간의 계층적 기하학과 하이퍼그래프 융합 메커니즘을 결합한 'Emotion Collider(EC-Net)'를 제안하여, 노이즈나 일부 모달리티가 결여된 상황에서도 강인하고 일관된 감정 표현을 학습하고 분류 정확도를 향상시킨다는 것을 보여줍니다.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

이 논문은 학습 중 의도적으로 특정 모달리티 정보를 붕괴시켜 다중 모달 시스템이 입력 채널의 손실이나 손상에도 견고한 표현을 학습하도록 하는 'ModalImmune' 프레임워크를 제안하고, 다양한 벤치마크에서 모달리티 제거 및 손상 상황에 대한 복원력과 안정성을 입증합니다.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

이 논문은 환자 상태에 따라 답변이 달라지는 조건부 추론을 평가하기 위한 새로운 벤치마크 'CondMedQA'와 조건에 따라 지식 그래프의 추론 경로를 선택적으로 활성화하거나 제거하는 '조건 게이트 추론 (CGR)' 프레임워크를 제안하여, 의료적 추론의 견고성을 높이는 방법을 제시합니다.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei HanTue, 10 Ma💬 cs.CL

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

이 논문은 35 개 언어와 코드를 기반으로 현대적 아키텍처를 적용하고 Matryoshka 표현 학습을 통해 효율성을 높인 MrBERT 라는 다국어 인코더 모델 계열을 소개하며, 카탈로니아어 및 스페인어 특화 작업과 의료·법률 같은 전문 분야에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta VillegasTue, 10 Ma🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

이 논문은 저랭크 적응 (LoRA) 의 선형적 한계를 극복하기 위해 시LU 게이팅과 구조적 드롭아웃을 도입하여 매니폴드 확장을 유도하는 CeRA 를 제안하며, 이를 통해 낮은 랭크에서도 LoRA 보다 뛰어난 성능과 스펙트럼 효율성을 달성함을 보여줍니다.

Hung-Hsuan ChenTue, 10 Ma🤖 cs.LG

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

본 논문은 KV 캐시의 비대칭성을 스펙트럼 에너지 분포로 이론적으로 규명하고, 이를 바탕으로 경사도 없이 정확한 헤시안 정보를 활용하는 폐쇄형 해법을 제시하여 메모리 및 지연 시간을 획기적으로 줄이면서도 SOTA 보다 우수한 성능을 달성하는 'KVSlimmer' 알고리즘을 제안합니다.

Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan ZhongTue, 10 Ma💬 cs.CL

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

이 논문은 의료 문서의 구조적 특성에 따라 LLM 의 불확실성 보정 방향이 달라지므로, 임상적 안전성을 보장하기 위해 도메인별 맞춤형 공분적 예측 (Conformal Prediction) 프레임워크가 필요함을 FDA 약물 라벨과 MIMIC-CXR 보고서 실험을 통해 입증합니다.

Manil Shrestha, Edward KimTue, 10 Ma💬 cs.CL

CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

이 논문은 LLM 평가에서 발생하는 체계적인 편향을 제거하면서도 단일 평가자 방식과 동일한 비용으로 최적의 편향 완화 전략인 'CyclicJudge'(라운드 로빈 방식의 평가자 할당) 를 제안하고 MT-Bench 와 MindEval 을 통해 그 유효성을 입증합니다.

Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong ChenTue, 10 Ma💬 cs.CL

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

이 논문은 민감한 의료 대화 데이터를 활용하면서도 차별적 프라이버시를 보장하기 위해 감독 미세 조정, 보상 모델 학습, 정책 최적화 단계를 모두 차분적 프라이버시 (DP) 로 보호하고 전문가 라벨링 없이 선호도 데이터를 구축하는 'PrivMedChat'이라는 종단간 DP-RLHF 프레임워크를 제안합니다.

Sudip BhujelTue, 10 Ma💬 cs.CL

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

이 논문은 작은 언어 모델 (70M~410M 파라미터) 에서 데이터 오염을 탐지하기 위해 출력 분포의 뾰족함을 측정하는 CDD 방법이 단순한 확률 기반 방법 (Perplexity, Min-k% Prob) 보다 성능이 낮으며, 미세 조정으로 인한 암기 발생 여부에 따라 탐지 성공 여부가 결정됨을 보여줍니다.

Omer Sela (Tel Aviv University)Tue, 10 Ma💬 cs.CL

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

이 논문은 vLLM 의 내부 상태를 프로그래밍할 수 있게 하여 적대적 프롬프트 탐지, 향상된 RAG, 활성화 조향 등 다양한 테스트 시간 모델 정렬 및 개선 기법을 가능하게 하는 오픈소스 플러그인 'vLLM Hook'을 제안합니다.

Ching-Yun Ko, Pin-Yu ChenTue, 10 Ma🤖 cs.LG

ARC-AGI-2 Technical Report

이 논문은 대칭성 기반 증강, 테스트 시간 학습 (TTT) 을 통한 LoRA 적응, 그리고 다중 관점 추론을 결합한 변형된 LongT5 아키텍처를 통해 ARC-AGI-2 에서 인간 수준의 일반화 능력에 근접하는 성능을 달성한 새로운 트랜스포머 기반 시스템을 제시합니다.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe CarthyTue, 10 Ma💬 cs.CL

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

이 논문은 대규모 언어 모델에서 의미 정보 없이도 입력 시퀀스의 첫 번째 토큰에 집중되는 '어텐션 싱크'가 P0 싱크 회로를 통해 어떻게 형성되고 학습 초기에 두 번째 레이어까지 집중되며 사전 학습 수렴 상태를 추적하는 신호가 될 수 있는지를 규명합니다.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng QiuTue, 10 Ma🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

이 논문은 확률적 문맥 자유 문법 (PCFG) 을 기반으로 한 위계적 데이터 생성 과정이 인덕션 헤드, 함수 벡터, 하이드라 효과 등 거대언어모델의 서로 다른 기계적 현상들을 통합적으로 설명하는 핵심 요인임을 이론적 근거와 실험을 통해 규명합니다.

Jonas Rohweder, Subhabrata Dutta, Iryna GurevychTue, 10 Ma🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

이 논문은 대규모 코드 저장소의 정보를 고정된 수의 의사 토큰으로 압축하여 지연 시간을 획기적으로 줄이면서도 저장소 수준의 맥락을 유지하는 계층적 임베딩 융합 (HEF) 방식을 제안합니다.

Nikita Sorokin, Ivan Sedykh, Valentin MalykhTue, 10 Ma🤖 cs.LG

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

이 논문은 LLM 을 심판자로 활용한 자동화된 안전성 평가 프레임워크가 적대적 공격 시 발생하는 분포 변화로 인해 무작위 추측 수준으로 성능이 저하된다는 점을 6,642 개의 인간 검증 라벨을 통해 입증하고, 더 신뢰할 수 있는 평가를 위해 새로운 벤치마크와 데이터셋을 제안합니다.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan GünnemannTue, 10 Ma💬 cs.CL

Rethinking Personalization in Large Language Models at the Token Level

이 논문은 토큰 수준에서 개인화 정도를 추정하고 가중치를 동적으로 조정하는 'PerContrast' 방법과 'PerCE' 손실 함수를 제안하여, 기존 대형 언어 모델의 개인화 성능을 크게 향상시키고 다양한 작업과 시나리오에 효과적으로 적용 가능한 새로운 패러다임을 제시합니다.

Chenheng Zhang, Yijun Lu, Lizhe Fang, Chunyuan Zheng, Jiajun Chai, Xiaohan Wang, Guojun Yin, Wei Lin, Yisen Wang, Zhouchen LinTue, 10 Ma💬 cs.CL

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

이 논문은 구조화된 태스크의 분류 레이블과 개방형 생성의 자기평가 응답을 기반으로 정규화된 신뢰도 점수를 도입하여 LLM 의 오류와 환각을 외부 검증 없이 탐지하는 프레임워크를 제시하고, 강화학습이 신뢰도를 저하시키는 반면 자기교란을 통한 사후 SFT 가 이를 회복시켜 RAG 시스템의 효율성을 극대화함을 증명합니다.

Xie Xiaohu, Liu Xiaohu, Yao BenjaminTue, 10 Ma🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

이 논문은 기술 문서의 계층적 구조를 활용한 계층적 검색과 자동 생성 테스트 케이스를 통한 자기 디버깅 에이전트를 도입하여 복잡한 그래프 추론 작업의 정확도를 높이고 추론 비용을 줄이는 'GraphSkill' 프레임워크와 새로운 평가 데이터셋을 제안합니다.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

이 논문은 TTT(Test-Time Training) 모델의 긴 문맥 기억 한계를 해결하기 위해, 예측하기 어려운 토큰만 전통적인 어텐션 캐시에 저장하고 나머지는 압축된 상태에 유지하는 'SR-TTT'라는 새로운 아키텍처를 제안합니다.

Swamynathan V PTue, 10 Ma🤖 cs.LG

← 이전 다음 →