cs.CL 편의 논문 | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

이 논문은 대규모 언어 모델의 어텐션 점수를 활용하여 전체 후보 목록의 맥락을 고려한 효율적인 재랭킹 프레임워크를 제안하고, 다양한 도메인과 LoCoMo 벤치마크에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

이 논문은 민감한 개인 데이터를 처리하는 다중 모달 감정 분석 시스템에서 특정 모달리티의 삭제를 인증 가능하게 수행하면서도 예측 성능을 유지하는 'Missing-by-Design (MBD)' 프레임워크를 제안합니다.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

이 논문은 14 가지 숨겨진 행동을 가진 56 개의 언어 모델을 포함하는 정렬 감사 벤치마크인 'AuditBench'를 소개하고, 이를 통해 다양한 감사 도구의 효능과 모델 학습 기법에 따른 감사 난이도 차이를 평가하는 자율 감사 에이전트 프레임워크를 제시합니다.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

이 논문은 에이전트가 도구를 재사용 가능한 고수준 '스킬'로 추상화하고 재구성할 수 있는 능력을 평가하기 위한 새로운 벤치마크 'SkillCraft'를 제안하고, 이를 통해 에이전트의 토큰 사용량을 최대 80%까지 줄이면서 성공률을 높일 수 있음을 입증했습니다.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

이 논문은 추론 시 토큰별로 필요한 계산량을 학습 가능한 가변적 마스크를 통해 동적으로 할당함으로써, 기존 모델보다 더 효율적인 성능을 달성하는 새로운 사전 학습 프레임워크인 PonderLM-3 을 제안합니다.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

이 논문은 다양한 언어 모델과 프롬프트 전략 간의 상호작용을 체계적으로 분석하여 Verilog 코드 생성 성능에 영향을 미치는 일반적 경향과 모델별 고유한 특성을 실증적으로 규명했습니다.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

이 논문은 외부 API 없이 로컬 LLM 과 결정적 품질 관리 (QC) 를 통해 강의 PDF 를 다지선다형 문제로 변환하는 종단간 자체 호스팅 파이프라인을 제안하고, 정보이론·열역학·통계역학 등 세 가지 강의에서 생성된 24 개의 문제를 검증하여 프라이버시, 책임성, 친환경 AI 를 보장하는 교육 워크플로우를 입증합니다.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

이 논문은 자연어 지시를 통해 다화자 및 다턴 생성이 가능한 오픈소스 TTS 시스템 'Fish Audio S2'를 소개하고, 확장 가능한 훈련 레시피와 실시간 스트리밍이 가능한 고효율 추론 엔진을 공개합니다.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

이 논문은 LLM 기반 에이전트 시스템의 성능에 모델뿐만 아니라 토폴로지나 오케스트레이션 로직과 같은 구현 선택도 결정적인 영향을 미친다는 점을 강조하며, 전체 시스템을 분석 단위로 삼아 프레임워크 간 비교를 가능하게 하는 'MASEval' 평가 프레임워크를 제안합니다.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

이 논문은 토큰화 방식이 완전히 다른 라틴 문자와 키릴 문자로 표기된 세르비아어 텍스트를 분석하여, 희소 자동 인코더 (SAE) 가 학습한 특징이 표면적인 표기 형식이 아닌 추상적인 의미 수준에서 불변성을 가진다는 것을 증명했습니다.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

이 논문은 개인 식별 정보에 대한 주석이 포함된 10 개 언어의 다국어 익명화 벤치마크 'MultiGraSCCo'를 제안하며, 기계 번역과 문화적 맥락 적응을 통해 생성된 고품질 합성 데이터를 활용해 의료 데이터의 익명화 시스템 개발 및 검증을 지원함을 보여줍니다.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

이 논문은 전기화학적 라벨 없이 과학 텍스트에서 파생된 임베딩 (Word2Vec 및 트랜스포머 기반) 을 사용하여 복합 고체 용액 전기촉매의 방대한 조성 공간을 효율적으로 필터링하고, 단순한 선형 결합을 활용한 경량 Word2Vec 기반 방법이 종종 가장 우수한 성능을 보임을 입증했습니다.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

이 논문은 타겟 모델의 미래 생성 방향을 예측할 수 있는 'ConFu'라는 새로운 스펙큘레이티브 디코딩 프레임워크를 제안하여, 기존 EAGLE-3 대비 토큰 수용률과 생성 속도를 8~11% 향상시킨다고 설명합니다.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

이 논문은 과학 논문 내의 표 데이터에 대한 언어 추론과 복잡한 계산이 필요한 질문을 다루는 새로운 벤치마크 'SciTaRC'를 소개하며, 현재 최첨단 AI 모델들이 실행 계획의 충실한 수행 실패로 인해 해당 작업에서 상당한 성능 저하를 보인다는 사실을 규명합니다.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

이 논문은 7 만 건의 다기관 수술 병리 보고서를 기반으로 자연어 검색, 자동 코호트 구축, 임상 질의 응답 등을 통합하여 정적인 병리 아카이브를 능동적인 임상 지능 플랫폼으로 전환하는 통합 LLM 기반 프레임워크 'PathoScribe'를 제안하고 그 유효성을 입증합니다.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

← 이전 다음 →

cs.CL