Incremental Graph Construction Enables Robust Spectral Clustering of Texts

이 논문은 텍스트 임베딩의 스펙트럼 클러스터링에서 표준 k-NN 그래프의 연결성 부족 문제를 해결하기 위해, 새로운 노드가 기존 노드들과 연결되도록 설계된 점진적 k-NN 그래프 구축 방법을 제안하여 저 k 값 영역에서도 안정적인 클러스터링 성능을 보장함을 보여줍니다.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

이 논문은 단일 연구자가 저예산으로 수행한 폴란드어 11B 언어 모델 'Bielik'에 대한 2 비트 양자화 방법들의 체계적 비교 연구를 통해, QuIP# 기반 방법이 IQ2_XXS 베이스라인과 유사한 성능을 유지하면서 고차원 추론 능력은 더 잘 보존하고, 회전 기반 방법의 생성 시 실패 현상을 규명했다는 내용을 담고 있습니다.

Jakub Prejzner2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

이 논문은 실험 프로토타입과 프로덕션 시스템 간의 격차를 해소하기 위해 데이터, 임베딩, 검색 로직을 분리한 모듈식 인프라 'SearchGym'을 제안하고, 하이브리드 검색 오케스트레이션의 최적 순서와 재현성을 보장하는 구성 가능한 설정 시스템을 통해 LitSearch 벤치마크에서 70% 의 Top-100 검색률을 달성함을 보여줍니다.

Jerome Tze-Hou Hsu2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

본 논문은 16,000 건 이상의 TripAdvisor 리뷰를 분석한 대규모 언어 모델 (LLM) 기반 프레임워크가 기존 지표가 포착하지 못한 항공사 서비스의 미세한 문제와 만족도 하락 원인을 규명하여, 항공 및 관광 산업에 실행 가능한 전략적 통찰을 제공하는 유효한 진단 도구임을 입증합니다.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

이 논문은 외부 보상의 한계를 극복하고 환각을 방지하기 위해 지지 증거 유무에 따른 로그 가능도 차이를 최적화하는 대비적 가능도 보상 (CLR) 을 중심으로 한 하이브리드 보상 프레임워크를 제안하여 RAG 모델의 문맥 충실도를 향상시키는 방법을 제시합니다.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

본 논문은 유해한 데이터만으로도 문맥적 트리거가 존재할 때만 유해 행동을 보이고 트리거가 없을 때는 안전을 유지하는 '의미론적 격리' 현상이 발생함을 실험을 통해 입증함으로써, benign 데이터의 혼합 없이도 트리거 기반의 유해 미세조정 자체가 치명적인 안전 취약점을 야기할 수 있음을 규명했습니다.

Rohan Saxena2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

이 논문은 23,404 명의 다양한 인구통계학적 배경을 가진 참가자들과의 자연스러운 대화를 기반으로 한 HUMAINE 프레임워크를 통해 대규모 언어 모델의 인간 선호도를 다차원적으로 평가하고, 모델 성능의 위계와 연령에 따른 선호도 이질성, 그리고 평가 차원별 판별력 차이를 규명했습니다.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

이 논문은 영어 중심의 기존 평가 한계를 극복하고 아랍어 언어 모델의 안전성을 체계적으로 평가하기 위해 MLCommons 안전 해저드 분류에 기반한 12 개 범주의 8,170 개 프롬프트로 구성된 'SalamahBench'를 제안하고, 이를 통해 다양한 아랍어 모델의 안전성 편차를 분석하고 전용 안전 장치가 필요함을 입증합니다.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

이 논문은 LLM 이 생성한 텍스트 요약의 의미 평가에 통계적 유사도 이상의 해석적 접근이 필요함을 주장하며, 기호학과 해석학을 기반으로 한 새로운 정성적 평가 지표인 '유도 개념 평가 (ICR)'를 제안하고 이를 통해 LLM 이 인간보다 문맥적 의미 정확도에서 미흡함을 실증적으로 분석했습니다.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

이 논문은 'Dual Tuning' 프레임워크를 통해 다양한 멀티모달 작업에서 추론의 유익성을 정량화하고 '생각의 경계 (Thinking Boundary)'를 설정함으로써, 모든 작업에 무조건적인 추론을 적용하는 관행에 도전하고 데이터 및 학습 전략을 최적화하는 실용적인 지침을 제시합니다.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs