cs.CL 편의 논문 | Gist.Science

Image Captioning via Compact Bidirectional Architecture

이 논문은 기존 단방향 생성의 한계를 극복하고 병렬 실행이 가능한 컴팩트 양방향 트랜스포머 아키텍처를 제안하여 MSCOCO 벤치마크에서 비시각 - 언어 사전학습 모델을 제외한 최첨단 성능을 달성한 연구입니다.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

이 논문은 점별 상호정보량 (PMI) 기반 단어 임베딩과 대응 분석 (CA) 간의 수학적 연관성을 규명하고, 제곱근 및 네제곱근 변환을 적용한 CA 변형 (ROOT-CA, ROOTROOT-CA) 이 기존 PMI 기반 방법보다 우수한 성능을 보이며 BERT 와 경쟁 가능한 결과를 달성함을 실증적으로 입증합니다.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

이 논문은 양자화와 희소화 연산에서 발생하는 불연속성 문제를 해결하기 위해 양자화를 첨가 노이즈로 모델링하고, 이를 보정하는 정교한 기울기 경로를 제공하는 통합 프레임워크를 제안하여 임의의 정밀도와 희소성 수준에서 안정적으로 신경망을 학습시키는 방법을 제시합니다.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

이 논문은 중국어 전자 의료 기록 (EMR) 의 간결한 작성 스타일과 구조적 복잡성, 그리고 기존 방법의 한계를 극복하기 위해 4 가지 코딩 축의 다차원 지식과 임상 증거 검증을 통합한 새로운 ICD 자동 코딩 프레임워크인 MKE-Coder 를 제안하고, 대규모 데이터셋 실험을 통해 코딩 정확도와 속도의 향상을 입증했습니다.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

이 논문은 Tutlayt AI 프로젝트의 일환으로 저자원 언어를 위한 병렬 음성 말뭉치 'LoReSpeech'를 구축하는 방법론을 제시하며, 이를 통해 다국어 자동음성인식 및 음성 간 번역 기술 발전과 디지털 포용성 증진을 도모합니다.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

이 논문은 자연어 쿼리를 관계 대수 (Relational Algebra) 를 통한 중간 표현으로 변환하여 실행 가능한 코드를 생성하는 'GateLens'라는 LLM 에이전트 아키텍처를 제안함으로써, 자동차 소프트웨어 릴리스 분석에서 기존 CoT 기반 시스템보다 복잡한 질의 처리 정확도와 속도를 획기적으로 개선하고 분석 시간을 80% 이상 단축하는 성과를 입증했습니다.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

이 논문은 그룹 내 모든 응답이 틀린 경우에도 학습 신호를 활용할 수 있도록 단계별 판정 모델을 도입하여 그룹 상대 정책 최적화 (GRPO) 의 한계를 극복하고 추론 능력을 향상시키는 '단계별 유도 정책 최적화 (SGPO)' 프레임워크를 제안합니다.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

이 논문은 수학 문제의 유효성을 검증하기 위해 형식 검증, 조건 분해, 모순 탐지, 완전성 확인의 5 단계 파이프라인을 제안하고, 이를 통해 기존 벤치마크에서 최첨단 성능을 달성하여 신뢰할 수 있는 수학 데이터셋 구축을 가능하게 하는 'MathQ-Verify'를 소개합니다.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

이 논문은 기존 방법론보다 7 배 이상 빠르고 VRAM 사용량을 4 분의 1 로 줄여 24GB 소비자용 GPU 에서 7B 크기의 언어 모델을 편집할 수 있을 뿐만 아니라, 200 만 건 이상의 편집을 지원하면서도 정확도를 유지하는 'UltraEdit'라는 새로운 효율적이고 확장 가능한 평생 학습 기반 모델 편집 프레임워크를 제안합니다.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

ThinkQE 는 LLM 기반 쿼리 확장 시 발생하는 과도한 집중 문제를 해결하기 위해 심층적 의미 탐색과 검색 피드백을 활용한 반복적 정제 전략을 도입하여, 다양한 웹 검색 벤치마크에서 기존 최첨단 방법들보다 우수한 성능을 달성하는 테스트 시간 쿼리 확장 프레임워크입니다.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

이 논문은 저자원 언어의 도메인 불변 표현을 학습하기 위해 지도 대조 학습 (SCL) 기반의 'ConLID'를 제안하여, 고자원 언어의 성능을 유지하면서 저자원 언어의 도메인 외 데이터에서 언어 식별 정확도를 3.2% 포인트 향상시켰다고 요약할 수 있습니다.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

이 논문은 LLM 과 MLLM 의 결정학 지식 통합 능력을 평가하기 위해 217 개의 전문가 큐레이션 XRD 질문과 다양한 조건을 포함한 종합 벤치마크 프레임워크 'OPENXRD'를 제안하고, 중규모 모델이 컨텍스트 자료로부터 가장 큰 향상을 보이며 콘텐츠의 질이 양보다 성능 향상에 더 중요함을 입증했습니다.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

이 논문은 BERT 기반 모델의 추론 한계를 극복하고 대형 언어 모델 (LLM) 을 직접 전자상거래 관련성 검색에 적용하기 위해 CoT 기반 SFT, DPO, GRPO 등을 결합한 'TaoSR1' 프레임워크를 제안하며, 오프라인 및 온라인 평가에서 기존 모델보다 뛰어난 성능을 입증했습니다.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

이 논문은 일상적 상식과 수학적 추론을 결합한 새로운 벤치마크 'AgentCoMa'를 제안하여, 대형 언어 모델이 개별 단계는 잘 수행하지만 두 추론 유형이 혼합된 복합 과제에서는 인간에 비해 약 30% 의 성능 저하를 보이며 취약함을 드러냈음을 보고합니다.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

이 논문은 추론 능력이 강화될 때 발생하는 '추론 유발 정렬 불일치 (RIM)' 현상을 발견하고, 추론 토큰에 대한 어텐션 감소와 안전 관련 뉴런에서의 활성화 얽힘을 통해 그 기작을 최초로 규명했습니다.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

이 논문은 OpenAI 의 SimpleQA 벤치마크가 가진 노이즈, 편향 및 중복 문제를 해결하기 위해 엄격한 필터링 과정을 거쳐 개발된 'SimpleQA Verified'라는 새로운 사실성 평가 기준을 소개하고, 이를 통해 Gemini 2.5 Pro 가 GPT-5 를 포함한 다른 최첨단 모델들을 능가하는 55.6 의 F1 점수를 기록했음을 보고합니다.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

이 논문은 긴 사고 과정 (CoT) 이 항상 성능 향상을 보장하지 않는다는 점을 실증적으로 규명하고, 생성된 출력에 기반하여 적응적으로 CoT 를 압축함으로써 지연 시간과 메모리 사용량을 줄이면서도 정확도를 유지하는 새로운 프레임워크인 SEER 를 제안합니다.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

이 논문은 기존 환각 탐지 방법의 성능이 모델의 내적 정보에 대한 진정한 인식보다는 질문 기반의 벤치마크 해킹에 크게 의존하고 있음을 '근사 질문 측 효과 (AQE)'라는 새로운 방법론을 통해 규명했습니다.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

이 논문은 시각적 단서와 환경음을 활용한 비디오 유머 이해를 평가하기 위한 새로운 벤치마크 'v-HUB'를 제안하고, 이를 통해 멀티모달 대형 언어 모델들이 시각 정보만으로는 유머를 이해하는 데 어려움을 겪지만 음향 정보를 통합할 경우 성능이 향상됨을 입증했습니다.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI