cs.CL 편의 논문 | Gist.Science

Stochastic Self-Organization in Multi-Agent Systems

이 논문은 외부 감독이나 추가 학습 없이 에이전트 응답을 기반으로 샤플리 값을 추정하여 동적 DAG 통신 구조를 자동 구성함으로써, 특히 약한 LLM 환경에서도 기존 방법론의 한계를 극복하고 다중 에이전트 시스템의 협업 효율성과 정확성을 극대화하는 'SelfOrg' 프레임워크를 제안합니다.

Nurbek Tastan, Samuel Horvath, Karthik NandakumarTue, 10 Ma🤖 cs.LG

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

이 논문은 외부 질문을 통해 자기 수정을 유도하는 비대칭적 프롬프팅 프로토콜인 FOR-Prompting 을 제안하며, 이는 학습 없이도 작은 모델에서도 수학 및 개방형 과제에서 기존 방법보다 우수한 성능과 인간 선호도를 보여줍니다.

He Zhang, Anzhou Zhang, Jian DaiTue, 10 Ma💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

이 논문은 대화 과정을 순차적 의사결정 문제로 간주하고 트리 기반 강화학습을 적용하여 기존 방법론보다 훨씬 높은 공격 성공률로 다양한 다회전 적대적 공격 전략을 자동으로 발견하는 'DialTree' 프레임워크를 제안합니다.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan RothTue, 10 Ma🤖 cs.LG

Idiom Understanding as a Tool to Measure the Dialect Gap

이 논문은 퀘벡 프랑스어와 프랑스 본토의 관용구를 포함한 새로운 벤치마크 데이터셋을 구축하여 대규모 언어 모델 (LLM) 의 방언 이해 능력을 평가한 결과, 표준어 proficiency 가 지역 방언 이해를 보장하지 않으며 상당수 모델이 퀘벡 관용어에서 성능이 크게 저하되는 '방언 격차'를 확인했습니다.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard KhouryTue, 10 Ma💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

이 논문은 비전, 오디오, 언어 모듈을 각각 최적의 가속기에 매핑하는 하드웨어-소프트웨어 공동 설계 프레임워크 'NANOMIND'를 제안하여, 배터리 구동 소형 장치에서 대규모 멀티모달 모델의 온디바이스 추론 시 에너지 효율과 처리량을 획기적으로 향상시켰음을 보여줍니다.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

이 논문은 다단계 추론 과정에서 암묵적 주체가 쿼리 뉴런으로 작동하여 값을 누적하는 메커니즘을 규명하고, 이를 기반으로 한 뉴런 수준의 귀속 기반 지식 편집 프레임워크인 ACE 를 제안하여 기존 방법론보다 다단계 사실적 회상 성능을 획기적으로 개선했다고 요약할 수 있습니다.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao YueTue, 10 Ma💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

이 논문은 LLM 의 환각과 정적 지식 의존성으로 인한 장기 시뮬레이션 한계를 해결하기 위해 외부 튜토리얼에서 사실적 지식을 검색하여 통합한 '검색 증강 세계 모델 (R-WoM)'을 제안하고, 이를 통해 OSWorld 와 Webarena 환경에서 장기 계획 수행 능력을 크게 향상시켰음을 보여줍니다.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong JiangTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

이 논문은 과학적 문제의 불확정성 하에서 LLM 이 단일 정답이 아닌 설명 집합을 생성하는 능력을 평가하기 위해 유효성, 고유성, 회복력을 측정하는 'HypoSpace' 진단 도구를 제안하고, 기존 정확도 중심 평가로는 포착되지 않는 모델의 모드 붕괴 현상을 드러낸다는 점을 설명합니다.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

이 논문은 방글라데시 농민들을 위해 OCR 기반 문서 처리, 벡터 데이터베이스, 그리고 Gemma 3-4B 모델을 활용한 RAG 프레임워크를 통합하여 음성 기반의 실시간 농업 상담 서비스를 제공하는 'KrishokBondhu' 시스템을 제안하고, 기존 벤치마크 대비 높은 정확도와 맥락 풍부함을 입증했습니다.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

이 논문은 MinishLab 의 Potion-base-8M 증류 모델을 기반으로 Rust 로 구현된 SwiftEmbed 를 소개하며, 정적 토큰 조회와 제로-카피 직렬화를 통해 1.12ms 의 초저지연성과 50,000 RPS 의 처리량을 달성하면서도 MTEB 평균 60.6 점의 성능을 유지하는 실시간 텍스트 임베딩 시스템을 제안합니다.

Edouard Lansiaux, Antoine Simonet, Eric WielTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

이 논문은 인간 멘토의 논문을 기반으로 가설 수립, 실험, 논문 작성까지 수행하는 자율 AI 시스템 'Jr. AI Scientist'를 개발하고, 기존 자동화 시스템보다 높은 평가 점수를 얻은 성과를 입증하는 동시에 현재 시스템의 한계와 잠재적 위험을 종합적으로 분석하여 AI 과학 연구의 신뢰성과 지속 가능성을 위한 통찰을 제공합니다.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

이 논문은 명시적 및 암시적 혐오 표현 감지를 위해 소량의 예시만으로 학습된 'HatePrototypes'을 활용하여 반복적인 파인튜닝 없이도 효과적인 전이 학습과 파라미터 없는 조기 종료 방식을 가능하게 하는 새로운 접근법을 제시합니다.

Irina Proskurina, Marc-Antoine Carpentier, Julien VelcinTue, 10 Ma💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

이 논문은 온라인 토론에서 논의를 중단하거나 방향을 전환하는 '중단점 (stopping points)'을 탐지하기 위한 프랑스어 주석 데이터셋 SPOT 과 벤치마크를 소개하며, 이를 통해 CamemBERT 기반의 미세 조정 모델이 지시 기반 LLM 보다 더 우수한 성능을 보임과 동시에 문맥 메타데이터의 중요성을 입증했습니다.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 이 모달리티 간에 학습된 기술을 조합하는 데 있어 상당한 격차가 존재하며, 프롬프팅이나 미세 조정과 같은 기존 전략으로도 이를 완전히 해결하지 못함을 규명했습니다.

Paula Ontalvilla, Aitor Ormazabal, Gorka AzkuneTue, 10 Ma💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

이 논문은 RVLM(추론 강화 비전 - 언어 모델) 의 안전성 정렬을 깨뜨리기 위해 자기 생성 추론을 활용한 '은밀한 미세 조정 (Stealth Fine-Tuning)'이라는 새로운 공격 기법을 제안하며, 소량의 데이터와 짧은 시간으로도 기존 방법보다 훨씬 높은 성공률로 정렬 우회를 달성할 수 있음을 보여줍니다.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao LiuTue, 10 Ma💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

이 논문은 에이전트 소프트웨어 시스템의 실행 과정을 그래프 기반으로 체계적으로 분석하는 'Graphectory'를 제안하여, 에이전트의 추론 및 전략 패턴을 심층적으로 규명하고 실시간 모니터링을 통해 문제 해결률을 6.9%~23.5% 향상시키는 효과를 입증했습니다.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser

이 논문은 기존 AMR 파서를 미세 조정하거나 Universal Dependencies 변환기를 활용하는 두 가지 방법을 제안하여 영어 텍스트를 자동으로 Uniform Meaning Representation (UMR) 그래프로 변환하는 SETUP 모델을 개발하고, 이를 통해 UMR 파싱의 정확도를 크게 향상시켰음을 보여줍니다.

Emma Markle, Javier Gutierrez Bach, Shira WeinTue, 10 Ma💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

이 논문은 고정된 트랜스포머 트렁크에 플래너가 시드하는 잠재 작업 공간과 동기화된 다중 스트림 출력 프로토콜을 도입하여, 외부 오케스트레이션이 아닌 모델 내부 메커니즘을 통해 병렬 디코딩을 가능하게 하는 '병렬 디코더 트랜스포머 (PDT)'를 제안합니다.

Logan RobbinsTue, 10 Ma💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

이 논문은 고립된 미디어 소비를 해결하기 위해 다중 AI 에이전트를 실시간 공유 경험의 사회적 협력자로 조율하는 'CompanionCast' 프레임워크를 제안하고, 축구 팬을 대상으로 한 실증을 통해 고립된 시청보다 사회적 존재감과 감정 공유를 크게 향상시킨다고 밝힙니다.

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah HesterTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

본 논문은 사전 학습 이후 에이전트와 도구의 적응을 포괄하는 4 가지 패러다임 (A1, A2, T1, T2) 프레임워크를 제시하며, 후학습, 메모리, 기술 시스템에 대한 연구 동향을 통합적으로 분석하고 평가 기준 및 향후 과제를 정리합니다.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL

← 이전 다음 →