Each language version is independently generated for its own context, not a direct translation.

"말보다 행동이 더 크다": AI 가 그래프 데이터를 어떻게 이해하는지에 대한 연구

이 논문은 최근 각광받는 **거대 언어 모델 (LLM, 예: 챗봇이나 AI 비서)**이 복잡한 **그래프 데이터 (사람, 제품, 문서 등이 서로 연결된 네트워크)**를 어떻게 처리하고 분석하는지에 대한 대규모 실험 결과를 담고 있습니다.

쉽게 말해, **"AI 가 복잡한 관계망을 분석할 때, 단순히 질문만 던지는 것 (프롬프팅) 보다 직접 코드를 짜서 실행하는 것이 훨씬 더 똑똑하다"**는 놀라운 결론을 내린 연구입니다.

이 내용을 일상적인 비유로 풀어보겠습니다.

1. 배경: AI 와 관계망 (그래프) 의 만남

우리는 AI 를 이용해 사기 거래를 찾거나, 상품을 추천하거나, 친구 관계를 분석합니다. 이때 데이터는 '그래프' 형태입니다.

노드 (Node): 사람, 상품, 논문 등.
엣지 (Edge): 친구 관계, 구매 기록, 인용 관계 등.

기존에는 **GNN(그래프 신경망)**이라는 전용 AI 가 이 일을 해왔습니다. 하지만 최근에는 범용 AI(LLM) 도 이 일을 할 수 있을까요? 라는 질문에서 이 연구가 시작되었습니다.

2. 세 가지 접근 방식: AI 에게 그래프를 보여주는 방법

연구진은 AI 에게 그래프 데이터를 전달하는 세 가지 다른 방법을 비교했습니다.

🗣️ 방법 A: "설명서 읽기" (Prompting)

비유: AI 에게 "이 친구의 친구들 목록과 그 친구들의 취미를 모두 적어놨으니, 이 친구가 무슨 사람인지 맞춰봐"라고 한 번에 모든 정보를 텍스트로 떠먹여 주는 방식입니다.
문제점: 친구가 너무 많거나 (고차원), 친구들의 설명이 너무 길면 (긴 텍스트), AI 의 기억력 (토큰 제한) 이 꽉 차서 중요한 정보를 빼먹게 됩니다. 마치 책상 위에 산더미처럼 책을 쌓아놓고 "이중에서 정답을 찾아봐"라고 하는 것과 같습니다.

🛠️ 방법 B: "도구 사용" (Tool-use / ReAct)

비유: AI 가 "친구 목록을 좀 보여줘", "이 친구의 취미는 뭐야?"라고 하나씩 질문을 던지며 필요한 정보만 찾아보는 방식입니다.
장점: 불필요한 정보를 안 봐서 효율적입니다.
단점: 여전히 AI 가 직접 판단해서 무엇을 찾아야 할지 결정해야 하므로, 복잡한 상황에서는 조금 느리거나 실수할 수 있습니다.

💻 방법 C: "직접 코딩" (Graph-as-Code) [최고의 방법]

비유: AI 에게 "이 친구들의 데이터를 엑셀 파일처럼 정리해놨으니, 너가 직접 파이썬 코드를 짜서 필요한 정보만 뽑아내고 분석해봐"라고 말합니다.
장점: AI 는 스스로 "어, 이 친구의 설명은 너무 길어서 다 읽을 필요 없고, 이름만 보면 되겠네"라고 판단하여 코드로 필요한 부분만 딱 잘라냅니다.
결과: 이 방식이 가장 정확하고 빠릅니다.

3. 주요 발견 사항 (상상력을 자극하는 결론들)

① "코드를 짜는 AI 가 가장 똑똑하다"

비유: 긴 설명서 (긴 텍스트) 가 있거나 친구가 너무 많은 (고차원) 상황에서는, **방법 A(설명서 읽기)**는 AI 가 "아, 너무 많아서 다 못 읽겠다"며 포기하거나 엉뚱한 답을 내놓습니다. 하지만 **방법 C(직접 코딩)**는 AI 가 스스로 "필요한 것만 골라내서" 완벽하게 분석합니다.
결론: 데이터가 복잡하고 길수록, AI 가 직접 코드를 작성해서 실행하는 방식이 압도적으로 좋습니다.

② "친구들이 서로 다르더라도 AI 는 잘한다"

비유: 보통 AI 는 "내 친구들이랑 비슷한 사람 (동질성)"을 분석하는 데는 잘하지만, "내 친구들이랑 전혀 다른 사람 (이질성)"을 분석하면 헷갈려한다고 알려져 있었습니다.
결론: 하지만 이 연구는 어떤 종류의 친구 관계 (동질적이든 이질적이든) 에서도 AI 가 잘 적응한다는 것을 증명했습니다. 특히 코드를 짜는 방식은 친구들이 서로 달라도 그 차이를 잘 이해하고 정답을 찾습니다.

③ "상황에 따라 유연하게 변신한다"

비유: **방법 C(직접 코딩)**는 상황에 따라 "친구 관계 (구조)"가 중요하면 관계를 보고, "친구의 취미 (특성)"가 중요하면 취미를 보고, "이미 알려진 정보 (레이블)"가 중요하면 그걸 봅니다.
결론: AI 가 어떤 정보가 가장 중요한지 스스로 판단해서 유연하게 대처합니다. 반면, **방법 A(설명서 읽기)**는 정보가 하나라도 끊기면 (예: 친구 관계가 사라지거나 설명이 잘리면) 바로 무너집니다.

4. 요약: 우리에게 주는 교훈

이 연구는 AI 를 그래프 데이터 분석에 쓸 때, **"무조건 질문만 던지지 말고, AI 가 스스로 코드를 짜서 데이터를 다룰 수 있게 해주는 것"**이 가장 효과적이라고 말합니다.

실무자 (프로그래머, 데이터 과학자) 에게: 복잡한 데이터 (예: 쇼핑몰 추천, 사기 탐지) 를 다룰 때는 AI 에게 직접 코드를 짜게 하세요. 설명만 시키면 AI 가 정보를 놓칩니다.
일반인에게: AI 는 이제 단순히 "질문 - 답변"을 넘어, 복잡한 관계망을 스스로 분석하고 해결책을 찾아내는 '직접 행동하는' 단계로 넘어가고 있습니다.

한 줄 요약:

"AI 에게 복잡한 관계망을 분석시킬 때, "모든 정보 다 보여줘"라고 말하기보다, "너가 필요한 것만 찾아서 코드로 분석해"라고 시키는 것이 훨씬 더 똑똑하고 빠릅니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 사기 탐지, 추천 시스템 등 고부가가치 분야에서 LLM 은 텍스트 기반 그래프 학습 (예: 노드 분류) 에 점차 활용되고 있습니다. 기존 그래프 신경망 (GNN) 은 특정 태스크와 데이터셋에 맞춰 학습되어야 하지만, LLM 은 광범위한 세계 지식과 추론 능력을 갖추고 있어 대안으로 부상했습니다.
문제: LLM 을 그래프 데이터에 적용하는 연구는 급증하고 있으나, 어떤 상호작용 방식이 가장 효과적인지, 그리고 LLM 이 그래프의 구조 (Structure), 특징 (Features), 레이블 (Labels) 에 어떻게 의존하는지에 대한 원칙적인 이해가 부족합니다.
목표: 다양한 변수 (상호작용 모드, 데이터 도메인, 그래프 구조, 텍스트 길이 등) 를 통제하여 LLM 기반 그래프 추론 방법의 강점과 약점을 체계적으로 규명하고, 실무자에게 실행 가능한 가이드를 제공하는 것.

2. 방법론 (Methodology)

저자들은 LLM 과 그래프 데이터 간의 상호작용을 3 가지 주요 전략으로 분류하고 대규모 실험을 수행했습니다.

2.1 상호작용 전략 (Interaction Strategies)

프롬핑 (Prompting, $\phi_{prompt}$ ):
- 노드의 텍스트 설명과 $k$ -hop 이웃 (0-hop, 1-hop, 2-hop) 을 하나의 긴 텍스트 프롬프트로 직렬화하여 LLM 에게 한 번에 입력합니다.
- 토큰 제한 (Token Budget) 으로 인해 긴 텍스트나 고차도 (High-degree) 그래프에서는 정보가 잘리거나 컨텍스트 윈도우를 초과할 수 있습니다.
그래프 툴 (GraphTool, $\phi_{tool}$ ):
- ReAct(Reasoning + Acting) 패러다임을 적용합니다. LLM 이 필요한 정보 (이웃 노드, 텍스트, 레이블 등) 를 얻기 위해 정의된 도구 (Tool) 를 단계별로 호출합니다.
- GraphTool+: 고정된 도구 호출에 더해, 특정 홉 (Hop) 거리만큼 떨어진 노드의 텍스트나 레이블을 직접 조회하는 기능을 추가했습니다.
코드 생성 (Graph-as-Code, $\phi_{code}$ ):
- 그래프 데이터를 타입화된 테이블 (pandas DataFrame 등) 로 표현합니다.
- LLM 이 그래프 구조와 특징을 조작하는 **실행 가능한 코드 (Python/Pandas)**를 생성하고, 이를 실행한 결과를 바탕으로 추론을 반복합니다.
- 필요한 정보만 선택적으로 조회하여 토큰 효율성을 극대화하고 복잡한 논리를 코드 실행에 위임합니다.

2.2 실험 변수 (Axes of Variability)

도메인: 인용 (Citation), 웹 링크 (Web-link), 이커머스 (E-commerce), 소셜 네트워크 (Social) 등 다양한 데이터셋.
구조적 체제: 동질성 (Homophilic, 같은 클래스끼리 연결) vs 이질성 (Heterophilic, 다른 클래스끼리 연결) 그래프.
특징: 짧은 텍스트 (제목 등) vs 긴 텍스트 (상세 설명, 리뷰 등).
모델: 다양한 크기의 LLM (Llama ~ GPT-5) 및 추론 (Reasoning) 능력 유무.
의존성 분석: 텍스트 특징, 엣지 (구조), 레이블을 무작위로 제거하거나 잘라내어 (Truncation) 각 방법이 어떤 입력에 의존하는지 2D 히트맵으로 분석했습니다.

3. 주요 결과 및 발견 (Key Findings)

3.1 성능 비교

Graph-as-Code 의 우위: 전체적으로 코드 생성 (Graph-as-Code) 방식이 가장 높은 성능을 보였습니다. 특히 긴 텍스트 특징이나 고차도 (High-degree) 노드가 많은 그래프에서 프롬핑 방식이 토큰 제한으로 인해 성능이 급격히 떨어지는 반면, 코드는 필요한 정보만 선택적으로 조회하여 우월한 성능을 유지했습니다.
이질성 그래프 (Heterophilic Graphs) 에 대한 효과: 기존 연구 (Huang et al., 2024a) 는 LLM 이 동질성이 낮은 그래프에서 성능이 떨어진다고 주장했으나, 본 연구에서는 모든 상호작용 전략이 이질성 그래프에서도 효과적임을 확인했습니다. LLM 은 단순한 이웃 투표 (Neighborhood Voting) 에 의존하지 않고 노드 특징과 구조를 복합적으로 활용합니다.
모델 크기와 추론 능력: 모델 크기가 커질수록 성능이 향상되며, 추론 (Reasoning) 기능이 활성화된 모델이 더 좋은 결과를 냈습니다. 하지만 토큰 제한 문제는 모델 크기와 무관하게 프롬핑 방식의 병목 현상으로 남았습니다.

3.2 의존성 분석 (Dependency Analysis)

적응적 의존성 (Adaptive Reliance): Graph-as-Code 는 구조, 특징, 레이블 중 가장 정보량이 많은 입력 유형에 유연하게 의존을 전환합니다.
- 엣지가 제거되어도 특징이 남아있으면 성능을 유지합니다.
- 반면, 프롬핑 방식은 구조와 레이블 모두에 강하게 의존하며, 정보가 부족해지면 성능이 급격히 하락합니다.
노이즈 내성: 엣지 정보가 무작위로 섞여 (Shuffled) 노이즈가 발생한 상황에서도 Graph-as-Code 는 프롬핑보다 덜 민감하게 반응하며, 노드 자체의 특징을 더 신뢰하는 경향을 보였습니다.

4. 주요 기여 (Contributions)

대규모 통제 실험: LLM-그래프 상호작용의 핵심 변수들을 체계적으로 분해하여, 어떤 상황에서 어떤 방법이 최적인지 규명한 최초의 포괄적인 연구입니다.
Graph-as-Code 의 검증: 단순 프롬핑이나 고정된 도구 호출을 넘어, LLM 이 코드를 생성하여 그래프를 조작하는 방식이 긴 텍스트와 복잡한 구조에서 가장 효과적임을 입증했습니다.
이질성 그래프에 대한 통찰: LLM 기반 방법이 이질성 그래프에서 실패한다는 기존 통념을 반박하고, LLM 이 다양한 신호를 통합하여 추론할 수 있음을 보였습니다.
실무 가이드 제공: 그래프의 밀도 (Density) 와 특징의 길이를 고려하여 상호작용 모드를 선택해야 함을 제안합니다. (예: 긴 텍스트/고밀도 그래프 → Graph-as-Code 권장)

5. 의의 및 결론 (Significance)

이 연구는 LLM 이 그래프 데이터를 처리할 때 단순히 "텍스트로 변환하여 프롬프트에 넣는 것"이 최선이 아님을 보여줍니다. **코드 생성 (Code Generation)**을 통해 그래프 구조를 프로그래밍적으로 접근하는 방식이 토큰 효율성, 추론 유연성, 그리고 노이즈 내성 측면에서 압도적으로 우수함을 입증했습니다.

향후 그래프 기반 LLM 애플리케이션 (사기 탐지, 추천 시스템 등) 을 설계할 때는, 데이터의 특성 (텍스트 길이, 그래프 밀도, 동질성 여부) 에 맞춰 적응형 (Adaptive) 인 코드 생성 방식을 우선적으로 고려해야 하며, 이는 GNN 과 LLM 의 장점을 결합한 새로운 패러다임으로 이어질 수 있음을 시사합니다.

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference