Link Wars: The Semantic Crisis. Is the debate over or is it just beginning?

이 논문은 NVLink, UALink, RDMA 등 현재 인터커넥트 기술들이 'Forward-In-Time-Only'라는 근본적인 범주 오류로 인해 각기 다른 벤더별 시맨틱이 분열된 위기에 처해 있으며, Open Compute Project 의 Open Atomic Ethernet(OAE) 과 같은 명시적 트랜잭션 원리를 통해 이 위기를 해결할 수 있는지를 탐구합니다.

Paul Borrill

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제의 핵심: "보내면 끝"이라는 착각 (FITO)

지금까지의 네트워크 기술들은 **"Forward-In-Time-Only (FITO)"**라는 잘못된 가정에 기반하고 있습니다. 이를 쉽게 비유하자면 다음과 같습니다.

  • 현재의 방식 (FITO): 당신이 우편함에 편지를 넣으면, 편지는 날아갑니다. 하지만 당신은 편지가 상대방 손에 잘 전달되었는지, 혹은 쓰레기통에 버려졌는지를 알 수 없습니다. 상대방이 답장을 보내야만 "아, 내 편지가 도착했구나"라고 알 수 있습니다.
  • 문점: 만약 상대방이 답장을 보내기 전에 우체국이 망가졌다면? 당신은 편지가 갔는지 안 갔는지 영원히 모르게 됩니다. 이 불확실성을 해결하기 위해 우리는 **"무조건 확인을 받자!"**라고 너무 많은 에너지를 씁니다.

2. 현실의 혼란: 각자 다른 규칙을 쓰는 '링크 전쟁'

이 불확실성을 해결하기 위해 각 회사들이 제각기 다른 방법을 만들어냈습니다. 하지만 이 방법들은 서로 통하지 않아서 큰 문제가 생겼습니다.

  • NVIDIA (NVLink): "우리 집 (GPU) 안에서만 쓰는 비밀 언어야. 우리끼리는 완벽해." (하지만 다른 회사 제품과 섞으면 안 됨)
  • UALink, Ultra Ethernet: "우리는 표준을 만들려고 노력 중이야." (하지만 정확히 '완료'가 언제인지 정의가 모호함)
  • RDMA (기존 고성능 네트워크): "편지를 보내면 무조건 '확인'을 받기 위해 모든 일을 멈추고 기다려." (너무 안전하지만 속도가 느려짐)

비유:
마치 서로 다른 언어를 쓰는 국가들이 있습니다.

  • 미국은 "편지 보내면 100% 도착"이라고 믿고 싶지만, 실제로는 우편물이 분실될 수 있다는 걸 알기에 매번 우편물을 추적하는 비용을 듭니다.
  • 한국은 "우리는 우리끼리만 쓰니까 추적할 필요 없어"라고 합니다.
  • 유럽은 "추적은 하되, 도착 여부는 모를 수도 있어"라고 합니다.

이렇게 규칙이 제각각이라서, AI 가 거대한 데이터를 처리할 때 "이 데이터가 진짜로 다 갔을까?"를 확인하느라 시간을 다 써버립니다.

3. 해결책: "양측이 함께 확인하는 거래" (Open Atomic Ethernet)

이 논문은 **"Open Atomic Ethernet (OAE)"**이라는 새로운 방식을 제안합니다.

  • 기존 방식 (편지): 편지를 보내고, 답장을 기다림. (불확실함)
  • 새로운 방식 (OAE - 양측 거래):
    • A 가 B 에게 물건을 건네줄 때, A 와 B 가 동시에 손을 맞잡고 "이제 물건이 내 손에서 네 손으로 넘어갔다"고 동시에 확인합니다.
    • 만약 중간에 문제가 생기면, 즉시 "안 됐어, 다시 시작하자"라고 양쪽이 동시에 알 수 있습니다.
    • 핵심: "보내면 끝"이 아니라, **"서로가 서로의 상태를 정확히 아는 것"**을 네트워크의 기본 규칙으로 만듭니다.

비유:
기존은 **"택배 기사에게 물건을 맡기고 기다리는 것"**이라면,
새로운 방식은 **"상대방과 직접 만나서 물건을 주고받고, 서로의 서명을 받아 확인하는 것"**입니다.
이렇게 하면 "내가 보냈는데 네가 못 받았나?"라는 불안감이 사라지고, 불필요한 확인 절차 (대기 시간) 를 없앨 수 있습니다.

4. 왜 이것이 중요한가? (데이터베이스와 AI)

이 문제는 네트워크만의 문제가 아닙니다. 데이터베이스나 AI 학습에도 똑같은 문제가 있습니다.

  • 현재: "데이터가 다 저장된 건가?"를 알 수 없으니, 중복해서 저장하거나 (Idempotence), **실수를 수정하기 위해 뒤에서 고치는 작업 (Compensating Transactions)**을 계속 합니다.
  • 결과: 시스템이 복잡해지고, 버그가 생기고, 속도가 느려집니다.

비유:

  • 현재: 식당에서 주문을 하고, 요리사가 "네, 알겠습니다"라고만 말하면 주방은 요리를 시작합니다. 하지만 요리가 다 됐는지, 재료가 떨어졌는지는 알 수 없습니다. 그래서 손님들은 "혹시 요리 안 됐나?"라고 계속 물어보고, 주방은 "아니요, 다 됐어요"라고 거짓말을 하거나 다시 요리해야 합니다.
  • 새로운 방식: 주문과 요리, 서빙이 하나의 확실한 거래로 이루어집니다. "이 요리는 이 시간에 이 손님에게 정확히 전달된다"는 것이 시스템의 기본 약속입니다.

5. 결론: 속도가 아니라 '신뢰'의 문제

이 논문의 결론은 매우 명확합니다.

"네트워크 속도를 2 배로 늘린다고 해서 문제가 해결되지 않습니다. 문제는 '데이터가 제대로 도착했는지'에 대한 신뢰가 부족하기 때문입니다."

지금까지 우리는 "더 빠른 도로"를 만드는 데만 집중했습니다. 하지만 이 논리는 **"도로 위의 교통 규칙을 명확히 하고, 모든 운전자가 같은 규칙을 따르도록 하는 것"**이 더 중요하다고 말합니다.

한 줄 요약:
네트워크가 빨라지기 전에, **"무엇이 완료되었는지, 무엇이 실패했는지"를 모든 사람이 명확하게 알 수 있는 공통 규칙 (OAE)**을 만들어야만, AI 와 클라우드 시대의 진정한 발전이 가능하다는 것입니다.

이 논쟁은 이제 막 시작되었습니다. "누가 더 빠른가?"를 묻는 시대가 가고, **"누가 더 확실한가?"**를 묻는 시대로 넘어가고 있습니다.