Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Each language version is independently generated for its own context, not a direct translation.

과거에는 AI 가 똑똑해지려면 "머리 (파라미터)"를 엄청나게 크게 키워야 한다고 믿었습니다. 하지만 최근 연구들은 **"생각하는 과정 (반복적인 사고)"**이 더 중요하다고 말합니다.

기존 방식 (TRM): 아주 작은 AI(700 만 개의 파라미터, 즉 아주 작은 뇌) 가 문제를 풀 때, 답을 바로 말하지 않고 숨겨진 공간에서 여러 번 생각을 반복합니다. 마치 퍼즐을 풀 때 종이에 답을 쓰지 않고, 머릿속으로 "아니야, 이건 아니야, 저건 어때?"라고 계속 고민하는 것과 같습니다.
문제: 이 "생각하는 과정"을 담당하는 부품을 기존에는 **Transformer(attention)**라고 불리는 복잡한 장치를 썼습니다. 그런데 이 장치는 무겁고 느립니다.

연구진은 "생각하는 과정"을 담당하는 장치를 Mamba-2라는 새로운, 더 가볍고 빠른 엔진으로 바꿔봤습니다.

비유: 같은 차체 (모델 크기) 에, 기존에 달았던 무거운 **V8 엔진 (Transformer)**을 떼어내고, 최신형 **하이브리드 엔진 (Mamba-2)**을 달아본 것입니다.
목표: 엔진만 바꿨을 때, 차의 성능 (추리 능력) 이 떨어지지 않고 오히려 좋아질까?

결과는 놀라웠습니다. 엔진을 바꾼 하이브리드 모델이 기존 모델보다 더 좋은 성적을 냈습니다.

핵심 발견 (Coverage vs Selection):
- 기존 모델 (Transformer): "내가 가장 확신하는 답 하나를 골라내서 정답일 가능성이 높게 맞췄다." (1 등 선정 능력은 비슷함)
- 새로운 모델 (Mamba-2 Hybrid): "내가 생각한 답들 중에서 정답이 포함될 확률이 훨씬 높은 다양한 후보군을 많이 만들어냈다." (정답을 포함하는 '후보 목록'의 범위가 넓어짐)
일상적인 비유:
- 기존 모델: 친구가 "내 생각엔 이 식당이 최고야!"라고 단 한 군데를 강력 추천합니다. (맞을 수도, 틀릴 수도 있음)
- 새로운 모델: 친구가 "이 식당, 저 식당, 그리고 그 옆 골목 식당까지 다양하게 10 군데를 추천해 줍니다. 그중에서 정답인 식당이 꼭 들어있습니다."
- 결과: 정답을 고르는 '1 등' 선정 능력은 비슷하지만, 정답을 '포함'하고 있는 후보 목록의 크기가 훨씬 커서 전체적인 성공률이 높아진 것입니다.

Mamba-2 의 특징: 이 엔진은 정보를 순서대로 (한 방향으로) 처리하는 데 매우 능숙합니다.
시너지: 복잡한 추리 문제 (ARC-AGI) 는 공간적, 시각적 패턴을 이해해야 합니다. Mamba-2 가 순차적으로 정보를 처리하면서, 기존 엔진과는 **다른 각도에서 문제를 바라보는 '새로운 생각의 경로'**를 만들어냈습니다.
결론: 서로 다른 엔진을 섞어쓰면, AI 가 문제를 풀 때 더 다양한 시나리오를 상상할 수 있게 되어, 정답을 놓치지 않을 확률이 높아진 것입니다.

이 연구는 **"AI 의 두뇌 구조를 바꾸면, 아주 작은 모델로도 더 똑똑해질 수 있다"**는 것을 증명했습니다.

핵심 메시지: 거대한 AI 를 만드는 것뿐만 아니라, **"어떻게 생각하는가 (구조와 엔진)"**를 바꾸는 것이 더 중요할 수 있습니다.
미래: 이제 AI 개발자들은 'Transformer'만 고집하지 않고, 'Mamba' 같은 새로운 엔진을 섞어쓰며 더 효율적이고 똑똑한 AI 를 만들 수 있는 길을 열었습니다.

한 줄 요약:

"작은 AI 에 새로운 엔진을 달으니, 정답을 딱 하나만 고르는 능력은 그대로 유지하면서, 정답을 포함할 수 있는 '생각의 목록'을 훨씬 더 많이 만들어내서 전체적인 성적이 좋아졌습니다!"

유사한 논문