Attention is Still All You Need?

7년 전의 선언

2017년 Google Brain 팀이 논문 한 편을 공개했습니다. 제목은 단호했습니다. Attention Is All You Need. RNN도, CNN도 필요 없다. Attention만으로 충분하다는 선언이었습니다. 당시 NLP 커뮤니티는 반신반의했지만, 이후 몇 년이 채 지나지 않아 그 선언은 사실이 되었습니다.

2025년 현재, BERT와 GPT로 시작된 물결은 LLaMA, Gemini, Claude로 이어졌습니다. 이름은 달라도 골격은 같습니다. Transformer. 그리고 그 핵심에는 Self-Attention이 있습니다. 7년이 지난 지금, 다시 물어야 할 때가 됐습니다. Attention은 여전히 전부인가요?

Transformer의 지배

Transformer가 NLP를 정복한 것은 알려진 사실이지만, 그 지배 범위는 생각보다 훨씬 넓습니다. 컴퓨터 비전 분야에서는 ViT(Vision Transformer)가 CNN의 전통적 영역을 잠식했고, 단백질 구조 예측 모델인 AlphaFold2도 Attention 메커니즘에 크게 의존합니다. 음악 생성, 코드 합성, 다중 모달 이해 — 이 모든 영역에서 Transformer는 기본값이 되었습니다.

왜 이렇게 됐을까요? Transformer의 강점은 세 가지로 압축됩니다.

첫째, 표현력입니다. Self-Attention은 시퀀스 내 임의의 두 토큰 사이의 관계를 직접 모델링합니다. RNN이 순차적으로 정보를 전달하며 장거리 의존성에서 손실을 겪는 것과 달리, Attention은 거리에 무관하게 전역 컨텍스트를 포착합니다.

둘째, 병렬성입니다. RNN은 이전 스텝의 출력이 있어야 다음 스텝을 계산할 수 있어 학습이 느립니다. Transformer는 시퀀스 전체를 동시에 처리하므로 현대 GPU/TPU의 병렬 연산 능력을 최대로 활용합니다.

셋째, 확장성입니다. 파라미터를 늘리면 성능이 오릅니다. Scaling Law라 불리는 이 특성 덕분에 더 큰 모델, 더 많은 데이터, 더 오랜 학습이 곧 더 나은 결과로 이어졌습니다.

균열의 시작 — $O(n^2)$ 의 벽

그러나 Transformer에는 구조적인 약점이 있습니다. Self-Attention의 계산 복잡도는 $O(n^2)$ 입니다. 시퀀스 길이 $n$ 이 두 배가 되면 연산량은 네 배가 됩니다. 컨텍스트 윈도우를 수십만 토큰으로 늘리려는 시도는 이 벽에 부딪힙니다.

이 한계를 돌파하려는 시도가 SSM(State Space Model) 계열입니다. Mamba는 그 대표 주자로, 선택적 상태 공간 메커니즘을 통해 $O(n)$ 복잡도를 달성하면서도 Transformer에 필적하는 성능을 보여줬습니다. RWKV는 RNN과 Transformer의 장점을 결합하려는 또 다른 시도입니다. 추론 시에는 RNN처럼 상수 메모리로 동작하면서 학습 시에는 병렬 처리가 가능합니다.

이들이 제기하는 질문은 명확합니다. "Attention 없이도 같은 일을 할 수 있다면, Attention은 정말 필수인가?"

Mixture of Experts — 다른 방향의 혁신

한편 완전히 다른 방향에서도 변화가 일어났습니다. **MoE(Mixture of Experts)**는 모델의 총 파라미터 수를 늘리되, 각 토큰을 처리할 때는 일부 전문가 레이어만 활성화합니다. GPT-4, Mixtral, 그리고 Google의 여러 모델이 이 구조를 채택했습니다.

MoE는 Attention을 대체하는 것이 아니라 Transformer 아키텍처와 결합합니다. 이 조합은 계산 효율을 높이면서 모델 용량을 극적으로 확장합니다. 어떤 의미에서 MoE는 Transformer의 수명을 연장하는 기술입니다.

Attention이 살아있는 이유

SSM 계열의 도전은 진지하게 받아들여야 합니다. 특히 긴 시퀀스를 다루는 작업에서 Mamba류 모델의 효율은 무시할 수 없습니다. 그러나 현시점에서 Attention을 대체하기에는 아직 간극이 있습니다.

In-context learning, 즉 프롬프트 안에 주어진 예시로부터 즉각 학습하는 능력은 Transformer의 두드러진 특성 중 하나입니다. 이 능력이 Attention의 구조적 특성에서 기인하는지, 아니면 단순히 데이터와 규모의 산물인지는 아직 명확히 밝혀지지 않았습니다. 하지만 SSM 기반 모델에서 이 능력을 동등하게 재현하기 어렵다는 것은 관찰된 사실입니다.

FlashAttention과 같은 하드웨어 인식 최적화 기법도 $O(n^2)$ 문제를 실질적으로 완화하고 있습니다. 이론적 복잡도와 실제 메모리·속도는 다릅니다. 엔지니어링의 영역에서 Transformer는 계속 개선 중입니다.

아직 끝난 이야기가 아니다

Attention은 전부가 아닐 수 있습니다. 더 효율적인 구조, 더 나은 시퀀스 모델링 방법이 등장하고 있습니다. 어쩌면 5년 후 지배적인 아키텍처는 지금과 전혀 다른 모습일지 모릅니다.

그러나 오늘의 답은 이렇습니다. Attention은 여전히 가장 강력하고 검증된 도구입니다. 7년간 수많은 도전을 받았지만, 실전에서 그 자리를 내준 적이 없습니다. 다음 혁신이 Attention을 완전히 대체할 수도 있겠지만, 그 혁신이 무엇이든 Transformer를 발판 삼아 등장할 가능성이 높습니다.

Attention is still all you need — 적어도 지금은.