Attention is Still All You Need?
Transformer가 등장한 지 7년. 여전히 Attention이 전부인가, 아니면 그 너머가 있는가.
7년 전의 선언
2017년 Google Brain 팀이 논문 한 편을 공개했습니다. 제목은 단호했습니다. Attention Is All You Need. RNN도, CNN도 필요 없다. Attention만으로 충분하다는 선언이었습니다. 당시 NLP 커뮤니티는 반신반의했지만, 이후 몇 년이 채 지나지 않아 그 선언은 사실이 되었습니다.
2025년 현재, BERT와 GPT로 시작된 물결은 LLaMA, Gemini, Claude로 이어졌습니다. 이름은 달라도 골격은 같습니다. Transformer. 그리고 그 핵심에는 Self-Attention이 있습니다. 7년이 지난 지금, 다시 물어야 할 때가 됐습니다. Attention은 여전히 전부인가요?
Transformer의 지배
Transformer가 NLP를 정복한 것은 알려진 사실이지만, 그 지배 범위는 생각보다 훨씬 넓습니다. 컴퓨터 비전 분야에서는 ViT(Vision Transformer)가 CNN의 전통적 영역을 잠식했고, 단백질 구조 예측 모델인 AlphaFold2도 Attention 메커니즘에 크게 의존합니다. 음악 생성, 코드 합성, 다중 모달 이해 — 이 모든 영역에서 Transformer는 기본값이 되었습니다.
왜 이렇게 됐을까요? Transformer의 강점은 세 가지로 압축됩니다.
첫째, 표현력입니다. Self-Attention은 시퀀스 내 임의의 두 토큰 사이의 관계를 직접 모델링합니다. RNN이 순차적으로 정보를 전달하며 장거리 의존성에서 손실을 겪는 것과 달리, Attention은 거리에 무관하게 전역 컨텍스트를 포착합니다.
둘째, 병렬성입니다. RNN은 이전 스텝의 출력이 있어야 다음 스텝을 계산할 수 있어 학습이 느립니다. Transformer는 시퀀스 전체를 동시에 처리하므로 현대 GPU/TPU의 병렬 연산 능력을 최대로 활용합니다.
셋째, 확장성입니다. 파라미터를 늘리면 성능이 오릅니다. Scaling Law라 불리는 이 특성 덕분에 더 큰 모델, 더 많은 데이터, 더 오랜 학습이 곧 더 나은 결과로 이어졌습니다.
균열의 시작 — 의 벽
그러나 Transformer에는 구조적인 약점이 있습니다. Self-Attention의 계산 복잡도는 입니다. 시퀀스 길이 이 두 배가 되면 연산량은 네 배가 됩니다. 컨텍스트 윈도우를 수십만 토큰으로 늘리려는 시도는 이 벽에 부딪힙니다.
이 한계를 돌파하려는 시도가 SSM(State Space Model) 계열입니다. Mamba는 그 대표 주자로, 선택적 상태 공간 메커니즘을 통해 복잡도를 달성하면서도 Transformer에 필적하는 성능을 보여줬습니다. RWKV는 RNN과 Transformer의 장점을 결합하려는 또 다른 시도입니다. 추론 시에는 RNN처럼 상수 메모리로 동작하면서 학습 시에는 병렬 처리가 가능합니다.
이들이 제기하는 질문은 명확합니다. "Attention 없이도 같은 일을 할 수 있다면, Attention은 정말 필수인가?"
Mixture of Experts — 다른 방향의 혁신
한편 완전히 다른 방향에서도 변화가 일어났습니다. **MoE(Mixture of Experts)**는 모델의 총 파라미터 수를 늘리되, 각 토큰을 처리할 때는 일부 전문가 레이어만 활성화합니다. GPT-4, Mixtral, 그리고 Google의 여러 모델이 이 구조를 채택했습니다.
MoE는 Attention을 대체하는 것이 아니라 Transformer 아키텍처와 결합합니다. 이 조합은 계산 효율을 높이면서 모델 용량을 극적으로 확장합니다. 어떤 의미에서 MoE는 Transformer의 수명을 연장하는 기술입니다.
Attention이 살아있는 이유
SSM 계열의 도전은 진지하게 받아들여야 합니다. 특히 긴 시퀀스를 다루는 작업에서 Mamba류 모델의 효율은 무시할 수 없습니다. 그러나 현시점에서 Attention을 대체하기에는 아직 간극이 있습니다.
In-context learning, 즉 프롬프트 안에 주어진 예시로부터 즉각 학습하는 능력은 Transformer의 두드러진 특성 중 하나입니다. 이 능력이 Attention의 구조적 특성에서 기인하는지, 아니면 단순히 데이터와 규모의 산물인지는 아직 명확히 밝혀지지 않았습니다. 하지만 SSM 기반 모델에서 이 능력을 동등하게 재현하기 어렵다는 것은 관찰된 사실입니다.
FlashAttention과 같은 하드웨어 인식 최적화 기법도 문제를 실질적으로 완화하고 있습니다. 이론적 복잡도와 실제 메모리·속도는 다릅니다. 엔지니어링의 영역에서 Transformer는 계속 개선 중입니다.
아직 끝난 이야기가 아니다
Attention은 전부가 아닐 수 있습니다. 더 효율적인 구조, 더 나은 시퀀스 모델링 방법이 등장하고 있습니다. 어쩌면 5년 후 지배적인 아키텍처는 지금과 전혀 다른 모습일지 모릅니다.
그러나 오늘의 답은 이렇습니다. Attention은 여전히 가장 강력하고 검증된 도구입니다. 7년간 수많은 도전을 받았지만, 실전에서 그 자리를 내준 적이 없습니다. 다음 혁신이 Attention을 완전히 대체할 수도 있겠지만, 그 혁신이 무엇이든 Transformer를 발판 삼아 등장할 가능성이 높습니다.
Attention is still all you need — 적어도 지금은.