"Attention is All You Need" 라는 획기적인 논문에서 소개된 이후로 트랜스포머 아키텍처는 자연어 처리(NLP) 분야에 깊은 영향을 미쳤습니다. 아키텍처의 뛰어난 맥락 관계 파악 능력은 번역에서 감정 분석에 이르기까지 다양한 NLP 작업에 전례 없는 발전을 가져왔습니다. 이번 레딧에서는 여러분들께 트랜스포머 아키텍처를 몇 개의 파트로 나누어 핵심적인 내용만 전달해 보고자 합니다. 자, 그럼 지금부터 함께 볼까요?
트랜스포머 어떻게 작동하나? 구조 및작동 원리
1) 구조
- Encoder와 Decoder 구조:
트랜스포머의 핵심은 Encoder-Decoder 스택입니다. 각 Encoder는 입력 시퀀스를 받아 연속적인 표현으로 변환하고, Decoder는 이를 사용하여 원하는 출력을 생성합니다. 이러한 Encoder와 Decoder는 텍스트 데이터의 깊이와 복잡성의 이해를 향상시키기 위해 일반적으로 여러개가 함께 쌓입니다.
- Multi-Head Self Attention:
전통적인 attention 메커니즘은 모델이 처리 중인 입력의 다른 부분에 집중하게 합니다. 트랜스포머는 이를 강화하여 "heads"라고 하는 여러 메커니즘을 도입함으로써 다양한 맥락 관련 부분에 동시에 집중할 수 있게 했습니다.
- Position-wise Feed-Forward Networks:
각 Encoder와 Decoder에는 독립적으로 각 위치에 적용되는 feed-forward 신경망이 포함되어 있습니다. 이 네트워크는 데이터의 공간적 표현을 변환하여 입력 텍스트의 위치 동적성에 모델이 민감하게 반응하도록 합니다.
- Positional Encoding:
트랜스포머의 한계 중 하나는 내재적인 순차 처리의 부재입니다. 이를 극복하기 위해 입력 임베딩에 위치 인코딩(일반적으로 사인 곡선)이 추가되어 모델이 시퀀스 내 위치 동적성을 구별하도록 돕습니다.
- Residual Concatenation and Layer Normalization: Encoder와 Decoder 내의 각 하위 계층(attention 또는 feed-forward와 같은)은그 주위에 잔여 연결이 있습니다. 이는 기울기 소실 문제를 방지하는 데 도움이 됩니다. 잔여 연결 후에는 계층 정규화가 사용되어 출력을 안정화하고 훈련을 더 부드럽게 만듭니다.
- Final Linear and Softmax Layers:
Decoder가 입력을 변환한 후, 최종 시퀀스는 예측을 형성하기 위해 선형 계층을 통과합니다. 이후의 Softmax 계층은 이러한 예측을 확률로 변환하여 최종 구조화된 출력을 보장합니다.
2) 작동원리
트랜스포머의작동 원리는 다음과 같은 순서로 진행됩니다:
- 입력 준비: 입력 시퀀스는 임베딩과 위치 인코딩을 통해 처리됩니다.
- 인코더: 멀티-헤드 셀프 어텐션과 포지션 와이즈 피드-포워드네트워크를 통해 입력 시퀀스가 인코딩됩니다.
- 디코더: 인코더의 출력과 함께 디코더는 멀티-헤드어텐션을 사용하여 출력 시퀀스를 생성합니다.
- 재사용과 병렬화: 트랜스포머는 블록을 여러 개 쌓음으로써 복잡한 패턴을 학습합니다. 각 블록은 병렬로 작동할 수 있습니다.
- 최종 예측: 선형 계층과 소프트맥스 활성화 함수를 통해 디코더의 출력은 최종 예측으로 변환됩니다.
천재IT교육센터 AI·빅데이터 서비스 개발자 양성과정 현재 모집 중! 지금 신청하기