GDG on Campus: SSWU 6th/Winter Blog Challenge

[Winter Blog Challenge] 최신 딥러닝 기술의 혁신을 이끈 Transformer 모델 (Chapter Member 김승연)

gdgoc-sswu 2025. 2. 27. 23:14

안녕하세요 GDG on Campus: SSWU Chapter Member 김승연입니다. 오늘은 최신 딥러닝 기술의 혁신을 이끈 Transformer 모델에 대해 이야기해보려고 합니다. 변화하는 AI 생태계 속에서 Transformer 모델은 자연어 처리뿐 아니라 다양한 분야에서 혁신적인 성능을 선보이며 많은 주목을 받고 있는데요,

 

트랜스포머 모델은 기본적으로 단어 임베딩, 위치 인코딩. 셀프 어텐션, 잔차 연결의 순서로 구성됩니다.

 

1. 단어 임베딩

 

🔹왜 필요한가?

컴퓨터는 텍스트를 직접 이해할 수 없기 때문에, 단어를 숫자 벡터(임베딩 벡터)로 변환해야 합니다.

 

🔹 어떻게 변환하는가?

단어별로 고정된 차원(예: 512차원)의 벡터로 변환합니다. 각 단어는 미리 학습된 벡터(Word2Vec, GloVe, BERT 등)를 가질 수도 있습니다.

 

2. 위치 인코딩

 

🔹 왜 필요한가?

트랜스포머는 RNN과 달리 단어를 한 번에(병렬로) 처리하기 때문에, 각 단어가 어떤 순서로 등장했는지 모릅니다.

따라서 위치 정보를 추가하는 Positional Encoding이 필요합니다.

 

🔹 어떻게 변환하는가?

각 단어 벡터에 사인(sin) & 코사인(cos) 함수 기반의 위치 정보를 더해줍니다.

그러면 각 단어의 위치마다 고유한 벡터 값이 생성됩니다. 즉, 멀리 있는 단어들의 관계도 학습이 가능합니다.

 

3. 셀프 어텐션

 

🔹 왜 필요한가?

기존 RNN이나 CNN은 멀리 떨어진 단어들 간의 관계를 잘 반영하지 못합니다.

하지만 Self-Attention을 사용하면 모든 단어들이 서로를 참고할 수 있습니다.

 

🔹 어떻게 작동하는가?

① 입력 단어 벡터를 Query (Q), Key (K), Value (V)로 변환

② Query와 Key의 내적(dot product) → 단어 간 유사도(어텐션 점수) 계산

③ Softmax를 적용해 가중치(중요도)를 부여

④ 가중치를 Value에 곱해서 새로운 단어 벡터 생성

 

4. 잔차 연결

 

🔹 왜 필요한가?

트랜스포머에서는 여러 층을 쌓아 학습하기 때문에,

Gradient Vanishing(기울기 소실) 문제가 발생할 수 있음.

이를 해결하기 위해 잔차 연결(Residual Connection)을 사용합니다.

 

🔹 어떻게 작동하는가?

기존의 정보를 유지하면서 새로운 정보를 더해줍니다.

 

 

 

=> 결론적으로 전체 흐름을 요약하자면,

✅ Word Embedding: 단어를 숫자로 변환

  Positional Encoding: 단어의 순서를 반영

  Self-Attention: 각 단어가 다른 단어들과 얼마나 관련 있는지 계산

  Residual Connection: 기존 정보 유지 + 새로운 정보 추가하여 학습 안정화

 

 

 

오늘 살펴본 Transformer 모델의 기본 구성이 여러분의 AI 여정에 작은 인사이트가 되었길 바랍니다. 이 혁신적인 기술이 앞으로 펼쳐질 무한한 가능성과 미래의 변화를 예고하는 만큼, 계속해서 최신 동향에 귀 기울이며 함께 성장해나가길 기대합니다.