[오늘의 일지]
프로젝트 OT 및 Transformer 특강
[상세 내용]
Transformer
- Transformer는 자연어 처리 및 기타 시퀀스 기반 작업에 대한 혁신적인 딥러닝 아키텍처로, 2017년에 발표된 논문 "Attention is All You Need"에서 처음 소개되었습니다. 이 아키텍처는 기존의 순환 신경망(RNN)이나 장단기 메모리(LSTM)와 같은 기존의 시퀀스 모델에 비해 효과적으로 더 긴 범위의 의존 관계를 학습할 수 있는 특징을 가지고 있습니다.
원리
- ransformer)는 어텐션 메커니즘(Attention Mechanism)을 기반으로 하는 딥러닝 아키텍처로, 주로 자연어 처리 작업에 사용됩니다. 트랜스포머의 핵심 아이디어는 순환 신경망(RNN)이나 장단기 메모리(LSTM)와 같은 기존의 순차적인 모델 대신, 어텐션 메커니즘을 사용하여 입력 시퀀스의 각 위치 간의 관계를 모델링하는 것입니다.
어텐션 메커니즘(Attention Mechanism)
- 어텐션은 입력 시퀀스의 각 위치에 대한 가중치를 동적으로 계산하여 출력에 반영하는 메커니즘입니다. 트랜스포머에서는 셀프 어텐션(self-attention)이라고도 불리는 어텐션 메커니즘이 사용됩니다. 이는 입력 시퀀스 내의 각 위치가 서로 어떤 관계를 가지는지를 고려하여 가중치를 계산합니다.
멀티헤드 어텐션(Multi-head Attention)
- 트랜스포머에서는 여러 개의 어텐션 헤드를 사용하여 다양한 관점에서 정보를 캡처합니다. 각 헤드는 독립적으로 학습된 가중치를 사용하여 어텐션을 수행하고, 그 결과를 결합합니다. 이를 통해 모델은 여러 다양한 특징을 동시에 학습할 수 있습니다.
포지션 임베딩(Positional Embedding)
- 트랜스포머는 입력 시퀀스의 단어들이 위치 정보를 가지지 않기 때문에 위치 정보를 명시적으로 주입하기 위해 포지션 임베딩을 사용합니다. 이를 통해 모델은 단어의 상대적인 위치에 대한 정보를 학습할 수 있습니다.
인코더-디코더 구조
- 트랜스포머는 주로 시퀀스 투 시퀀스(Sequence-to-Sequence) 작업을 수행하는데, 이를 위해 인코더와 디코더로 구성됩니다. 인코더는 입력 시퀀스를 임베딩하고, 디코더는 출력 시퀀스를 생성합니다. 각 인코더 및 디코더는 여러 층으로 구성되며, 각 층은 어텐션 메커니즘과 피드포워드 신경망으로 이루어져 있습니다.
포워드 및 역방향 어텐션
- 셀프 어텐션은 주로 입력 시퀀스 내의 관계를 모델링하는 데 사용되지만, 트랜스포머에서는 이에 추가하여 포워드 어텐션과 역방향 어텐션을 사용하여 인코더와 디코더 간의 관계를 모델링합니다.
[마무리]
오늘은 transformer에 대해서 간단하게 정리하면서 일지를 마무리하겠습니다. 특강에서 앞으로 2주간 있을 CV 프로젝트에 대한 OT도 간단하게 있었는데 별다를게 정리할 부분이 없었던 거 같습니다. 다음 주부터 프로젝트 과정을 자세하게 정리하겠습니다.
'AI > 딥러닝' 카테고리의 다른 글
[AI 부트캠프] DAY 98 - 트랙학습 CV 12 (0) | 2023.12.08 |
---|---|
[AI 부트캠프] DAY 97 - 트랙학습 CV 11 (1) | 2023.12.07 |
[AI 부트캠프] DAY 96 - 트랙학습 CV 10 (2) | 2023.12.06 |
[AI 부트캠프] DAY 95 - 트랙학습 CV 9 (1) | 2023.12.05 |
[AI 부트캠프] DAY 94 - 트랙학습 CV 8 (0) | 2023.12.02 |
댓글