0. 기계번역의 연혁

1. Seq2Seq 모델

인코더와 디코더로 구성되며, 인코더에서 context를 디코더로 전달한다.

인코더와 디코더 모두 RNN을 활용했다.

인코더의 마지막 은닉층의 출력값을 context로 활용한다.

Seq2Seq 모델에서 사용하는 context는 입력 시퀀스의 크기와는 상관없이 크기가 고정되어 있다.

또한 가장 마지막 은닉벡터의 출력값의 context로 사용한다.

이에 2가지 문제점이 나타난다.

모든 단어를 평등하게 고려하여 context를 생성하여 사용

→ Attention algorithm

Attention 알고리즘에선 디코더가 출력 단어를 예측할 때 인코더의 전체 문장과 함께 각 시점을 고려해서 그 시점에 가장 밀접하게 관련 있는 부분에 주목한다.

하나의 어텐션에 많은 단어를 입력받으면 성능이 하락한다.

다수의 어텐션을 사용해서 입력된 시퀀스의 범위를 세밀하게 나눈다. 생성된 다수의 context를 취합해서 최종적으로 하나의 컨텍스트를 산출한다.
→ 트랜스포머 아키텍처

인코더와 디코더가 있음.

멀티헤드 어텐션을 사용해서 보다 성능 좋은 context를 작성한다.

Seq2Seq와 달리 RNN을 사용하지 않는다.

RNN의 시간펼침망은 FNN과 같음을 이용해서 트랜스포머의 인코더와 디코더는 시퀀스를 한 번에 처리한다.

때문에 토큰의 위치 정보를 부여하기 위해서 인코더는 PE(Positioning encoding)를 별도로 필요로 한다.