2023-01-04 AI입문12

2023. 1. 4. 15:12학부 강의/AI 입문

0. 기계번역의 연혁

 

 


1. Seq2Seq 모델

 

인코더와 디코더로 구성되며, 인코더에서 context를 디코더로 전달한다.

 

 

인코더와 디코더 모두 RNN을 활용했다.

 

인코더의 마지막 은닉층의 출력값을 context로 활용한다.

  • SOS : Start Of Sequence
  • EOS : End Of Sequence

 

가. Seq2Seq 문제점

 

Seq2Seq 모델에서 사용하는 context는 입력 시퀀스의 크기와는 상관없이 크기가 고정되어 있다.

 

또한 가장 마지막 은닉벡터의 출력값의 context로 사용한다.

 

이에 2가지 문제점이 나타난다.

  1. 입력 시퀀스의 크기가 커지면, 시퀀스의 앞부분 단어에 대한 정보가 손실된다.
  2. 입력 단어별 관련성에 관한 정보의 사용이 불가하다.

 

나. 해법

 

모든 단어를 평등하게 고려하여 context를 생성하여 사용

→ Attention algorithm

 


2. Attention 메커니즘

 

 

Attention 알고리즘에선 디코더가 출력 단어를 예측할 때 인코더의 전체 문장과 함께 각 시점을 고려해서 그 시점에 가장 밀접하게 관련 있는 부분에 주목한다.

 

가. Attention 문제점

 

하나의 어텐션에 많은 단어를 입력받으면 성능이 하락한다.

 

나. 해법

다수의 어텐션을 사용해서 입력된 시퀀스의 범위를 세밀하게 나눈다. 생성된 다수의 context를 취합해서 최종적으로 하나의 컨텍스트를 산출한다.
→ 트랜스포머 아키텍처

 


3. 트랜스포머

 

 

인코더와 디코더가 있음.

 

멀티헤드 어텐션을 사용해서 보다 성능 좋은 context를 작성한다.

 

Seq2Seq와 달리 RNN을 사용하지 않는다.

 

RNN의 시간펼침망은 FNN과 같음을 이용해서 트랜스포머의 인코더와 디코더는 시퀀스를 한 번에 처리한다.

 

때문에 토큰의 위치 정보를 부여하기 위해서 인코더는 PE(Positioning encoding)를 별도로 필요로 한다.

 

가. 트랜스포머 기반

  • BERT : 트랜스포머의 인코더를 사용
  • GPT : 트랜스포머의 디코더를 사용

 


'학부 강의 > AI 입문' 카테고리의 다른 글

2023-01-04 AI입문_13  (0) 2023.01.04
2023-01-04 AI입문_11  (0) 2023.01.04
2023-01-02 AI입문_10  (0) 2023.01.02
2022-11-13 AI입문_9  (0) 2022.11.13
2022-11-07 AI입문_8  (0) 2022.11.08