A.I/NLP1 Attention Is All you Need - Transformer IDEA BERT의 주요 네트워크로 사용되고 있는 Attention Trasformer이다. 논문 저자는 기존 RNN베이스 모델에 대해서 많은 회의감을 느끼는 것 같다. 그렇다면 이 논문에서 RNN의 어떤 점을 안좋게 보았으며, RNN의 단점을 어떻게 보완했을까? RNN의 단점 RNN의 구조를 보면 하나의 직렬로 이루어진 Network이다. 그래서 병렬처리가 되지 않는다. RNN은 오래 전에 학습된 데이터에 대해서는 유추하기 어렵다. long term dependencies RNN은 한방향에 대해서 밖에 유추 할 수 없다. Attention Trasformer의 장점 병렬처리가 가능하다. RNN처럼 직전의 input을 보는 유추하는 것이 아닌 전체 데이터에서 가장 가능성이 높은 것을 선택한다. 2번의 이.. 2020. 8. 30. 이전 1 다음