
[딥러닝 논문 리뷰]Attention Is All You Need 논문 리뷰 (Transformer)
·
Data Science/딥러닝 논문 리뷰
Abstact 기존의 주요 시퀀스 변환 모델들은 복잡한 RNN(순환 신경망)이나 CNN(합성곱 신경망)을 기반으로 하며, 인코더와 디코더를 포함.기존의 가장 성능이 좋은 시퀀스 변환 모델들 또한 인코더와 디코더를 Attention 메커니즘을 통해 연결하는 구조.이 저자들은 RNN, CNN을 완전히 배제하고 Attention을 기반으로 한 Transformer모델을 제안.Transformer 모델은 더 좋은 품질, 더 좋은 병렬성, 더 짧은 학습시간을 자랑하며 SOTA (State Of The Art)모델에 등극. (WMT 2014 Englishto-German translation, WMT 2014 English-to-French translation)1. Introduction 기존 RNN계열 모델들의..