为什么transformer的FFN需要先升维再降维?
Top