[학부연구생 일지] 10월 29일 세미나 summary
Part 1. 논문소개
논문 : Self Attention with Relative Position Representation works
요약
Attention is All you need 논문의 다음편 논문이다.
Transformer의 초기 모델은 absolute positional encoding 방식을 사용하였는데, 본 논문에서 소개되는 Transformer 논문은 Relative Positional Encoding(RPR)을 이용한다.
위 논문에서 embedding을 할 때는 기존모델과 달리 embedding matrix와 embedding look up table을 참고하여 변환한다. 예를 들면 5단어로 구성된 문장은 한 개의 단어를 기준으로 좌우로 4개의 단어와의 어텐션(관련성)을 탐색하여 embedding look up table을 작성한다. 이 때 좌우에 3개 이하의 단어가 존재하는 경우는 0으로 padding 하여 저장한다.
추가 참고 사이트 :
https://studywithmason.tistory.com/9
Part 2. 논문소개
논문 : DECA : Deep viewpoint - Equivariant human pose estimation using Capsule Autoencoders
깃허브 : https://github.com/mmlab-cv/DECA.
Abstract 번역 요약
: 인간 자세 추정(Human Pose Estimation)은 이미지 또는 비디오에서 인관 관절의 입체적인 위치를 검색하여 이루어진다. 기존 딥러닝 방법은 훈련에서 볼 수 없는 관점을 다룰 때 서투르며 관점을 일반화하여 제시하지 못하는 데이터 의존성이라는 문제점을 지닌다.
이를 해결하기 위해 DECA 네트워크를 이용한다. 이는 빠른 Variational Bayes 캡슐 라우팅을 가지는 새로운 캡슐 autoencoder 네트워크이다. 각 접합부를 캡슐로 모델링하여 관절의 계층 구조 및 기하학적 구조를 유지한다. 관점 등분산을 통해 보이지 않는 관점에 대해서 일반화시킬 수 있다.
Part 3. 논문 소개
논문 : XLNet : Generalized Autoregressive Pretraining for Language
요약
Auto Regressive Model은 단방향 문맥만 고려가능하다. BERT는 AutoEncoder 중 하나로, 양방향 문잭 고려가 가능한 대신, 주어진 input에 대해 그대로 예측한다.
본 논문에서 소개하는 XLNet은 Auto Regressive Model과 AutoEncoder의 장점만을 따온, 양방향으로 문맥을 고려하는 auto regressive model이다.
XLNet의 가장 큰 특징은 바로 Permutation Language Modeling이다. 문장 내에서 단어들의 모든 가능한 순열을 고려하여 attention을 구하는 것이다. 이를 통해 모든 경우의 문맥을 고려하여 문장 내 단어들의 어텐션을 잘 구할 수 있다.
추가 참고 사이트 :
https://blog.pingpong.us/xlnet-review/https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-28173b8c245a