Thursday, June 8, 2017

Word Embedding

Why

機器只懂0和1,看不懂單字,如何'有效'的表達單字變成解決目標。

What

大概常見的方法:
  1. one of n
    就是所謂one hot vector [0, 0, 1, 0, ..., 0],每個維度表示不同單字。
  2. counting-based
    去計算單字出現的頻率來編碼
  3. prediction-based
    去計算前後文出現的機率來編碼 
    1. 直覺
      舉例兩個句子,'蘋果' '很甜','鳳梨' '很甜','蘋果'和'鳳梨'編碼後的結果應該會非常接近,因為他們後面接的單字都是 '很甜'
    2. 作法
      可透過NN來實作,舉例input X是one of n vector,output是該X前後文單字的one of n vector,training後,NN其中的hidden layer取出,當成encoder。之後任何的單字都可以透過該hidden layer來進行編碼)

No comments:

Post a Comment