Why
機器只懂0和1,看不懂單字,如何'有效'的表達單字變成解決目標。
What
大概常見的方法:
- one of n
就是所謂one hot vector [0, 0, 1, 0, ..., 0],每個維度表示不同單字。 - counting-based
去計算單字出現的頻率來編碼 - prediction-based
去計算前後文出現的機率來編碼 - 直覺
舉例兩個句子,'蘋果' '很甜','鳳梨' '很甜','蘋果'和'鳳梨'編碼後的結果應該會非常接近,因為他們後面接的單字都是 '很甜' - 作法
可透過NN來實作,舉例input X是one of n vector,output是該X前後文單字的one of n vector,training後,NN其中的hidden layer取出,當成encoder。之後任何的單字都可以透過該hidden layer來進行編碼)
No comments:
Post a Comment