在最近的一項研究中,Google的研究人員提出了“有效學習一種對令牌替換進行準確分類的編碼器”(ELECTRA),這是一種AI語言訓練技術,在具有相同數(shù)量的計算資源的情況下,其性能優(yōu)于現(xiàn)有方法。在發(fā)布數(shù)月后的這一周,合著者發(fā)布了TensorFlow的代碼庫(和預訓練的模型),為強大的模型奠定了基礎,這些模型能夠以最先進的精度執(zhí)行語言任務。這些模型可能有一天會進入客戶服務聊天機器人,或者可能被合并到為執(zhí)行團隊總結報告的工具中。
預訓練方法通常分為兩類:語言模型(例如OpenAI的GPT),該模型從左到右處理輸入文本并根據(jù)給定的上下文預測下一個單詞;以及屏蔽語言模型(例如Google的BERT和ALBERT以及Facebook的語言模型)RoBERTa),它可以預測輸入中被掩蓋的少量單詞的身份。屏蔽語言模型的優(yōu)勢在于,它們可以“看到”要預測的令牌(即單詞)左右兩側的文本,但是它們的預測僅限于輸入令牌的一小部分,從而減少了學習量從每個句子。
ELECTRA的秘密秘訣是一項稱為替換令牌檢測的預訓練任務,它可以在從所有輸入位置學習的同時訓練雙向模型(就像被屏蔽的語言模型一樣),就像語言模型一樣。該區(qū)分模型的任務是區(qū)分“真實”和“偽造”輸入數(shù)據(jù)。ELECTRA通過將一些令牌替換為不正確的偽造偽造來“破壞”輸入,但在某種程度上看來是偽造的,然后需要模型來確定哪些令牌已被替換或保持不變。
替換令牌來自另一個稱為生成器的AI模型。生成器可以是在令牌上產(chǎn)生輸出分布的任何模型,但是Google研究人員使用了與鑒別器一起訓練的小型屏蔽語言模型。生成器和鑒別器共享相同的輸入詞嵌入。在預訓練階段之后,將生成器放下,并在各種下游任務上微調鑒別器(ELECTRA模型)。