Google的AI使用更少的計算和數(shù)據(jù)來訓(xùn)練最先進(jìn)的語言模型

在最近的一項研究中，Google的研究人員提出了“有效學(xué)習(xí)一種對令牌替換進(jìn)行準(zhǔn)確分類的編碼器”(ELECTRA)，這是一種AI語言訓(xùn)練技術(shù)，在具有相同數(shù)量的計算資源的情況下，其性能優(yōu)于現(xiàn)有方法。在發(fā)布數(shù)月后的這一周，合著者發(fā)布了TensorFlow的代碼庫(和預(yù)訓(xùn)練的模型)，為強大的模型奠定了基礎(chǔ)，這些模型能夠以最先進(jìn)的精度執(zhí)行語言任務(wù)。這些模型可能有一天會進(jìn)入客戶服務(wù)聊天機(jī)器人，或者可能被合并到為執(zhí)行團(tuán)隊總結(jié)報告的工具中。

預(yù)訓(xùn)練方法通常分為兩類：語言模型(例如OpenAI的GPT)，該模型從左到右處理輸入文本并根據(jù)給定的上下文預(yù)測下一個單詞;以及屏蔽語言模型(例如Google的BERT和ALBERT以及Facebook的語言模型)RoBERTa)，它可以預(yù)測輸入中被掩蓋的少量單詞的身份。屏蔽語言模型的優(yōu)勢在于，它們可以“看到”要預(yù)測的令牌(即單詞)左右兩側(cè)的文本，但是它們的預(yù)測僅限于輸入令牌的一小部分，從而減少了學(xué)習(xí)量從每個句子。

ELECTRA的秘密秘訣是一項稱為替換令牌檢測的預(yù)訓(xùn)練任務(wù)，它可以在從所有輸入位置學(xué)習(xí)的同時訓(xùn)練雙向模型(就像被屏蔽的語言模型一樣)，就像語言模型一樣。該區(qū)分模型的任務(wù)是區(qū)分“真實”和“偽造”輸入數(shù)據(jù)。ELECTRA通過將一些令牌替換為不正確的偽造偽造來“破壞”輸入，但在某種程度上看來是偽造的，然后需要模型來確定哪些令牌已被替換或保持不變。

替換令牌來自另一個稱為生成器的AI模型。生成器可以是在令牌上產(chǎn)生輸出分布的任何模型，但是Google研究人員使用了與鑒別器一起訓(xùn)練的小型屏蔽語言模型。生成器和鑒別器共享相同的輸入詞嵌入。在預(yù)訓(xùn)練階段之后，將生成器放下，并在各種下游任務(wù)上微調(diào)鑒別器(ELECTRA模型)。