中國(guó)信息通信研究院近日發(fā)布了《人工智能白皮書(2022年)》,白皮書指出人工智能進(jìn)入了新的發(fā)展階段,將向技術(shù)創(chuàng)新、工程實(shí)踐、可信安全”三維”坐標(biāo)來(lái)定義和牽引。算法、算力和數(shù)據(jù)被認(rèn)為是人工智能發(fā)展的三駕馬車。在算法層面,超大規(guī)模預(yù)訓(xùn)練模型成為近兩年最受關(guān)注的熱點(diǎn)之一,不斷刷新各個(gè)記錄,其中百度ERNIE3.0模型在自然語(yǔ)言理解任務(wù)的綜合評(píng)分(GLUE)已達(dá)90%以上,高居世界第一。
01
人工智能發(fā)展歷史
1941年世界第一臺(tái)計(jì)算機(jī)誕生15年后,香農(nóng)、赫伯特 西蒙等大佬參加的”達(dá)特茅斯會(huì)議”第一次出現(xiàn)了人工智能這個(gè)術(shù)語(yǔ),被認(rèn)為是人工智能的正式誕生。第一個(gè)人工智能的浪潮,科學(xué)家們雄心勃勃,希望寫出偉大的算法來(lái)模擬人類的思想過(guò)程。但是算力的問(wèn)題導(dǎo)致設(shè)計(jì)再精妙的算法也算不動(dòng)。在沉寂十年時(shí)候,算力推動(dòng)了第二波人工智能的浪潮,1982年日本和美國(guó)都投入巨資研發(fā)第五代計(jì)算機(jī)即”人工智能計(jì)算機(jī)”,希望一舉突破人工智能在算力上的限制。僅僅幾年后,科學(xué)家們發(fā)現(xiàn)即使芯片按照摩爾定律的速度發(fā)展仍然滿足不了算力的要求,但是沒(méi)有數(shù)據(jù)輸入到算法,導(dǎo)致第二波人工智能浪潮也沉寂了。
得益于深度學(xué)習(xí)等算法的突破、算力的不斷提升和海量數(shù)據(jù)的持續(xù)積累,人工智能得以真正的從實(shí)驗(yàn)室走向產(chǎn)業(yè)實(shí)踐。2016年的阿爾法狗擊敗了圍棋世界冠軍李世石,代表了新一代的人工智能,依賴機(jī)器學(xué)習(xí)就可以自成大師,甚至能自創(chuàng)人類經(jīng)驗(yàn)中從來(lái)沒(méi)有的新棋路,深度學(xué)習(xí)實(shí)現(xiàn)了人工智能的一次飛躍。
02
預(yù)訓(xùn)練是什么
如果我們把人工智能算法模型的能力用高中水平、大學(xué)水平類比的話,之前為了訓(xùn)練一個(gè)領(lǐng)域的模型,我們需要從幼兒園開(kāi)始訓(xùn)練,直至到該領(lǐng)域的水平才行,比如需要訓(xùn)練到大學(xué)水平。這個(gè)訓(xùn)練的周期會(huì)很長(zhǎng),同時(shí)意味著付出的成本也較高。
預(yù)訓(xùn)練是將大規(guī)模低成本獲取的訓(xùn)練數(shù)據(jù)放到一起,通過(guò)預(yù)訓(xùn)練的方法來(lái)學(xué)習(xí)某種共性,比如達(dá)到了高中水平。如果某個(gè)領(lǐng)域需要大學(xué)生水平的模型,那么就需要根據(jù)該領(lǐng)域的特殊標(biāo)記數(shù)據(jù)進(jìn)行微調(diào),從而產(chǎn)生該領(lǐng)域的特殊模型,高中水平的模型即大模型。
要想訓(xùn)練出一個(gè)大模型,除了算法,還需要超大規(guī)模的數(shù)據(jù)與超大規(guī)模的算力,意味著需要花費(fèi)非常多的錢,一般只有大廠才可以做大模型。
03
預(yù)訓(xùn)練顯著降低了人工智能應(yīng)用的門檻
以深度學(xué)習(xí)為代表的算法拉開(kāi)了人工智能浪潮的序幕,在計(jì)算機(jī)視覺(jué)、智能語(yǔ)音、自然語(yǔ)言處理等領(lǐng)域廣泛應(yīng)用,相繼超過(guò)了人類識(shí)別水平。
預(yù)訓(xùn)練出現(xiàn)前,大規(guī)模深度學(xué)習(xí)的在自然語(yǔ)言處理領(lǐng)域的應(yīng)用門檻相對(duì)還是比較高,模型效果非常強(qiáng)依賴個(gè)人的能力。預(yù)訓(xùn)練模型能夠極大的降低這個(gè)環(huán)節(jié)的成本和門檻。預(yù)訓(xùn)練模型使得模型的訓(xùn)練可以被復(fù)用,也就大幅度降低了訓(xùn)練的成本,比如我們基于通用大模型可以低成本的擴(kuò)展出金融領(lǐng)域的專用模型。預(yù)訓(xùn)練模型是一種遷移學(xué)習(xí)的應(yīng)用,對(duì)句子每一個(gè)成員的上下文進(jìn)行相關(guān)的表示,通過(guò)隱式的方式完成了語(yǔ)法語(yǔ)義知識(shí)的學(xué)習(xí)。預(yù)訓(xùn)練模型幾乎在所有的自然語(yǔ)言處理任務(wù)中都取得了不錯(cuò)的成績(jī),同時(shí)預(yù)訓(xùn)練模型通過(guò)微調(diào)的方式具備很強(qiáng)的擴(kuò)展性,每次在擴(kuò)展到新場(chǎng)景時(shí),只需要針對(duì)這個(gè)場(chǎng)景的特定標(biāo)注數(shù)據(jù)進(jìn)行定向的學(xué)習(xí),便可以快速的在這個(gè)場(chǎng)景進(jìn)行應(yīng)用,對(duì)機(jī)器學(xué)習(xí)人員的要求大大降低。
對(duì)大模型在產(chǎn)研實(shí)踐感興趣或者有需求的同學(xué),可以去百度文心官方閱讀更多學(xué)習(xí)資料,上手工具來(lái)開(kāi)始大模型之旅。官方地址:https://wenxin.baidu.com/
04
預(yù)訓(xùn)練大模型為什么可以得到快速應(yīng)用
整體來(lái)說(shuō),大模型在過(guò)去兩年得到了快速的發(fā)展,也在工業(yè)界得到了快速的應(yīng)用。雖然深度學(xué)習(xí)使得很多領(lǐng)域的準(zhǔn)確率得到很大的提升,但是AI模型目前存在很多挑戰(zhàn),最首要的問(wèn)題是模型的通用性不高,每個(gè)模型都是針對(duì)特定的某個(gè)領(lǐng)域進(jìn)行訓(xùn)練的,應(yīng)用到其他領(lǐng)域的時(shí)候,效果并不好。
1. 模型碎片化,大模型提供預(yù)訓(xùn)練方案
大模型提供了一種通用化的解決方案,通過(guò)“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”的方式,可以有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識(shí),極大地?cái)U(kuò)展了模型的泛化能力。例如,在NLP領(lǐng)域,預(yù)訓(xùn)練大模型共享了預(yù)訓(xùn)任務(wù)和部分下游任務(wù)的參數(shù),在一定程度上解決了通用性的難題,可以被應(yīng)用于翻譯,問(wèn)答,文本生成等自然語(yǔ)言任務(wù)。
2. 通過(guò)自監(jiān)督學(xué)習(xí)功能,降低訓(xùn)練研發(fā)成本
大模型的自監(jiān)督學(xué)習(xí)方法,可以減少數(shù)據(jù)標(biāo)注,在一定程度上解決了人工標(biāo)注成本高、周期長(zhǎng)、準(zhǔn)確度不高的問(wèn)題。由于減少了數(shù)據(jù)標(biāo)準(zhǔn)的成本,使得小樣本的學(xué)習(xí)也能達(dá)到比以前更好的能力,并且模型參數(shù)規(guī)模越大,優(yōu)勢(shì)越明顯,避免開(kāi)發(fā)人員再進(jìn)行大規(guī)模的訓(xùn)練,使用小樣本就可以訓(xùn)練自己所需模型,極大降低開(kāi)發(fā)使用成本。
3. 大模型有望進(jìn)一步突破現(xiàn)有模型結(jié)構(gòu)的精度局限
從深度學(xué)習(xí)發(fā)展的歷程來(lái)看,模型精度提升,主要依賴網(wǎng)絡(luò)在結(jié)構(gòu)上的變革。隨著神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)技術(shù),逐漸成熟并趨于收斂,想要通過(guò)優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從而打破精度局限非常困難。近年來(lái),隨著數(shù)據(jù)規(guī)模和模型規(guī)模的不斷增大,模型精度也得到了進(jìn)一步提升,模型和數(shù)據(jù)規(guī)模的增大確實(shí)能突破現(xiàn)有精度的一個(gè)局限。
05
預(yù)訓(xùn)練的三個(gè)發(fā)展趨勢(shì)
整個(gè)預(yù)訓(xùn)練模型也在快速的發(fā)展中,整體有三個(gè)大的發(fā)展趨勢(shì)。第一是模型越來(lái)越大,整個(gè)Transformer的層數(shù)越來(lái)越多,整體的能力也會(huì)越來(lái)越強(qiáng),當(dāng)然帶來(lái)的訓(xùn)練成本也是越來(lái)越高。第二個(gè)趨勢(shì)是訓(xùn)練的方法越來(lái)越多,包含各種自動(dòng)的編碼和多任務(wù)訓(xùn)練。第三個(gè)是向多模態(tài)不斷演進(jìn),從最開(kāi)始的只學(xué)習(xí)文本數(shù)據(jù)到聯(lián)合學(xué)習(xí)文本和圖像,現(xiàn)在可以處理文本、圖像、語(yǔ)音等多模態(tài)數(shù)據(jù),相信會(huì)有更多語(yǔ)言、更多類型數(shù)據(jù)的大模型會(huì)不斷涌現(xiàn),這也是實(shí)現(xiàn)人工智能通用化的有益探索。