對于昨日 GPT-4 的意外發(fā)布,相信多數(shù)人都有如下想法:
1、多模態(tài)大模型 GPT-4 真的很強(qiáng)大!
2、恰好趕在了文心一言發(fā)布前夕,百度要如何應(yīng)對壓力?
蓄勢了一個多月,承載著無數(shù)人或期盼或好奇的目光,“國產(chǎn)版 ChatGPT”「文心一言」今天終于正式亮相!
“「文心一言」并不完美,大家想要將其對標(biāo) ChatGPT,甚至是 GPT-4,但放眼全球大廠,百度是第一個做出來并真正發(fā)布出來的”,李彥宏說道。
“十月懷胎,一朝分娩”,那么接下來,就讓我們開始這場萬眾期待的震撼發(fā)布,共同揭開「文心一言」的神秘面紗。
百度在大廠中第一個做出來的「文心一言」,實力幾何?
在發(fā)布會伊始,對于外界頻頻問及的“為什么現(xiàn)在發(fā)布,百度是否真的做好了準(zhǔn)備”等疑問,百度 CEO 李彥宏在開場進(jìn)行了回應(yīng):
“過去多年,百度一直在進(jìn)行 AI 技術(shù)的研究與研發(fā)。文心大模型首個版本在 2019 年便已發(fā)布,文心一言只是過去多年研發(fā)成果的延續(xù)。之所以現(xiàn)在發(fā)布,是因為現(xiàn)在市場有強(qiáng)烈的需求,包括百度從搜索、智能云到自動駕駛,再到客戶、用戶,都需要這樣的技術(shù)。同時,大模型只有發(fā)布了,才會有用戶反饋,只有通過不斷地反饋,才能加速模型自身的迭代?!?/p>
緊接著,李彥宏就帶著 5 個 Demo “炸場”,讓大眾一飽眼福。
(1)多模態(tài)生成
如果說昨日 GPT-4 帶著多模態(tài)出現(xiàn),用一張草圖生成一個網(wǎng)站,讓眾多程序員感到驚艷,那么今天的「文心一言」在覆蓋多種模態(tài)方面做得更為全面,可用文字生成圖片、音頻(方言)、視頻等多個維度。
不過目前,由于生成視頻的成本比較高,百度尚未對所有用戶開放,未來會逐步接入。
(2)數(shù)理推算
「文心一言」還具備了一定的思維能力,能學(xué)會數(shù)學(xué)推演及邏輯推理等相對復(fù)雜任務(wù)。面對“雞兔同籠”這類鍛煉人類邏輯思維的經(jīng)典題,「文心一言」能理解題意,并有正確的解題思路,進(jìn)而像學(xué)生做題一樣,按正確的步驟,一步步算出正確答案。
同樣,現(xiàn)階段「文心一言」在這方面準(zhǔn)確率并不是 100%:“我們還需要給它更多的時間來學(xué)習(xí)和成長?!?nbsp;
(3)文學(xué)創(chuàng)作
在回答事實性問題時,生成式 AI 產(chǎn)品時常會出錯,而「文心一言」延續(xù)了百度知識增強(qiáng)的大模型理念,大幅度提升了事實性問題的準(zhǔn)確率。不論是總結(jié)《三體》的核心內(nèi)容還是續(xù)寫《三體》,「文心一言」都展現(xiàn)了其優(yōu)越的總結(jié)分析能力和內(nèi)容創(chuàng)作生成能力。
(4)中文理解
作為扎根于中國市場的大語言模型,「文心一言」具備中文領(lǐng)域最先進(jìn)的自然語言處理能力,甚至可以理解“洛陽紙貴”并寫出“藏頭詩”。
「文心一言」能在中文領(lǐng)域領(lǐng)跑,相對應(yīng)的,它對英文語種、代碼場景的訓(xùn)練還不夠多,這也是百度接下來加緊訓(xùn)練和完善的方向。
(5)商業(yè)文案創(chuàng)作
在商業(yè)文案創(chuàng)作上,「文心一言」也可以幫企業(yè)起名字、寫 Slogan、寫新聞稿等。
AI 要寫好一篇稿子,除了要能準(zhǔn)確理解用戶意圖,還要有清晰的表達(dá)能力——這背后有一個必要基礎(chǔ),那就是龐大的數(shù)據(jù)規(guī)模?!肝男囊谎浴沟挠?xùn)練數(shù)據(jù)包括萬億級網(wǎng)頁數(shù)據(jù),數(shù)十億搜索數(shù)據(jù)和圖片數(shù)據(jù),百億級語音日均調(diào)用數(shù)據(jù),以及 5500 億事實的知識圖譜?;诖?,李彥宏指出:“這讓百度在中文語言的處理上,能夠處于獨一無二的位置。”
背后的技術(shù)
百度 CTO 王海峰表示,「文心一言」是新一代知識增強(qiáng)大語言模型,是在 ERNIE 及 PLATO 系列模型的基礎(chǔ)上研發(fā)的。
早在 2019 年 3 月,百度就發(fā)布了文心大模型 ERNIE 1.0,當(dāng)時的文心 ERNIE 已經(jīng)用上了知識增強(qiáng)的概念。同年 12 月,ERNIE 在自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集 GLUE 中登頂榜首,以 9 個任務(wù)平均得分首次突破 90 大關(guān)刷新該榜單歷史。到了 2021 年,ERNIE 迭代至 3.0 版本,并刷新了 54 個中文 NLP 任務(wù)基準(zhǔn),其英文模型在國際權(quán)威的復(fù)雜語言理解任務(wù)評測 SuperGLUE 上,以超越人類水平 0.8% 的成績登頂全球榜首。
百度研發(fā)的文心 PLATO 更是全球領(lǐng)先的開放域?qū)υ挻竽P?,具備多輪流暢的聊天能力,并讓對話具有人格屬性,包括人設(shè)穩(wěn)定性、知識增強(qiáng)、跨模態(tài)對話、情感撫慰、主動對話、長期記憶等。
王海峰指出,「文心一言」的關(guān)鍵技術(shù)包括有監(jiān)督精調(diào)、人類反饋的強(qiáng)化學(xué)習(xí)、提示、知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)。前三項是這類大語言模型都會采用的技術(shù),ERNIE 和 PLATO 中也已經(jīng)有應(yīng)用和積累,在「文心一言」中又有了進(jìn)一步強(qiáng)化和打磨;后三項則是百度已有技術(shù)優(yōu)勢的再創(chuàng)新,也是「文心一言」未來越來越強(qiáng)大的基礎(chǔ)。
李彥宏預(yù)測大模型時代的三大產(chǎn)業(yè)機(jī)會
微軟引入 OpenAI 的 ChatGPT API 接口之后,緊接著便推出了新版 Bing,Google 也發(fā)布了 Bard 大模型,欲開啟屬于人工智能時代的搜索引擎競爭。那么對于百度而言,「文心一言」的到來,會有什么樣的不同?
在李彥宏看來,「文心一言」能夠影響的不僅僅是搜索或者互聯(lián)網(wǎng)公司,而是會影響到每一家公司。他表示,“生成式AI,將催生新產(chǎn)品、新業(yè)態(tài),會有很多創(chuàng)業(yè)和投資機(jī)會。對于大部分創(chuàng)業(yè)者和企業(yè)來說,真正的機(jī)會并不是從頭開始做 ChatGPT 和文心一言這樣的基礎(chǔ)大模型,這很不現(xiàn)實,也不經(jīng)濟(jì)。”
為此,李彥宏也針對大模型時代,做了三大產(chǎn)業(yè)機(jī)會預(yù)測:
第一類是新型云計算公司,其主流商業(yè)模式從 IaaS 變?yōu)?MaaS。「文心一言」,將根本性地改變云計算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠商更多看算力、存儲等基礎(chǔ)云服務(wù)。未來,更多會看框架好不好、模型好不好,以及模型、框架、芯片、應(yīng)用這四層之間的協(xié)同。
「文心一言」將通過百度智能云對外提供服務(wù),幫助企業(yè)構(gòu)建自己的模型和應(yīng)用,農(nóng)業(yè)、工業(yè)、金融、教育、醫(yī)療、交通、能源等重點領(lǐng)域,都會因此效率大幅提升,并在每一個行業(yè)快速形成新的產(chǎn)業(yè)空間,助力數(shù)字中國的實現(xiàn)。百度智能云將于近期舉辦新聞發(fā)布會。主題圍繞文心一言的云服務(wù)和應(yīng)用產(chǎn)品,我們既有公有云服務(wù)和也可以做私有化部署,請大家期待。
第二類是進(jìn)行行業(yè)模型精調(diào)的公司,這是通用大模型和企業(yè)之間的中間層,他們具有行業(yè) Konwhow,調(diào)用通用大模型能力,為行業(yè)客戶提供解決方案。我們的文心大模型,已經(jīng)在電力、金融、媒體等領(lǐng)域,發(fā)布了 10 多個行業(yè)大模型。在各行各業(yè)都有機(jī)會。非常歡迎大家來跟我們合作。
第三類是基于大模型底座進(jìn)行應(yīng)用開發(fā)的公司,即應(yīng)用服務(wù)提供商。今天,基于文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D 等場景,已經(jīng)涌現(xiàn)出很多創(chuàng)業(yè)明星公司,他們可能就是未來的新巨頭。這里面的機(jī)會非常多,可以說每家企業(yè)在現(xiàn)在這個階段都有機(jī)會。
李彥宏表示,“我們相信,人工智能會徹底改變我們今天的每一個行業(yè)。AI 的長期價值,對各行各業(yè)的顛覆性改變,才剛剛開始。未來,將會有更多的殺手級應(yīng)用、現(xiàn)象級產(chǎn)品出現(xiàn),將會有更多的里程碑事件發(fā)生?!?/p>
「文心一言」將陸續(xù)開放
當(dāng)前,百度表示,3 月 16 日起,首批用戶即可通過邀請測試碼,在文心一言官網(wǎng)體驗產(chǎn)品,后續(xù)將陸續(xù)開放給更多用戶。此外,今日起,百度智能云面向企業(yè)客戶開放「文心一言」 API 接口調(diào)用服務(wù)(https://cloud.baidu.com/survey_summit/wenxin.html?track=C896034 )的預(yù)約。
最后,對于「文心一言」的發(fā)布,我們也詢問了一下 ChatGPT 的看法,不過在其答案中,有些數(shù)據(jù)存在一定偏差。
整體而言,正如李彥宏所說,目前的「文心一言」并不完美,這類大語言模型也還遠(yuǎn)未到發(fā)展完善的階段。但未來這段時間,它一定會飛速發(fā)展,日新月異。
那么你對于「文心一言」的發(fā)布,又有什么想說的呢?