百度發(fā)布文心一言時間(百度發(fā)布文心一言4.0)
原標題:百度發(fā)布《文心一言》,李彥宏回應為何現(xiàn)在發(fā)布:市場需求旺盛
·李彥宏表示,大家的期望是對標ChatGPT,甚至GPT-4。這個門檻還是很高的。在全球各大廠商中,百度是第一個“發(fā)布”的。他表示,《文心一言》內(nèi)測并不完善,之所以現(xiàn)在發(fā)布,是因為市場有旺盛的需求。
“從文心一言的表現(xiàn)來看,它在一定程度上具備了理解人類意圖的能力,其回答的準確性、邏輯性、流暢性正在逐漸接近人類水平。但總體而言,這類大型語言模型還遠遠沒有達到人類的水平?!蓖耆l(fā)育”。
3月16日,百度正式發(fā)布大型語言模型及生成式AI產(chǎn)品“文心一言”。百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏、首席技術(shù)官王海峰出席發(fā)布會。李彥宏在文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)學計算、中文理解、多模態(tài)生成五個使用場景中展示了文心一言的綜合能力。
“生成式人工智能代表了一種新的技術(shù)范式,是任何公司都不應錯過的巨大機遇?!崩顝┖瓯硎荆斑@段時間一直有人問我,為什么現(xiàn)在才發(fā)布?你真的準備好了嗎?事實上,百度文心在過去十年里一直在持續(xù)投入人工智能研發(fā)。第一“文心一言的版本于2019年發(fā)布,此后每年都會發(fā)布新版本。從這個意義上說,文心一言的推出只是我們多年來努力的自然延續(xù)?!?/p>
李彥宏表示,大家的期望是對標ChatGPT,甚至是GPT-4。這個門檻還是很高的。在全球各大廠商中,百度是第一個“發(fā)布”的。他表示,《文心一言》內(nèi)測并不完善,之所以現(xiàn)在發(fā)布,是因為市場有旺盛的需求。它的定位是通用大型車型。
李彥宏認為,多模態(tài)是生成式人工智能明顯的發(fā)展趨勢。未來,隨著百度多模態(tài)統(tǒng)一大模型能力的增強,聞心一言的多模態(tài)生成能力也將不斷提升。大模型將帶來三大產(chǎn)業(yè)機會:新型云計算、產(chǎn)業(yè)模型微調(diào)、應用開發(fā)。
發(fā)布會召開時,截至14點22分,百度集團(09888.HK)股價下跌近10%至120.5港元/股。
演示五個場景下的能力
發(fā)布會上,百度播放了“文心藝言”的演示視頻。以下為實際演示錄音。
創(chuàng)意寫作
問題:
·《三體》的作者來自哪里?
·你能總結(jié)一下《三體》的核心內(nèi)容嗎?如果你想繼續(xù)寫,可以從哪些角度開始?
·如何從哲學角度繼續(xù)寫作?
·電視劇《三體》的演員有哪些?
·于和偉和張魯一有什么共同點?
·于和偉和張魯一誰更高?
李彥宏:剛才的演示中,“總結(jié)三體核心內(nèi)容”體現(xiàn)了文心一言的總結(jié)分析能力。繼續(xù)寫《三體》,體現(xiàn)內(nèi)容創(chuàng)作和生成的能力。
《三體》的作者是誰?他從哪里來的?電視劇《三體》的演員有哪些?溫心一言的回答是正確的。如您所知,生成式人工智能等產(chǎn)品在回答事實問題時有時會出錯。文心一言延續(xù)了百度的知識增強大模型理念,大大提高了事實題的準確率。
于和偉和張魯一有什么共同點?于和偉和張魯一誰更高?這類問題的背后,體現(xiàn)的是溫心一言的推理能力。例如,它需要知道兩個人的確切身高才能得到正確的答案。
商業(yè)文案
問題:
·如果你想成立一家用大模式服務中小企業(yè)數(shù)字化升級的科技服務公司,你可以選擇什么公司名稱?
·數(shù)智云圖名字起得好。給我一個公司服務口號,表達雙贏的理念。
·幫我制作一份關(guān)于公司成立的新聞稿。數(shù)智云以大模式,以共贏的服務理念服務中小企業(yè)數(shù)字化升級。字數(shù)為600字。
李彥宏:剛才的演示展示了文心一言的連續(xù)三場內(nèi)容創(chuàng)作。
AI要想寫好稿子,不僅需要準確理解我們的意圖,還需要具備清晰表達意圖的能力。
這背后有一個基礎,那就是龐大的數(shù)據(jù)規(guī)模。人類常說“讀萬卷書”,而AI則可以說“讀萬卷書”。文心一言大模型的訓練數(shù)據(jù)包括萬億級網(wǎng)頁數(shù)據(jù)、數(shù)十億搜索數(shù)據(jù)和圖像數(shù)據(jù)、數(shù)百億日常語音通話數(shù)據(jù)以及5500億事實的知識圖譜等,這使得百度能夠在在處理中文方面具有獨特的地位。
研究表明,如果數(shù)據(jù)規(guī)模足夠大,參數(shù)達到千億級,大型模型中可能會出現(xiàn)“智能涌現(xiàn)”,即使在沒有經(jīng)過專門訓練的領(lǐng)域也能出現(xiàn)知識理解和邏輯推理能力。
數(shù)理邏輯計算任務
問題:
·我們來玩雞和兔同籠游戲吧。雞有2條腿和1個頭,兔子有4條腿和1個頭。那么,如果一個籠子里有9個頭、40只腳,那么應該有多少只雞和兔子呢?
·我們來玩雞和兔同籠游戲吧。雞有2條腿和1個頭,兔子有4條腿和1個頭。那么,如果一個籠子里有9個頭,30個腳,那么應該有多少只雞和兔子呢?
李彥宏:關(guān)于第一個問題,溫心一言計算了一下,認為這個問題可能有錯誤。對于第二個問題,文心一言不僅給出了正確的結(jié)果,還給出了解決問題的詳細步驟??梢钥闯?,文心一言能夠理解題意,有正確的解題思路,然后像學生做題一樣,按照正確的步驟一步步算出正確答案。
溫心一言已經(jīng)具備了一定的思維能力,可以學習數(shù)學推演、邏輯推理等相對復雜的任務。當然,現(xiàn)階段準確率還不是100%,我們需要給它更多的時間來學習和成長。
中文理解能力
問題:
·“洛陽紙貴”是什么意思?
·當時洛陽的紙張有多貴?
·這個習語在現(xiàn)行經(jīng)濟原理中對應的理論是什么?
·用“洛陽志貴”四個字寫一首藏頭詩。
李彥宏:“洛陽紙貴”和“藏頭詩”,考驗AI對中文和中國文化的理解。
作為植根于中國市場的大型語言模型,文心一言擁有中文領(lǐng)域最先進的自然語言處理能力。這個例子清楚地展示了我們中文的優(yōu)勢。
相應地,一言目前在英語語言和編碼場景方面的訓練還不夠,表現(xiàn)也不夠好。下一步,我們將加大培訓力度,不斷提高這些能力。
多模式生成
問題:
·請為2023年世界智能交通大會制作海報。
·您認為智慧交通最適合哪個城市發(fā)展?
·請用四川話說出以上內(nèi)容。
·請生成上述內(nèi)容的視頻。
李彥宏:剛才的演示中,溫心一言生成了文字、圖片、音頻和視頻,展示了多模態(tài)生成能力。目前版本已經(jīng)可以生成文字、圖片和語音。由于生成視頻的成本比較高,目前還沒有向所有用戶開放。未來我們會逐步接入。不過熟悉百家號創(chuàng)作的朋友應該都體驗過這個功能。每天都有數(shù)以萬計的文章被轉(zhuǎn)換成視頻內(nèi)容并通過該能力在百度上分發(fā)。
多模態(tài)是生成人工智能的明顯發(fā)展趨勢。未來,隨著百度多模態(tài)統(tǒng)一大模型能力的增強,聞心一言的多模態(tài)生成能力也將不斷提升。
“四層架構(gòu)的每一層都有領(lǐng)先產(chǎn)品”
演示結(jié)束后,李彥宏總結(jié)道:“從文心一言的表現(xiàn)來看,它在一定程度上具備了理解人類意圖的能力,而且其回答的準確性、邏輯性、流暢性正在逐漸接近人類水平。但總體而言,這種大型語言模型還遠未得到充分開發(fā)。它們有時表現(xiàn)得驚人的好,但在很多場景下,仔細觀察就會發(fā)現(xiàn)明顯的bug,還有很大的改進空間。未來,這肯定會隨著時間的推移而迅速發(fā)展,日新月異?!?/p>
李彥宏表示,通過有針對性的微調(diào),我們可以逐漸對百度內(nèi)外的各種產(chǎn)品展現(xiàn)出驚人的親和力,讓每個產(chǎn)品更貼近它的用戶和客戶。像文心一言這樣的大型語言模型將成為每個人不可或缺的生產(chǎn)力工具。然而,無論是哪家公司,都不可能在幾個月內(nèi)建立起如此龐大的語言模型。深度學習和自然語言處理需要多年的堅持和積累,不可能一蹴而就。
“人類已經(jīng)進入人工智能時代,IT技術(shù)的技術(shù)棧發(fā)生了根本性的變化。以前基本分為三層:芯片層、操作系統(tǒng)層、應用層。現(xiàn)在可以分為四層:芯片層、框架層、模型層、應用層?!彼硎荆叭缃?,百度是全球為數(shù)不多的在這四層擁有全棧布局的人工智能公司之一,從高端芯片昆侖核心,到飛飄深度學習框架,到文心預測,從訓練大型從模型到搜索、智能云、自動駕駛、小度等應用,我們在各個層面都擁有業(yè)界領(lǐng)先的自研技術(shù)?!?/p>
文心一言位于模型層。2019年,百度推出文心大模型ERNIE1.0。目前,ERNIE3.0每天接受數(shù)十億次用戶搜索請求。這使得聞心一言能夠基于龐大高效的數(shù)據(jù)池快速學習和提高。
“大模型訓練堪稱暴力美學,需要大算力、大數(shù)據(jù)、大模型,每個訓練任務的成本都很高。全棧布局的好處是可以在四層中實現(xiàn)端到端”技術(shù)棧層架構(gòu),優(yōu)化大大提升了效率,特別是框架層和模型層有很強的協(xié)同作用,可以幫助構(gòu)建更高效的模型,顯著降低成本。-大規(guī)模模型給深度學習框架帶來了巨大的挑戰(zhàn),比如為了支持千億參數(shù)模型的高效分布式訓練,百度飛槳專門開發(fā)了4D混合并行技術(shù)。李彥宏介紹。
“此外,芯片、框架、大模型、終端應用場景可以形成高效的反饋閉環(huán),幫助大模型不斷調(diào)優(yōu)迭代,讓其變得越來越好。更好的大模型將不斷升級用戶體驗?!?/p>
最后,李彥宏強調(diào):“全球范圍內(nèi),幾乎沒有一家公司在四層架構(gòu)的每一層都擁有領(lǐng)先的產(chǎn)品。百度的優(yōu)勢非常獨特,相信大家在文信后續(xù)的迭代速度中會有清晰的感受?!狈祷厮押榭锤?/p>