中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 傳媒 > 關(guān)鍵詞  > AI發(fā)展最新資訊  > 正文

    對話MEGVII曠視科技研究院張祥雨-ChatGPT的科研價值可能更大

    2024-07-30 11:46 · 稿源: 站長之家用戶

    ChatGPT掀起了一場AI在大眾圈的話題熱潮,全民熱聊中也對AI發(fā)展方向和未來發(fā)展趨勢提出了很多問題,也有許多人想問以ChatGPT為代表的AIGC的興起,對計算機(jī)視覺、AIoT的產(chǎn)業(yè)發(fā)展有何種啟發(fā)。我們邀請了曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨做客這次的對話,分享他的思考和觀點(diǎn)。

    ChatGPT在語言邏輯推理,高階指代關(guān)系推理的能力很強(qiáng)

    但是...

    Q:你與ChatGPT對話了哪些內(nèi)容,你的使用感受如何?

    張祥雨:自ChatGPT發(fā)布以來,包括這次爆火之前,我基本上每天都在使用。我主要關(guān)注的是它的邏輯推理能力,而不僅僅是它擁有哪些知識。我認(rèn)為,邏輯推理能力對判斷一個模型是不是達(dá)到了類似人的思維水平更重要。讓我特別驚訝的一點(diǎn)是,ChatGPT在語言邏輯推理,尤其是在多輪對話,以及高階指代關(guān)系推理的能力很強(qiáng)。當(dāng)然它也有很多問題,主要是在常識建模、尤其是數(shù)學(xué)邏輯能力比較欠缺,對數(shù)字的敏感性(比如大小關(guān)系等)不強(qiáng)??傮w來說,它的能力還是大大超出了我的預(yù)期。

    Q:你如何看待目前全民關(guān)注ChatGPT的火爆現(xiàn)象呢?有人說它帶動了AI新一輪的發(fā)展浪潮,你認(rèn)同嗎?

    張祥雨:非常認(rèn)同。其實(shí)帶動AI新一輪浪潮的,不止是ChatGPT,它只是大模型技術(shù)的一種應(yīng)用。這兩年學(xué)術(shù)界在AI大模型,尤其是自然語言大模型方面取得了跨越式的發(fā)展。這里面的核心邏輯是什么呢?其實(shí)和大模型背后我們稱之為scaling law(規(guī)?;?yīng))的性質(zhì)有關(guān)。簡單來說,就是在AI模型里,我們可以通過不斷地增加數(shù)據(jù)、增加模型大小來實(shí)現(xiàn)性能的持續(xù)提升。

    其實(shí),Scaling law這件事并不新,近十年來深度學(xué)習(xí)演進(jìn)的歷史大體上都體現(xiàn)了這條定律。但是在此之前很多人都認(rèn)為scaling law快到頭了,為什么呢?因為隨著模型的增大和數(shù)據(jù)量的增多,模型的收益是逐漸遞減的,存在一個“邊際效應(yīng)遞減”的效應(yīng):即越增加數(shù)據(jù),收益就越來越不明顯,性價比就越低。但這兩年,大家在NLP大模型上發(fā)現(xiàn)了一個非同尋常的現(xiàn)象——當(dāng)這個模型的參數(shù)量、訓(xùn)練數(shù)據(jù)量到達(dá)千億量級時,模型的高檔思維能力突然出現(xiàn)了跨越式的增長,這個增長是過去從來沒有發(fā)現(xiàn)過的??赡苓^去增加一點(diǎn)數(shù)據(jù),模型性能就提升一點(diǎn)。但現(xiàn)在大概在千億這個參數(shù)關(guān)口,大家發(fā)現(xiàn)數(shù)據(jù)和模型量稍微再增加一點(diǎn),模型突然出現(xiàn)了原來不曾有的推理能力,還激發(fā)了一些之前我們認(rèn)為人類才有的能力,比如思維鏈能力。當(dāng)然它背后還有很多技術(shù),像代碼預(yù)訓(xùn)練等,共同推動了這種跨越式的發(fā)展。

    所以我覺得這件事是非常了不起的,它不僅僅可以帶來很多產(chǎn)業(yè)上的用途,它的影響力甚至可能已經(jīng)超過了AI這個領(lǐng)域。對人們?nèi)绾卫斫馑季S,揭示人類智能產(chǎn)生的起源也有非常大的啟發(fā)價值。

    Q:你如何看待ChatGPT的應(yīng)用趨勢呢?它會對哪些行業(yè)產(chǎn)生影響??

    張祥雨:應(yīng)用這塊我覺得大家見仁見智。以現(xiàn)在ChatGPT它所代表的大模型的發(fā)展水平,大家最看好的、較早落地的應(yīng)用可能是智能搜索引擎,此外像各種文字編輯工作,以及各種垂直領(lǐng)域都有落地的潛力。當(dāng)然在落地過程中可能也會遇到一些問題,比如說如何保證答案的準(zhǔn)確程度,如何保證生成的內(nèi)容是正確的,以及在部署推理的時候要怎么把這個大模型給用起來,真正做到有效并且降低運(yùn)行成本,這都是落地時需要討論的。但是我認(rèn)為,目前以ChatGPT為代表的AIGC,包括它背后的大模型的意義,不僅僅是在落地本身,在我看來它的科研價值可能更大。??

    Q:可以展開講講ChatGPT的科研價值嗎?

    張祥雨:科研價值主要體現(xiàn)在研究人類智能如何產(chǎn)生。其實(shí)從技術(shù)角度來看,AI大模型的設(shè)計和訓(xùn)練過程并沒有專門針對智能做特殊的設(shè)計。它的邏輯推理、思維鏈、reasoning的能力,是研究人員通過大幅增加參數(shù)量、增加訓(xùn)練數(shù)據(jù)量的過程中突然激發(fā)出來的,這個現(xiàn)象是非同尋常的。其實(shí)這和生物的進(jìn)化包括人類的進(jìn)化史也是非常像的,從底等生物、高等生物再到人類,進(jìn)化過程中的思維能力也是突然產(chǎn)生的。

    這種突然產(chǎn)生的智能背后不是靠專門的設(shè)計,是模型自然而然所形成的。關(guān)于這一點(diǎn)到底要如何理解?現(xiàn)在“有智能”的大模型相對于原來“沒有智能”的那些模型到底產(chǎn)生了哪些質(zhì)變?這些都是非常前沿且有趣的課題,值得我們探索。

    我們的選擇是專注在“AI in Physical”,從物理世界中來,到物理世界中去。。

    Q:像這類LLM模型(大型語言模型)的發(fā)展,會對計算機(jī)視覺的發(fā)展有何啟發(fā)?

    張祥雨:其實(shí)LLM就是我們說的大型語言模型,它之所以這么成功尤其是這兩年又得到大量的關(guān)注,跟它在scale up的過程中發(fā)現(xiàn)了一些異乎尋常的現(xiàn)象有很大關(guān)系:LLM模型在scale up的過程中,大家發(fā)現(xiàn)它突然產(chǎn)生了邏輯推理能力以及一定的思維能力等等。所以我覺得對視覺的啟發(fā)就是,我們在視覺領(lǐng)域是否也能得到一個類似“異乎尋?!钡默F(xiàn)象。當(dāng)然現(xiàn)在視覺模型從大小上來說還是跟語言模型差很遠(yuǎn),繼續(xù)走scale up這條路到底是不是對的,現(xiàn)在還不好說。但是既然scale up這條路在語言上已經(jīng)取得了這么大的成就,我們覺得還是非常有必要在視覺上也嘗試一下是不是能走通。

    除此之外,視覺模型如果要對實(shí)際落地產(chǎn)生影響,它還有很多比語言模型更加麻煩的地方,因為我們知道語言是人類創(chuàng)造的,但是視覺是大自然中本來就有的,并且其中也會融入人的理解,那么相對而言視覺在建模方面會比語言更難一些,不僅要處理好數(shù)字世界中的關(guān)系,還要處理跟真實(shí)物理世界進(jìn)行交互的能力。

    具體到大模型這個領(lǐng)域,我們知道大模型主要成功依賴的是數(shù)據(jù)和模型的不斷的增長,但是在計算機(jī)視覺,一旦涉及到物理世界我們會發(fā)現(xiàn),無論是數(shù)據(jù)的收集還是數(shù)據(jù)的計算處理,以及與外界的感知交互,scale up起來難度更大一些。

    首先是數(shù)據(jù)的獲取,我們知道語言模型可以從網(wǎng)絡(luò)上收集大量的人類互相問答還有各種文章的數(shù)據(jù)。圖像當(dāng)然也可以,收集大量的網(wǎng)絡(luò)圖像,但為了實(shí)現(xiàn)真正的落地應(yīng)用,比如各種工業(yè)場景,像自動駕駛、機(jī)器人等,這不是僅靠收集網(wǎng)絡(luò)圖像就能解決的,還必須得有特定場景的專門數(shù)據(jù);如何獲取并且有效地利用這些數(shù)據(jù),本身就是一個比較困難的問題。

    其次是算法,像這一波大模型的風(fēng)潮很大程度上可以歸結(jié)為自監(jiān)督算法的成功。所謂自監(jiān)督算法意思是監(jiān)督信號不再需要人類一個一個進(jìn)行標(biāo)注,可以從數(shù)據(jù)自身的信息中進(jìn)行自我監(jiān)督、自我訓(xùn)練,這樣才可以scale up到非常大。對語言來說,我們有好幾種自監(jiān)督手段,比如說可以不斷地通過前面的詞、前面的句子來預(yù)測下一個字是什么,就像大家寫文章一樣,這種我們稱之為Autoregressive(自回歸)模型。視覺里面也有類似的做法,比如說像最近非?;鸬腗IM(掩碼圖像建模)算法,我們可以把圖像捂住一塊,預(yù)測被捂住的一塊是什么。但是我們也發(fā)現(xiàn)目前MIM這套框架以及其他自監(jiān)督框架都有一些問題,當(dāng)它擴(kuò)展到更大的數(shù)據(jù)集時,它的表現(xiàn)并不如在語言模型中見到的這么明顯,事實(shí)上當(dāng)我們不斷地增加數(shù)據(jù)達(dá)到一定規(guī)模以后,它的性能提升就停滯了,于是我們就不得不想一些新的辦法。這塊其實(shí)目前還沒有得到特別好的解決,更多的還是依賴于人類標(biāo)注的數(shù)據(jù)。

    最后一塊是關(guān)于跟外界的交互。在AI in physical world應(yīng)用中,當(dāng)模型依據(jù)視覺信號做了一個動作或是產(chǎn)生了一個策略,我們要判斷它好不好,很多時候是要落實(shí)到物理世界中去,比如需要控制自動駕駛車輛、機(jī)械臂、倉儲機(jī)器人等等,跟物理世界產(chǎn)生一些交互,交互的結(jié)果將會影響我們下一輪決策。其實(shí)說起和現(xiàn)實(shí)世界的交互,目前的自然語言大模型已經(jīng)有所涉及了,例如OpenAI他們做ChatGPT之前還做了一個WebGPT的項目,就是與互聯(lián)網(wǎng)產(chǎn)生交互。比如閱讀一段文本,它為了理解這段文本就需要操作搜索引擎去檢索一些信息來支持它做下一步的輸出,它需要跟互聯(lián)網(wǎng)世界產(chǎn)生交互,這個交互體現(xiàn)為一個搜索的動作。當(dāng)然,這種動作是發(fā)生在數(shù)字世界的,相對而言是比較容易的。但是做視覺的經(jīng)常要跟物理世界進(jìn)行交互,操作一個機(jī)械臂或是操作一個自動駕駛的機(jī)器人,從安全性和效率上考慮,這種交互閉環(huán)的形成肯定是不如在數(shù)字世界這么方便、有效且安全的,里面有很多坑需要我們?nèi)ヌ睢?/p>

    Q:曠視會怎么去做這個布局呢?

    張祥雨:我認(rèn)為曠視這些布局還是要扎根具體的公司主營業(yè)務(wù),包括幾大AIoT的場景,從每一個場景出發(fā),我們得先把“從物理世界中來,再到物理世界中去”的這條閉環(huán)跑通。只有形成了數(shù)據(jù)閉環(huán)、反饋閉環(huán),模型得到監(jiān)督信號才會越來越多,我們才有條件把這個模型越做越大,我認(rèn)為這是最重要的一點(diǎn)。所以我們說“大”和“統(tǒng)一”的趨勢是不可阻擋的,是我們現(xiàn)在解決AI in physical world的主要思路,但是要形成更大的規(guī)?;捅仨氁蛲ㄈ溌?,這無論是在商業(yè)布局還是在科研方面都必須要堅持的一點(diǎn),就是要創(chuàng)造條件,想辦法為模型做大提供契機(jī)。

    Q:這些會對AIoT的設(shè)備提出怎樣新的要求?

    張祥雨:對AIoT設(shè)備的要求更多還是體現(xiàn)在算法和硬件要進(jìn)行co-design上。因為每一種硬件、各種傳感器和各種執(zhí)行器一定是跟算法匹配的,不同的算法會對應(yīng)不同sensor性能要求和不同的使用方式,這也是我們做AIoT或者是AI in physical world所必須要考慮的一點(diǎn)。

    Q:最近新聞報道也比較多,大家對于這項技術(shù)的高度關(guān)注,試用反饋、解讀,是不是給了你一些新的啟發(fā)?

    張祥雨:全民開始關(guān)注AI是一個非常好的現(xiàn)象,說明我們這個領(lǐng)域切切實(shí)實(shí)能夠產(chǎn)生社會影響。其實(shí),每一波熱點(diǎn)不管能不能持續(xù)下去,在某種程度上都促進(jìn)了社會的進(jìn)步,會誕生一些新的產(chǎn)品,啟發(fā)一些新的科研方向等等。

    Q:剛才你也提到了ChatGPT的爆火與做科研堅持長期主義有關(guān)。之前你也分享過基礎(chǔ)科研應(yīng)該遵循的原則是原創(chuàng)、實(shí)用、本質(zhì),你現(xiàn)在還是這種想法嗎?

    張祥雨:肯定是。因為你只是follow,不追求原創(chuàng)會陷入一個很大的陷阱,就是你去follow是可以的,但因為沒有親身去體驗過這種創(chuàng)新過程,回避了過程中走過的彎路,很可能造成對這個技術(shù)邊界判斷不清晰,即使以后確實(shí)復(fù)現(xiàn)完成了,但你對這項技術(shù)可以做成什么事是缺少判斷的,錢、資源都投進(jìn)去了,結(jié)果發(fā)現(xiàn)解決不了問題,而別人原創(chuàng)團(tuán)隊已經(jīng)做下一個了。這種狀態(tài)肯定是出不了的成果的,無論是科研還是業(yè)務(wù),這肯定是不行的。

    Q:能否簡單總結(jié)一下你對AI發(fā)展的看法。

    張祥雨:AI應(yīng)用的路線主要分為兩條,一條叫AI in Digital World,一條叫AI in Physical World,即AI在數(shù)字世界和物理世界中的應(yīng)用。像ChatGPT主要體現(xiàn)的還是以AIGC為代表的技術(shù)在AI in Digital World的應(yīng)用。曠視更多的還是關(guān)注AI in Physical World。AI in Digital World的東西當(dāng)然可以應(yīng)用于AI in Physical World,但是物理世界中的AI包含了更多的問題,包括如何從物理世界中得到信息,如何對這個信息進(jìn)行處理,然后如何再把它應(yīng)用到物理世界,最后如何再從物理世界中得到反饋。所以說,它是一個更難更有挑戰(zhàn)性的問題。曠視將會沿著AI in Physical World這條路線繼續(xù)探索。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。任何單位或個人認(rèn)為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明(點(diǎn)擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實(shí)信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦