成人三级视频-成人三级影院-成人三级在线播放线观看-成人三级在线观看-亚洲黄网免费-亚洲黄网在线

?對標(biāo)GPT-4的智譜AI實戰(zhàn)能力堪憂:一道數(shù)學(xué)題算錯七次后宕機,強行解讀《紅樓夢》鬧笑話

新經(jīng)濟(jì)IPOIPO君2024-02-19 15:11 數(shù)字產(chǎn)業(yè)
明星大模型創(chuàng)業(yè)公司智譜AI發(fā)布了基座大模型GLM-4,同時發(fā)布的還有GLM-4 All Tools,以及智譜AI版的“GPTs”—GLMs。智譜CEO張鵬甚至表示,2024年的新愿景是讓大模型真正落下來。

1月16日,明星大模型創(chuàng)業(yè)公司智譜AI發(fā)布了基座大模型GLM-4,同時發(fā)布的還有GLM-4 All Tools,以及智譜AI版的“GPTs”—GLMs,實現(xiàn)了與OpenAI全模型產(chǎn)品線的對標(biāo)。智譜CEO張鵬甚至表示,從標(biāo)準(zhǔn)大模型評測角度看,GLM-4性能整體上已經(jīng)逼近GPT-4。

不過,在新經(jīng)濟(jì)IPO的實際試用過程中,GLM-4不僅沒有表現(xiàn)出與“測評分?jǐn)?shù)”一致的高水準(zhǔn),反而鬧出了不少笑話。

成立于2019年的智譜AI,由清華大學(xué)知識工程實驗室(KEG)技術(shù)成果轉(zhuǎn)化而來,是目前國內(nèi)唯一全內(nèi)資、全自研的大模型企業(yè),早在2020年開始GLM預(yù)訓(xùn)練架構(gòu)的研發(fā),并訓(xùn)練了100億參數(shù)模型GLM-10B;2022年公布1300億級超大規(guī)模預(yù)訓(xùn)練通用模型GLM-130B。

2022年底,大模型浪潮席卷全球,由于提前部署研發(fā),智譜 AI成為資本眼中的寵兒。2023年7月至9月間,智譜AI拿下5輪融資,估值達(dá)到100億元。11月,有媒體報道智普AI“正以200億元估值進(jìn)行新一輪融資”,但有多位股東對“翻倍”的高估值表示質(zhì)疑。

時至今日已過去近4個月,未有融資的進(jìn)一步消息傳出。反而在GLM-4發(fā)布兩天后,智譜AI的創(chuàng)始股東中科創(chuàng)星又將手中股份減持了25%,其已于2022年減持了同比例股份,目前實際持股比例或不到1%。

而“技術(shù)理想主義”者張鵬,2024年的新愿景是讓大模型真正落下來。這也說明,即便是被投資圈視為“有人、有技術(shù)、有客戶”的智譜AI,同樣面臨大模型落地難題,這恐怕也是所有國產(chǎn)大模型2024年必須面對的巨大挑戰(zhàn)。

一道數(shù)學(xué)題算錯七次后宕機

張鵬認(rèn)為,如果你沿著前人的腳印去走,頂多追到屁股后面。如果想在短時間內(nèi)超越前人,就一定要做創(chuàng)新。為此,智譜AI沒有采取目前最主流的三種模型訓(xùn)練路徑:GPT來自O(shè)penAI,BERT和T5來自谷歌,而是提出了全新的GLM(通用語言模型)路徑。

若GPT的原理可以比作“根據(jù)上文做完形填空”,那么GLM完形填空的依據(jù)則從上文擴(kuò)充到上下文。理論上,GLM的訓(xùn)練效率會比GPT更高,也能理解更復(fù)雜場景——GLM發(fā)展也確實迅猛,從去年3月份開源第一代,目前已經(jīng)迭代到第四代。

在GLM-4的發(fā)布日上,張鵬在多項能力上將其與GPT4進(jìn)行了對比,其中GLM-4的中文對齊能力總分超過了GPT-4,此外在MMLU理解評測、GSM8K數(shù)學(xué)邏輯和代碼水平上都有大幅提升。

下圖是DataLearner綜合評測分別按照HumanEval與MMLU排序的結(jié)果。可以看到,不論哪個對比,GLM-4和GPT-4、Gemini Ultra的測評分?jǐn)?shù)都差不多。特別是閱讀理解方面,GLM-4只比GPT-4低5分,這是已知國產(chǎn)大模型取得的最好分?jǐn)?shù)。

圖片

為了驗證GLM-4的能力是否真的實現(xiàn)了較大提升,新經(jīng)濟(jì)IPO對其進(jìn)行了簡單測試,但結(jié)果不如人意。

在首輪測試中,新經(jīng)濟(jì)IPO在對話中輸入“林黛玉為何倒拔垂楊柳”這一網(wǎng)絡(luò)梗,不過,GLM4竟然回答稱,這個故事出自曹雪芹名著《紅樓夢》,還試圖很認(rèn)真地用林黛玉與賈寶玉的情感糾葛來解釋林黛玉“倒拔垂楊柳”的行為。

一個2022年就宣布擁有1300億參數(shù)的雙語(英文和中文)預(yù)訓(xùn)練語言模型,卻連中國古典名著之一的具體內(nèi)容情節(jié)都沒掌握,實在說不過去。      

                                                                   圖片

接下來,新經(jīng)濟(jì)IPO嘗試讓 GLM4計算一道數(shù)學(xué)題,以測試其邏輯推理能力。然而,一道非常簡單的數(shù)學(xué)題,GLM4連續(xù)回答了7次都錯了,最后更是直接宕機。需要指出的是,這道題去年曾經(jīng)有媒體在GLM3上做過測試,回答也是錯的。

為了對比,新經(jīng)濟(jì)IPO拿這道數(shù)學(xué)題考驗了一下“文心一言”,后者很快給出了正確答案。


圖片

圖片

在中文語義語料和數(shù)學(xué)邏輯推理能力測試之后,新經(jīng)濟(jì)IPO又測試了GLM4的多模態(tài)圖片理解能力,這次,智譜AI終于過關(guān)了。


圖片

在文生圖能力上,GLM4表現(xiàn)得也不算令人失望,雖然它將“一個卡通柯基”畫成了“一堆卡通柯基”。

圖片

當(dāng)被要求“畫一個西蘭花下的斑馬”時,文心一言和GLM4分別給出了如下作品,GLM4的畫風(fēng)還是有點怪異。

圖片

從上述有限的測試看,GLM4在中文語義語料和數(shù)理邏輯上的能力尚有欠缺,但在文生圖及圖片理解能力上表現(xiàn)尚可。從綜合能力看,GLM4與GPT4還存在明顯差距。

大模型商業(yè)化路漫漫

實際上,拋開于國外大模型的技術(shù)差距不談,國內(nèi)大模型商業(yè)化如何落地,可能是擺在所有創(chuàng)業(yè)公司面前的更大挑戰(zhàn)。

和蘋果系統(tǒng)一樣,大模型也是一個龐大的生態(tài),而流量則是一切商業(yè)模式的源頭。對比ChatGPT早就突破1.1億次的全球安裝量,國產(chǎn)大模型如何商業(yè)化?如果說2023年,投資人、應(yīng)用企業(yè)還在關(guān)注技術(shù)差距的話,那么新的一年,所有人的焦點都已經(jīng)轉(zhuǎn)移到了大模型商業(yè)化的落地上。

智譜AI當(dāng)然早就意識到了,落地才是未來最大的挑戰(zhàn)。從發(fā)展路徑上看,智譜AI也是國內(nèi)最早推進(jìn)大模型商業(yè)化的企業(yè)之一,率先提出了“模型即服務(wù)(MaaS)”的落地路徑,給出了面向B端開放API、云端私有化以及本地私有化等多種商業(yè)解決方案。

智譜AI官網(wǎng)顯示,其云端私有化部署最低檔位ChatGLM-12B,報價25萬元/年,最高ChatGLM-130B,120萬/年;本地私有化部署的最低參數(shù)ChatGLM-12B,報價180萬/年,最高ChatGLM-130B,3960萬元/年。

張鵬認(rèn)為,B端的付費意愿比C端好很多,尤其是行業(yè)頭部企業(yè),在大模型方面普遍投入多,動作快。所以,智譜AI從一開始就瞄準(zhǔn)B端。智譜AI對外披露信息顯示,目前已有2000多家合作伙伴。

那么,智譜AI目前營收狀況如何呢?據(jù)張鵬透露,2023年下半年智譜簽單客戶約幾百家,2023年整體有億級簽單額。根據(jù)上述報價計算,智譜AI的銷售情況顯然不算太好。這樣的簽單額肯定無法支撐大模型的“燒錢”研發(fā),要知道,年營收超10億美元的OpenAI目前也還未實現(xiàn)盈利。

作為中國估值最高的大模型創(chuàng)業(yè)公司,智譜AI收獲幾百家簽單客戶是一件可喜的事情,但并不算樂觀。商湯科技在2021年上市之前,曾公布過截至2021年6月30日的商業(yè)客戶數(shù)量“超過2400家”。可以對比的是,近期OpenAI剛剛公布了自己的付費企業(yè)客戶數(shù)量是260家,可見即便是全球頂尖大模型,B端市場的拓展速度也并不是很快。

與此前任何大規(guī)模技術(shù)革命一樣,大模型的商業(yè)化也注定是一場漫長的旅程。IDC去年11月開展的一次全球AI應(yīng)用調(diào)研顯示,中國的100家受調(diào)企業(yè)中,已經(jīng)大規(guī)模投入的企業(yè)只占24%。這說明,雖然產(chǎn)業(yè)端對大模型的熱情很高,但真到落地階段,愿意“真金白銀”擁抱大模型的依然較少。

老難題需要新答案

受多重因素影響,國內(nèi)資本目前對大模型更多采取了“觀望”態(tài)度。即便2023年大模型熱貫穿全年,整個AI融資市場都沒有出現(xiàn)前幾年互聯(lián)網(wǎng)浪潮時的活躍狀態(tài)。


圖片

有的資本或許還在觀察與等待,尋找一個合適的時機再涌入,但有的資本的耐心與期待已然不多。

有媒體報道稱,智譜 AI發(fā)起股東中科創(chuàng)星連續(xù)賣掉了其持有的部分股份,減持比例超過50%,累計退出金額約1.2億元。同時,中科創(chuàng)星創(chuàng)始合伙人米磊已退出智譜 AI 董事職位。對此智譜回應(yīng)稱,本次中科創(chuàng)星減持的股份,已被君聯(lián)資本、boss直聘等老股東接手;中科創(chuàng)星則表示,長期堅定的看好AI,看好智譜,退出是因為份額不夠,新進(jìn)戰(zhàn)略投資者要求購買老股。

話雖如此,但正值大模型發(fā)展方興未艾之際,中科創(chuàng)星的清倉式減持還是令人疑惑。有知情人士透露,雖然中科創(chuàng)星對外聲稱看好AI,但高層其實并不看好,原因在于AI企業(yè)很難上市,2021年更是撤掉了AI投資組,現(xiàn)在的AI項目都是2021年之前投的。

實際上,即使是仍在堅守的資方,也對沒有業(yè)績但估值一路高漲的智譜AI看不懂。有媒體報道稱,去年11月,有消息傳出智譜AI擬以200億估值挑選下一輪投資機構(gòu)方,隨即就有多位老股東對“翻倍”估值表示質(zhì)疑。對老股東來說,并不是創(chuàng)投公司的估值越高越好,沒有業(yè)績支撐的高估值只會嚇跑后來的投資人,如此一來,此前入局的投資人又該如何退出呢?

當(dāng)然,作為史上最燒錢的技術(shù)革命,大模型要進(jìn)步,就只能依靠不斷融資。智譜AI2023年累計融資超過25億元,看起來不少,但遠(yuǎn)不及商湯科技2017年獲得的40億元融資,而商湯科技在IPO前總?cè)谫Y金額高達(dá)52億美金。智譜AI的燒錢速度顯然比商湯科技更快。那么,假若智譜AI下一輪融資遲遲不出現(xiàn),25億元能支撐一個400人的高薪大模型團(tuán)隊工作多久?這雖然是AI創(chuàng)業(yè)老難題,但目前迫切需要一個新答案。

張鵬一直想“做真正厲害的事情”,即智譜AI能夠往下且深入地撼動當(dāng)前模型框架的研究技術(shù)。這固然是一件好事,但在考慮是否能活得夠長之前,還是應(yīng)該先解決“活下來”的難題。沒有靠譜的實戰(zhàn)能力以及“自我造血”能力,沒有切實可行的商業(yè)化路徑,智譜AI的動人故事將很難繼續(xù)講下去。

【本文為合作媒體授權(quán)派財經(jīng)轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表派財經(jīng)立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲得授權(quán)。有任何疑問都請聯(lián)系(paicaijing314@126.com)。
免責(zé)聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點導(dǎo)向,也不構(gòu)成任何投資建議。】
AI

猜你喜歡

主站蜘蛛池模板: 一个人的视频日本免费 | 粉色视频成年免费人15次 | 国产成人精品视频播放 | 免费在线一级毛片 | 老子影院午夜伦不卡不四虎卡 | 播放一级特黄录像 | 免费高清小黄站在线观看 | 色一情一乱一乱91av | 黄污视频免费观看 | 鸥美一级黄色片 | 日韩精品亚洲精品485页 | 日韩成人精品视频 | 国产精品国产三级在线专区 | a毛片久久免费观看 | www.99精品视频在线播放 | 色香蕉视频| 午夜伦理片免费观看在线 | 男女第一次弄进去的视频 | 18亚洲男同志videos网站 | 成年做羞羞免费观看视频网站 | 被窝国产理论一二三影院 | 五月婷婷在线视频 | 中文日韩字幕一区在线观看 | 国产成人精品久久一区二区三区 | 久久综合久久久 | 欧美日韩高清在线观看一区二区 | 欧美高清videos性极品 | h网站免费在线观看 | 亚洲另类欧美日韩 | 搜索黄色毛片 | 精品视频一区二区三区四区 | 婷婷综合久久狠狠色99h | 在线观看黄网 | 青草青草久热精品视频在线网站 | 国产精品亚洲片在线牛牛影视 | 一级理论片免费观看在线 | 免费黄色毛片 | 午夜羞羞影院 | 久久精品国产99国产精偷 | 美女网站视频黄 | 国产亚洲欧美一区 |