DeepSeek老板登上新聞聯(lián)播!參加總理座談會(huì )
專(zhuān)題:DeepSeek為何能震動(dòng)全球AI圈
國產(chǎn)AI大模型領(lǐng)域,非常熱鬧!
1月20日下午,總理主持召開(kāi)專(zhuān)家、企業(yè)家和教科文衛體等領(lǐng)域代表座談會(huì )。
此前,非常少露面的DeepSeek老板梁文鋒,受邀參加并發(fā)言。
中國AI界的傳奇大佬,真人比想象中還年輕啊,皮膚保養好,看著(zhù)還以為是學(xué)生代表。
這是見(jiàn)證歷史性一刻,AI大佬上新聞聯(lián)播了。
在參加總理會(huì )議的同一天,DeepSeek在官微上,發(fā)布了DeepSeek-R1 發(fā)布,性能對標 OpenAI o1 正式版。
DeepSeek-R1 在后訓練階段大規模使用了強化學(xué)習技術(shù),在僅有極少標注數據的情況下,極大提升了模型推理能力。
在數學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。
R1的32B和70B版本,性能遠遠超過(guò)了OpenAI的GPT-4o,并逼近 o1-mini。
現在,DeepSeek已經(jīng)全面上線(xiàn)了 R1,大家可以直接體驗。
美國建筑設計工作室 Workshop-APD 的創(chuàng )始人Matthew Berman 表示:DeepSeek R1 擁有我所見(jiàn)過(guò)的最像人類(lèi)的內心獨白。
現在本地運行的 14b DeepSeek R1 蒸餾模型,能夠把問(wèn)題回答成這樣,咱還要啥自行車(chē)呢?
17歲考入浙大
30歲創(chuàng )辦幻方
如此厲害的DeepSeek大模型,背后并是不什么互聯(lián)網(wǎng)科技大廠(chǎng),而是炒股的。
DeepSeek深度求索,來(lái)自金融領(lǐng)域的頭部量化:幻方量化。
梁文鋒是幻方量化的實(shí)際控制人,他在DeepSeek最終受益的股份比例超80%。
1985年,梁文鋒出生于廣東湛江,那里盛產(chǎn)生蠔。他本碩就讀于浙江大學(xué),攻讀人工智能,年輕讀書(shū)時(shí)就篤定“AI定會(huì )改變世界”。
2008年,在浙大讀書(shū)期間,23歲的梁文鋒與同學(xué)一起組團隊開(kāi)始積累市場(chǎng)行情數據、金融市場(chǎng)其他相關(guān)數據以及宏觀(guān)經(jīng)濟等數據。
梁文鋒開(kāi)始使用機器學(xué)習等技術(shù),探索量化交易。
他的碩士畢業(yè)論文題目是《基于低成本PTZ攝像機的目標跟蹤算法研究》。
梁文鋒表示:自己是八十年代在廣東一個(gè)五線(xiàn)城市長(cháng)大的。
我的父親是小學(xué)老師,九十年代,廣東賺錢(qián)機會(huì )很多,當時(shí)有不少家長(cháng)到我家里來(lái),基本就是家長(cháng)覺(jué)得讀書(shū)沒(méi)用。
但現在回去看,觀(guān)念都變了。因為錢(qián)不好賺了,連開(kāi)出租車(chē)的機會(huì )可能都沒(méi)了。一代人的時(shí)間就變了。
畢業(yè)后,梁文鋒沒(méi)去做程序員,而是下場(chǎng)做量化投資,成立幻方量化。
他主導的幻方量化在2016年首次上線(xiàn)AI策略,并于2017年實(shí)現投資策略全面AI化,成為量化投資領(lǐng)域的創(chuàng )新先鋒?。
幻方量化成立僅6年管理規模即曾達到千億,被稱(chēng)為‘量化四大天王’之一。
也是國內唯一公開(kāi)宣稱(chēng)有擁有萬(wàn)張英偉達A100顯卡的企業(yè),其算力儲備量就算是在一眾互聯(lián)網(wǎng)公司科技公司里,也豪不遜色。
2023年,梁文鋒創(chuàng )立了深度求索(DeepSeek)。
有消息稱(chēng),DeepSeek團隊不招聘高級技術(shù)專(zhuān)業(yè)人員。
員工的工作年限約為3到5年,而那些擁有8年以上研發(fā)經(jīng)驗的人還可能會(huì )被直接拒絕。因為他們害怕這樣的人包袱太重、缺乏創(chuàng )新的動(dòng)力。
梁文鋒曾對36氪暗涌說(shuō):
“如果追求短期目標,找現成有經(jīng)驗的人是對的。但如果看長(cháng)遠,經(jīng)驗就沒(méi)那么重要,基礎能力、創(chuàng )造性、熱愛(ài)等更重要?!?/p>
就像大家不可能猜到,做游戲顯卡的英偉達,最后會(huì )成為AI界最重要的公司。
大家也不可能猜到,中國AI大模型的希望,可能就在炒股的公司身上。
背靠幻方量化的DeepSeek還不差錢(qián)。
梁文鋒在2024年表示,短期內沒(méi)有融資計劃,面臨的問(wèn)題從來(lái)不是錢(qián),而是高端芯片被禁運。
不參與融資,也很少對外發(fā)聲,悶聲去做AI。
外界都覺(jué)得DeepSeek很神秘。
近期“雷軍千萬(wàn)年薪挖95后天才AI少女”的熱門(mén)話(huà)題也間接地與梁文鋒有關(guān),因為雷軍嘗試挖走的這位90后少女羅福莉,此前正是梁文鋒旗下深度求索(DeepSeek)團隊的研發(fā)成員。
2024年12月26日,DeepSeek發(fā)布了DeepSeek-V3,并且還公開(kāi)了由梁文鋒、羅福莉等人撰寫(xiě)的53頁(yè)論文《DeepSeek-V3 Technical Report》。
AI界拼多多
此前DeepSeek一直被冠以“AI界拼多多”。
它開(kāi)啟了中國大模型價(jià)格戰。
2024年5月,DeepSeek發(fā)布的一款名為DeepSeek V2的開(kāi)源模型,提供了史無(wú)前例的性?xún)r(jià)比:
推理成本被降到每百萬(wàn)token僅 1塊錢(qián),在當時(shí)約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
隨后,字節、騰訊、百度、阿里、kimi等AI公司跟隨降價(jià)。
梁文鋒表示,自己不是有意成為一條鯰魚(yú),只是不小心成了一條鯰魚(yú)。沒(méi)想到價(jià)格讓大家這么敏感。只是按照自己的步調來(lái)做事,然后核算成本定價(jià)。
這次新發(fā)布的DeepSeek-R1 API 價(jià)格,一樣給力。
DeepSeek-R1 API定價(jià)為:每百萬(wàn)輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬(wàn)輸出 tokens 16 元。
對比OpenAI o1 的 API 定價(jià):每百萬(wàn)輸入 tokens 15 美元、每百萬(wàn)輸出 tokens 60 美元。
每百萬(wàn)輸出定價(jià),大概僅為OpenAI的3.65%。
DeepSeek極高的性?xún)r(jià)比,簡(jiǎn)直是AI大模型界的拼多多。
DeepSeek還繼續開(kāi)源到底,放出了背后的研究論文。
DeepSeek-R1的推理能力蒸餾到較小的密集模型中,展示了較小模型也可以擁有強大的推理能力。
使用Qwen和Llama系列模型進(jìn)行蒸餾,結果表明蒸餾后的模型在基準測試上表現優(yōu)異,例如DeepSeek-R1-Distill-Qwen-14B在A(yíng)IME 2024上的通過(guò)率為69.7%。
Deepseek不會(huì )閉源,他們認為先有一個(gè)強大的技術(shù)生態(tài)更重要。MIT 授權:自由提煉和商業(yè)化!
英偉達的高級研究科學(xué)家Jim Fan(范麟熙)對DeepSeek-R1的評價(jià)是:
我們生活在這樣一個(gè)時(shí)代:一家非美國公司正在讓 OpenAI 的初衷得以延續——真正開(kāi)放、為所有人賦能的前沿研究。這毫無(wú)意義。最有趣的結果才是最有可能的。
DeepSeek-R1 不僅開(kāi)源了一系列模型,還公開(kāi)了所有訓練秘訣。它們可能是第一個(gè)展示 RL 飛輪重大、持續增長(cháng)的 OSS 項目。
梁文鋒曾總結過(guò),中國AI和美國AI的差距。
我們看到的是中國AI不可能永遠處在跟隨的位置。我們經(jīng)常說(shuō)中國AI和美國有一兩年差距,但真實(shí)的gap是原創(chuàng )和模仿之差。如果這個(gè)不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。
真正的差距不是一年或兩年,而是原創(chuàng )和模仿之差。
轉自:財經(jīng)會(huì )議圈
?。ㄞD自:中國地產(chǎn)基金百人會(huì ))
轉載原創(chuàng )文章請注明,轉載自東莞厚街佰勝機械設備廠(chǎng),原文地址:http://www.geniusextensions.com/post/36471.html