<noscript id="jwsho"><legend id="jwsho"></legend></noscript>
<ins id="jwsho"><video id="jwsho"><var id="jwsho"></var></video></ins><tr id="jwsho"></tr><output id="jwsho"></output>
  • <menuitem id="jwsho"></menuitem>

      <menuitem id="jwsho"></menuitem>

      1. 展會信息港展會大全

        ChatGPT背后的大模型,需要怎樣的芯片?
        來源:互聯網   發布日期:2023-03-01 13:40:34   瀏覽:5135次  

        導讀:AI對話機器人ChatGPT的走紅,讓大模型的熱度從學術界、產業界一路燒到了大眾媒體。信息顯示,ChatGPT是一款由大型語言模型驅動的聊天機器人,在它背后起作用的是OpenAI最強大的大型語言模型GPT-3,參數量高達1750億。 大模型的崛起,也為AI技術的地基芯片帶...

        AI對話機器人ChatGPT的走紅,讓“大模型”的熱度從學術界、產業界一路燒到了大眾媒體。信息顯示,ChatGPT是一款由大型語言模型驅動的聊天機器人,在它背后起作用的是OpenAI最強大的大型語言模型GPT-3,參數量高達1750億。

        大模型的崛起,也為AI技術的地基芯片帶來了重要的商機與嚴峻的技術挑戰。據Lambda實驗室測算,如果采用英偉達V100 GPU和當時最便宜的云服務進行計算,GPT-3訓練一次需要355個GPU年(一塊GPU運行355年的運算量)、花費460萬美元。大模型需要怎樣的AI芯片,AI芯片企業又該如何應對?帶著這樣的疑問,記者采訪了有關專家和企業家。

        算力需求:對于AI芯片的要求全面拉升

        4年的時間、1500倍的參數量提升,大型語言模型展現出強勁的擴張態勢。2018年,OpenAI推出第一代生成式預訓練語言模型GPT-1,擁有1.17億個參數。2019年推出的GPT-2擁有12億參數,是GPT-1的10倍多。一年后面世的GPT-3,參數量達到1750億個,是GPT-2的100多倍,預訓練數據量高達45TB。ChatGPT正是基于GPT-3.5一個基于GPT-3的微調版本。

        與參數量一起飆漲的,是大模型的算力需求。燧原科技創始人、董事長兼CEO趙立東向《中國電子報》表示,以ChatGPT為代表的生成式AI模型為了實現高質量的內容生成,具備兩大特性:參數規模巨大的模型、海量的訓練數據集。因此,大模型在底層算子支撐、系統架構方案、軟件生態支持方面都和原先的決策式AI模型有著顯著的區別,需要芯片廠商打造更加領先的系統級軟硬件方案,并在技術和產品層面打破原有的路線與壁壘。

        “反映到算力芯片角度,主要有三方面的需求:一是分布式計算能力,包括數據并行、模型并行、流水并行等分布式計算方案,計算效率尤其關鍵。二是大容量高帶寬的內存方案,在每個AI芯片內部有效提升數據處理能力和算力利用率,結合HBM以及CXL等新型存儲技術進一提升本地存儲能力和算力利用率。三是更高的單芯片計算能力,以降低整體系統復雜度,并降低TCO成本。”趙立東說。

        昆侖芯科技也向記者表示,伴隨著ChatGPT的迭代,大模型算法對算力的要求不斷提高,而算力的核心就是人工智能芯片。“大模型對計算的要求主要體現在三個方面,一是算力,二是互聯,三是成本。大模型的熱潮也將加速AI芯片技術的創新和進步,包括芯片架構、算法優化、功耗控制等方面的提升。AI芯片公司可以在這些方面進行研發和創新,不斷提高產品競爭力。”

        除了在已有的AI芯片路徑持續迭代調優,獲得更優的算力、效率、功耗、成本。大模型強烈的高算力需求,也呼喚芯片電路與架構層面的進一步創新。北京大學集成電路學院研究員賈天宇向《中國電子報》指出,大模型技術的出現和普及,將進一步推動AI芯片的發展,拉升多方應用產業對于AI芯片的需求,對于提升AI芯片的重要性和不可或缺性有積極的意義。但同時應認識到,支持大模型計算的AI芯片算力需求高、設計復雜度高,其設計要求和門檻也隨之提升。

        “由于傳統芯片技術發展的限制,當前芯片設計的電路與架構面臨著存算力瓶頸、能效瓶頸、設計復雜度瓶頸等多方面挑戰。如何解決算力需求和芯片設計瓶頸之間的矛盾還需要多方的創新和技術進展。”賈天宇說。

        技術路徑:通用與定制的平衡

        在AI芯片的發展過程中,通用性和定制化像是兩個互相拉扯的作用力,衍生出一系列的芯片架構。其中,GPU和ASIC分別是通用性和定制化的代表架構,也有著各自的優勢和局限。

        “GPU架構提供了大量數據并行結構,因此能夠提供大量的AI并行計算,適用于AI訓練等。ASIC等定制化AI芯片針對特定的應用場景進行芯片優化,能夠取得更高的計算能效,但通用性相對較弱。”賈天宇表示。

        好在,隨著芯片技術的發展,通用性與定制化已不再壁壘森嚴。一方面,英偉達在GPU架構中引入了Tensor Core(張量計算核心),一種專門針對深度學習應用而設計的專用ASIC單元,使GPU更加適合深度學習。與此同時,定制化芯片也逐步增加了通用計算單元,并引入可編程或部分可編程的架構,增強芯片的場景覆蓋能力。

        “過去被認為只具備專用性的ASIC或DSA(領域專用架構),現在不僅含有用于AI加速計算的專用單元,還含有與英偉達GPU中CUDA Core類似的通用計算單元,同樣可以實現對各種指令的處理。因此,無論是GPU、ASIC或DSA架構,云端AI芯片企業在架構設計中需要關注的是通用和專用計算單元的搭配,以便應對AI計算持續演變帶來的挑戰。”昆侖芯科技向記者表示。

        “鑒于大模型對于大算力的顯著需求,以及模型訓練算子的多樣性,具有大算力、通用性的芯片將是大算力應用的首眩在現存的技術方案中,GPU是能夠提供算力和開發生態的選擇。然而,由于GPU的功耗過高,類GPU架構的定制化大算力AI芯片也將存在市場,滿足對于芯片計算能效的提升需求。”賈天宇指出。

        昆侖芯科技在全球人工智能開發者先鋒大會的展位

        而通用與定制的“配比”,要根據具體場景設計。昆侖芯科技表示,在通用性、易用性和性能之間實現平衡,需要在實際設計中結合需求。除了單一技術或者算力指標,更要注重產品的綜合競爭力是否均衡。百度的AI應用場景,為昆侖芯提供了驗證和調優機會。就大模型而言,昆侖芯在產品定義上已經做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產品大幅優化了算力、互聯和性能,在百度內外部的大模型場景中都有落地,昆侖芯在研的下一代產品將為大模型和AIGC等應用提供更佳的性能體驗。

        “硬件和場景是雙輪驅動的,場景催生新的技術方案,新的技術促使場景更好發展。大模型作為一個趨勢場景,其需求定義清楚了,設計和實現技術就會水到渠成。”昆侖芯科技告訴記者。

        另外,無論是通用芯片還是定制芯片,抑或是通用、專用計算單元兼而有之,設計環節之后的制造、封裝環節,也將作用于AI芯片的性能提升。

        “無論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等先進集成與封裝技術將成為進一步提升大模型計算能力的重要技術手段,也將在未來AI芯片發展中起到重要作用。”賈天宇表示。

        國內企業:需進一步增強軟件及系統能力

        雖然ChatGPT還沒有進入盈利階段,但英偉達已經成為第一波吃到紅利的企業。從2023年第一個美股交易日至今(截稿前最后一個交易日2月24日),英偉達的股價增幅超過60%,為處于下行周期的半導體產業增添了一絲亮色。在北京時間2月23日凌晨的財報發布中,英偉達創始人兼首席執行官黃仁勛表示,從初創公司到大型企業,對于生成式AI的多功能性與能力的興趣越來越濃厚。英偉達將幫助客戶從生成式AI 和大型語言模型技術的突破中獲取優勢。

        英偉達在AI芯片的先發優勢和占比優勢,固然有硬件性能的原因,但更關鍵的是軟件生態的加持。在21世紀初,GPU的并行計算能力引起了學術界和產業界的關注。但是,開發者想要調用英偉達GPU的計算能力進行圖形處理以外的任務,必須編寫大量的底層語言代碼,這對于習慣高級語言的程序員極其不便。2006年,英偉達推出CUDA平臺,支持開發者用熟悉的高級程序語言進行編程,靈活調用GPU的算力。自此,GPU的使用范圍不再局限于顯卡,而是擴展到所有適合并行計算的領域。GPU與CUDA組成的軟硬件系統,形成了英偉達的產品壁壘。

        近年來,國內AI芯片企業在架構創新、算力性能、平臺方案等領域涌現出一系列成果,但仍然需要在軟件、系統和生態層面進一步向國際領先企業看齊。趙立東表示,針對大模型對于AI芯片的需求,芯片廠商一方面通過拆解大模型的系統級需求,快速迭代下一代芯片,從底層提升性能和支持效率。另一方面,要基于既有的芯片打造系統級方案,通過軟件升級解決大模型加速遇到的內存容量孝通信占比高等核心痛點問題。

        “要對標國際領先的AI芯片廠商,需要在三個層面開發優化:一是芯片升級,在算力、內存、微架構等層面針對大模型計算做優化;二是軟件升級,從傳統的單卡以及單機多卡為主的支持能力拓展至萬卡級別大集群支持,有效提供面向大模型支持的分布式計算、混合并行、內存優化等整體軟件方案;三是系統方案,以AI芯片為核心,結合計算、存儲、網絡打造深度優化的系統級方案,面向大模型提供極致的性能和成本優勢。”趙立東說。

        燧原科技邃思2.0芯片

        據介紹,燧原科技已經基于千卡訓練集群進行大模型訓練,并將推理產品通過云服務商,為內容生成模型開發商提供算力支撐;谙到y級大集群大模型,燧原將持續創新迭代,重點聚焦生態建設,滿足應用開發者對AI算力的強勁需求。

        昆侖芯科技也表示,具體到軟件生態,AI算法和應用開發者在構建AI應用和業務的過程中,需要一套成熟的編程語言,以及完善的軟件工具集來快速迭代開發任務。昆侖芯SDK可以提供從底層驅動環境到上層模型轉換等全棧的軟件工具,已經適配百度飛槳、PyTorch、TensorFlow等主流框架和服務器,逐漸完善生態建設。“要實現像OpenAI的ChatGPT這樣的大規模深度學習模型,需要大量的數據和算法優化,以及相關領域的專業知識。因此,要更好地實現ChatGPT的商用落地,需要相應的技術團隊和研究機構,與AI芯片企業協同推進。”

        作者丨張心怡

        編輯丨陳炳欣

        美編丨馬利亞

        監制丨趙晨

        贊助本站

        人工智能實驗室
        AiLab云推薦
        展開

        熱門欄目HotCates

        Copyright © 2010-2023 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港