设为首页 - 加入收藏   
您的当前位置:首页 > 知识 > 英偉達被「偷家」?全新AI芯片橫空诞生 速率比GPU快十倍 正文

英偉達被「偷家」?全新AI芯片橫空诞生 速率比GPU快十倍

来源:头一无二网 编辑:知识 时间:2024-10-17 06:33:09

芯片推理速率較英偉達GPU普及10倍、英偉老本惟独其1/10;運行的達被诞生大模子天生速率挨近每一秒500 tokens,碾壓ChatGPT-3.5大約40 tokens/秒的全新速率——短短多少天,一家名為Groq的芯片初創公司在AI圈爆火。

Groq讀音與馬斯克的橫空谈天機器人Grok極為挨近,建树時間卻遠遠早於後者。速率其建树於2016年,快倍定位為一家家养智能解決妄想公司。英偉

在Groq的達被诞生創始團隊中,有8人來自僅有10人的全新google早期TPU中间設計團隊。比喻,芯片Groq創始人兼CEO Jonathan Ross設計並實現了TPU原始芯片的橫空中间元件,TPU的速率研發使掷中有20%都由他实现,之後他又退出Google X快捷評估團隊,快倍為google母公司Alphabet設計並孵化了新Bets。英偉

在Groq的創始團隊中,有8人來自僅有10人的google早期TPU中间設計團隊。(圖片來源:科創板日報)

雖然團隊脫胎於googleTPU,但Groq既沒有選擇TPU這條路,也沒有看中GPU、CPU等路線。Groq選擇了一個全新的系統路線——LPU(Language Processing Unit,語言處理單元)。

「我們(做的)不是大模子,」Groq呈现,「我們的LPU推理引擎是一種新型端到端處理單元系統,可為AI大模子等計算密集型應用提供最快的推理速率。」

從這裏不難看出,「速率」是Groq的產品強調的特點,而「推理」是其主打的細分領域。

Groq也的確做到了「快」,根據Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上運行的Llama 2 70B,輸出tokens吞吐量快了18倍,由於其余所有雲推理供應商。

根據Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上運行的Llama 2 70B,輸出tokens吞吐量快了18倍,由於其余所有雲推理供應商。(圖片來源:科創板日報)

第三方機構artificialanalysis.ai給出的測評結果也顯示,Groq的吞吐量速率稱患上上是「遙遙領先」。

第三方機構artificialanalysis.ai給出的測評結果也顯示,Groq的吞吐量速率稱患上上是「遙遙領先」。(圖片來源:科創板日報)

為了證明自家芯片的能耐,Groq還在官網發布了免費的大模子服務,包罗三個開源大模子,Mixtral 8×7B-32K、Llama2-70B-4K以及Mistral 7B - 8K,当初前兩個已经開放运用。

Groq(Llama 2)對比ChatGPT(圖片來源:科創板日報征引X用戶JayScambler)

LPU旨在克制兩個大模子瓶頸:計算密度以及內存帶寬。據Groq介紹,在 LLM 方面,LPU較GPU/CPU擁有更強大的算力,從而減少了每一個單詞的計算時間,可能更快地天生文本序列。此外,由於消除了外部內存瓶頸,LPU推理引擎在大模子上的功能比GPU逾越幾個數量級。

據悉,Groq芯片残缺拋開了英偉達GPU頗為倚仗的HBM與CoWoS封裝,其採用14nm製程,搭載230MB SRAM,內存帶寬達到80TB/s。算力方面,其整型(8位)運算速率為750TOPs,浮點(16位)運算速率為188TFLOPs。

值患上留意的是,「快」是Groq芯片主打的優點,也是其运用的SRAM最突出的強項之一。

SRAM是当初讀寫最快的存儲設備之一,但其價格昂貴,因此僅在要求厚道的中间运用,比喻CPU一級緩衝、二級緩衝。

華西證券指出,可用於存算一體的成熟存儲器有Nor Flash、SRAM、DRAM、RRAM、MRAM等。其中,SRAM在速率方面以及能效好比面具备優勢,特別是在存內邏輯技術發展起來之後,具备明顯的高能效以及高精度特點。SRAM、RRAM有望成為雲端存算一體干流介質。

(來源:科創板日報)

責任編輯: 文劼
热门文章

0.7067s , 11173.1796875 kb

Copyright © 2024 Powered by 英偉達被「偷家」?全新AI芯片橫空诞生 速率比GPU快十倍,头一无二网  

sitemap

Top