免费无码不卡视频在线观看-日本人妻巨大乳挤奶水-国产精品国产精品国产专区不卡-大学生高潮无套内谢视频

電子方案開發(fā)供應(yīng)鏈平臺
一鍵發(fā)布任務(wù)
獲取驗證碼
返回

發(fā)布成功


贊賞作者

贊賞金額:

  • ¥2
  • ¥5
  • ¥10
  • ¥50
  • ¥100
  • ¥200

支付金額:5

支付方式:

微信支付

贊賞成功!
你的贊賞是對作者最大的肯定~?

當(dāng)前位置 : 首頁 > 方案訊 > 方案訊詳情
AI為啥要用GPU計算,而不是CPU?
發(fā)布時間:2023-05-10 閱讀量:7356 來源:面包板社區(qū) 作者:布蘭姥爺
一、前言



GPT的發(fā)布讓AI再次熱了起來,與上次阿爾法狗不同的是,現(xiàn)在人人都可以跟聊上幾句,給它出出難題,還能調(diào)戲下。同期英偉達(dá)發(fā)布了針對AI領(lǐng)域的全新GPU H100,有的童鞋會疑惑,這個英偉達(dá)不是做顯卡打游戲的嗎,怎么就跟AI扯上關(guān)系了。其實英偉達(dá)的顯卡不是簡單的與AI有關(guān)系,而是大有關(guān)系。


二、圖形處理與GPU


GPU的起源確實是基于圖形處理的需求。早期還沒有專門GPU時,我們打游戲所有的邏輯處理都放在CPU執(zhí)行,CPU的處理能力越來越強(qiáng),但經(jīng)不

住游戲畫面增長的更快,這就對圖形處理提出了更高的要求。


而圖形處理的本質(zhì)其實就是光影的計算,以下圖為例,在屏幕上畫一個圓非常簡單。


image.png

但如過要讓這個圓“立體”起來,其實就是要給它加上光影,像下圖這樣。

image.png


游戲畫面也是這樣的邏輯,一個畫面優(yōu)質(zhì)的游戲一定是有豐富的光影效果,而光影效果的本質(zhì)其實就是在虛擬的3維空間里,模擬光的照射。屏幕中的畫面其實就是特定角度下,由計算機(jī)計算出的,你應(yīng)該看到的光影效果。


image.png


需要特別注意的是,游戲中你會不停的移動,也就是所有光影的效果都需要實時的計算出來。假設(shè)屏幕分辨率為1920*1080,即2073600(207.36萬)個像素,游戲中每個像素都需要根據(jù)光影參數(shù)來計算顯示的顏色和明暗。假設(shè)一個常見的Inter I5 CPU主頻為3.2GHz,即最多每秒可做32億次運(yùn)算。但這里的一次運(yùn)算只是做了一次簡單的二進(jìn)制加減法或數(shù)據(jù)讀取,一個像素的光影計算我們可以假設(shè)需要100次運(yùn)算,即CPU一秒約處理3200萬次像素運(yùn)算,大概15張圖片,用專業(yè)點的說法,這個游戲流暢度大概是每秒15幀的樣子。


那我們能不能繼續(xù)提升CPU的主頻呢,可以但是能提升的空間非常有限。所謂主頻本質(zhì)上其實就是一個節(jié)拍器,CPU執(zhí)行命令時其實是要按照一個特定的節(jié)拍來同步其各模塊的操作。可以想象CPU其實就是個工廠流水線,1+1=2的本質(zhì)其實至少包含了3個步驟:


1、將第一個1和第二個1從內(nèi)存提取到CPU
2、兩個1在CPU中相加得到2
3、將2從CPU存放到內(nèi)存


本質(zhì)上來說,所有的指令操作、圖形計算,最終到達(dá)CPU時都會被拆分成類似于1+1=2這樣的加法運(yùn)算。而每一個節(jié)拍又只能執(zhí)行其中的一步,如果我們可以將節(jié)拍打的更快一些,上述3個步驟執(zhí)行的也就越快,那我們就說CPU的頻率越高。但再往下看,我們打節(jié)拍又受到了晶體管開關(guān)速度的限制。簡單來說,節(jié)拍打的越快,晶體管的開關(guān)速度也就更高,這就直接導(dǎo)致了CPU的發(fā)熱問題。所以目前高性能CPU的頻率始終被限制在5GHz,可見從CPU頻率上已沒有太多空間可以提升。工程師們就想到“其實任何一個像素的計算與其他像素的計算結(jié)果關(guān)系不大”,那為啥不多整幾個計算核心“并行”計算呢,于是GPU就出現(xiàn)了。


一個典型的顯卡GTX1060,主頻是1.5GHz大概是Inter I5一半左右,但是它具備1280個計算核心。每個計算核心每秒可做15億次運(yùn)算,1280個核心每秒就是19200億次運(yùn)算,那一秒可以處理192億次像素計算,大概925張圖片,是CPU計算能力的61倍!但GPU的特性只能應(yīng)用于圖形計算這種可以并行的任務(wù),若是做普通的串行任務(wù)其速度遠(yuǎn)遠(yuǎn)不如CPU。


image.png

那我們能不能把CPU和GPU結(jié)合起來,讓他頻率高,核心數(shù)量還多呢?還是不得行,上千個核心提升一點點的主頻就會帶來一些列問題,比如撒熱、抖動、穩(wěn)定性等等。所以內(nèi)核數(shù)與頻率就是不可能三角,CPU與GPU都只能側(cè)重于其中一面,在不同的領(lǐng)域發(fā)揮作用。


AI的本質(zhì)其實與游戲差不多,也是大量的計算,只是計算的數(shù)據(jù)量會更龐大。


三、AI訓(xùn)練與矩陣計算


所謂訓(xùn)練AI,其實就是向神經(jīng)網(wǎng)絡(luò)中投喂大量的數(shù)據(jù)。比如我想要生成美女圖片,以前的做法是建設(shè)一個有足夠素材的庫,讓美女的各個元素(手、腳、嘴巴、眼睛、身材等等)隨機(jī)組合在一起,結(jié)果可能差強(qiáng)人意。現(xiàn)在則只需要向神經(jīng)網(wǎng)絡(luò)里導(dǎo)入大量的美女圖片,當(dāng)你導(dǎo)入的圖片數(shù)量足夠多時,神經(jīng)網(wǎng)絡(luò)也就“學(xué)會”了什么是美女,這樣它就能自動產(chǎn)出美女。相對應(yīng)的,如果你一直輸入的是猛男,那它也只能生產(chǎn)猛男了。


我們知道其實圖片就是像素構(gòu)成的,比如下面這張圖的像素是8x8(簡化示意),也就是64個像素點,我們可以用1x64這樣的數(shù)組來表示它。

image.png


以下圖這樣的3層神經(jīng)網(wǎng)絡(luò)為例(原本是7個輸入,我們修改為64個輸入),所謂的數(shù)據(jù)“投喂”其實就是將圖片以64個數(shù)字表示,然后輸入到網(wǎng)絡(luò)中。

image.png
具體怎么輸入呢,其實就是以A0(圖片原始數(shù)據(jù))為基礎(chǔ),來計算A1,接著以A1為基礎(chǔ)計算A2、A3及最終結(jié)果A4。計算過程遵循以下公式:


A1 = W1*A0 + b1
A2 = W2*A1 + b2
A3 = W3*A2 + b3
A4 = W3*A3 + b4


其中W1\W2\W3\W4、A1\A2\A3\A4的數(shù)據(jù)量大小由每一層神經(jīng)元的個數(shù)決定,比如我們每一層設(shè)置為64個神經(jīng)元,則W1是一個64x64的數(shù)字矩陣,A1則是1x64的數(shù)字矩陣(與輸入一樣)。下圖是一個矩陣相乘的示意。

image.png


所以對神經(jīng)網(wǎng)絡(luò)的投喂問題就變成了A0與W1兩個數(shù)據(jù)矩陣的乘法問題,那么每一層神經(jīng)網(wǎng)絡(luò)的計算就需要至少4096次乘法計算,3層網(wǎng)絡(luò)就需要至少12288次乘法計算。這還只是64x64像素的圖片,如果是1280x1280的像素,就需要數(shù)百萬次計算。


我們很容易就能想到也可以用GPU(顯卡)來執(zhí)行這些計算,因為每一張圖片的輸入都可以獨(dú)立運(yùn)行,那么我們給顯卡的每一個核都輸入一張圖片,那同時就可以有上千張圖片一起在計算,這樣的計算效率自然是杠杠的。


五、AI與算力


綜上所述,AI的發(fā)展離不開大量的算力資源,以GPT4來說,每1000字的算力大約需要0.06美元(約0.4元)。在小規(guī)模使用時可能還看不出成本的高低,當(dāng)AI成為基礎(chǔ)設(shè)施,比如搜索引擎,每天上億次的搜索頻率,成本可能也會去到上億的數(shù)量級,這還只是其中一個應(yīng)用。所以未來AI的發(fā)展離不開算力,英偉達(dá)則是在顯卡的基礎(chǔ)上,專門針對AI開發(fā)了特殊的GPU以滿足算力需求,但可見的未來還是遠(yuǎn)遠(yuǎn)不夠的。


參考前幾年的數(shù)字挖礦,顯卡的價格將迎來一波上漲。除計算性能外,另外還有更大的成本就是電力。所以可以預(yù)見的是,國內(nèi)會出現(xiàn)一批專門做AI芯片設(shè)計的公司(參考比特大陸),還會有一批將數(shù)據(jù)中心建設(shè)到大西北以獲取更廉價電力的小團(tuán)隊(普通人的機(jī)會),這些還都是國家大力支持的。所以發(fā)財?shù)穆纷右呀?jīng)有了,諸位加油。

作者:布蘭姥爺

來源:面包板社區(qū)

https://mbb.eet-china.com/blog/3887969-441194.html

本文已獲授權(quán)




文章評論

您需要登錄才可以對文章進(jìn)行評論。

沒有賬號?立即注冊

最新活動
意見反饋
取消