免费无码不卡视频在线观看-日本人妻巨大乳挤奶水-国产精品国产精品国产专区不卡-大学生高潮无套内谢视频

電子方案開發供應鏈平臺
一鍵發布任務
獲取驗證碼
返回

發布成功


贊賞作者

贊賞金額:

  • ¥2
  • ¥5
  • ¥10
  • ¥50
  • ¥100
  • ¥200

支付金額:5

支付方式:

微信支付

贊賞成功!
你的贊賞是對作者最大的肯定~?

當前位置 : 首頁 > 方案訊 > 方案訊詳情
5nm實驗芯片用INT4達到INT8的精度
發布時間:2022-12-12 閱讀量:1307 來源:我愛方案網整理 作者:我愛方案網

32位與16位格式的混合精度訓練,正是當前深度學習的主流。最新的英偉達核彈GPU H100,剛剛添加上對8位浮點數格式FP8的支持。英偉達首席科學家Bill Dally現在又表示,他們還有一個“秘密武器”: 在IEEE計算機運算研討會上,他介紹了一種實驗性5nm芯片,可以混合使用8位與4位格式,并且在4位上得到近似8位的精度。  

 

目前這種芯片還在開發中,主要用于深度學習推理所用的INT4和INT8格式,對于如何應用在訓練中也在研究了。相關論文已發表在2022 IEEE Symposium on VLSI Technology上。     

 

5nm實驗芯片用INT4達到INT8的精度

 

新的量化技術

 

降低數字格式而不造成重大精度損失,要歸功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術。  

 

具體來說,一個INT4數字只能精確表示從-8716個整數。  

 

其他數字都會四舍五入到這16個值上,中間產生的精度損失被稱為量化噪聲。  

 

傳統的量化方法給每個矩陣添加一個縮放因子來減少噪聲,VSQ則在這基礎之上給每個向量都添加縮放因子,進一步減少噪聲。

   

5nm實驗芯片用INT4達到INT8的精度

 

關鍵之處在于,縮放因子的值要匹配在神經網絡中實際需要表示的數字范圍。  

 

英偉達研究人員發現,每64個數字為一組賦予獨立調整過的縮放因子可以最小化量化誤差。  

 

計算縮放因子的開銷可以忽略不計,從INT8降為INT4則讓能量效率增加了一倍。   

 

5nm實驗芯片用INT4達到INT8的精度

 

Bill Dally認為,結合上INT4計算、VSQ技術和其他優化方法后,新型芯片可以達到Hopper架構每瓦運算速度的10倍。   

 

還有哪些降低計算量的努力

 

除了英偉達之外,業界還有更多降低計算量的工作也在這次IEEE研討會上亮相。  

 

馬德里康普頓斯大學的一組研究人員設計出基于Posits格式的處理器核心,與Float浮點數相比準確性提高了多達4個數量級。  

 

Posits與Float相比,增加了一個可變長度的Regime區域,用來表示指數的指數。  

 

對于0附近的較小數字只需要占用兩個位,而這類數字正是在神經網絡中大量使用的。  

 

適用Posits格式的新硬件基于FPGA開發,研究人員發現可以用芯片的面積和功耗來提高精度,而不用增加計算時間。    

 

5nm實驗芯片用INT4達到INT8的精度

 

ETH Zurich一個團隊的研究基于RISC-V,他們把兩次混合精度的積和熔加計算(fused multiply-addFMA)放在一起平行計算。  

 

這樣可以防止兩次計算之間的精度損失,還可以提高內存利用率。  

 

FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的ab會使用較低精度,而c和輸出的d使用較高精度。  

 

研究人員模擬了新方法可以使計算時間減少幾乎一半,同時輸出精度有所提高,特別是對于大矢量的計算。  

 

相應的硬件實現正在開發中。    

 

5nm實驗芯片用INT4達到INT8的精度

 

巴塞羅那超算中心和英特爾團隊的研究也和FMA相關,致力于神經網絡訓練可以完全使用BF16格式完成。  

 

BF16格式已在DALL·E 2等大型網絡訓練中得到應用,不過還需要與更高精度的FP32結合,并且在兩者之間來回轉換。  

 

這是因為神經網絡訓練中只有一部分計算不會因BF16而降低精度。  

 

最新解決辦法開發了一個擴展的格式BF16-N,將幾個BF16數字組合起來表示一個數,可以在不顯著犧牲精度的情況下更有效進行FMA計算    

 

5nm實驗芯片用INT4達到INT8的精度

 

關鍵之處在于,FMA計算單元的面積只受尾數位影響。  

 

比如FP32有23個尾數位,需要576個單位的面積,而BF16-2只需要192個,減少了2/3。  

 

另外這項工作的論文題目也很有意思,BF16 is All You Need。

 

5nm實驗芯片用INT4達到INT8的精度

 

關于我愛方案網

 

我愛方案網是一個電子方案開發供應鏈平臺,提供從找方案到研發采購的全鏈條服務。找方案,上我愛方案網!在方案超市找到合適的方案就可以直接買,沒有找到就到快包定制開發。我愛方案網積累了一大批方案商和企業開發資源,能提供標準的模塊和核心板以及定制開發服務,按要求交付PCBA、整機產品、軟件或IoT系統。更多信息,敬請訪問http://www.4hymn.com


文章評論

您需要登錄才可以對文章進行評論。

沒有賬號?立即注冊

最新活動
意見反饋
取消