• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種節(jié)省資源的矩陣運(yùn)算單元硬件微架構(gòu)設(shè)計(jì)

    2024-09-12 00:00:00潘于田映輝張偉楊建磊申奇
    現(xiàn)代電子技術(shù) 2024年5期
    關(guān)鍵詞:人工智能

    摘" 要: 為了實(shí)現(xiàn)人工智能和高性能計(jì)算在不同應(yīng)用領(lǐng)域下的快速運(yùn)算,需借助人工智能加速器(NPU)或者通用圖形處理器(GPGPU)對(duì)其進(jìn)行加速。由于矩陣運(yùn)算是人工智能和高性能計(jì)算的核心運(yùn)算,文中提出一種節(jié)省資源的矩陣運(yùn)算單元架構(gòu)的實(shí)現(xiàn)方案。通過(guò)對(duì)矩陣運(yùn)算單元中每個(gè)子運(yùn)算單元中的乘法器和加法器數(shù)量進(jìn)行擴(kuò)展,并將輸入數(shù)據(jù)按行列廣播到矩陣運(yùn)算單元上的各個(gè)子運(yùn)算單元可實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。通過(guò)利用PE矩陣之間的數(shù)據(jù)共享,采用新型的PE矩陣互聯(lián)方案,可達(dá)到在減少帶寬資源的同時(shí)提升算力的目的。與現(xiàn)有NPU或GPGPU的矩陣運(yùn)算實(shí)現(xiàn)方案相比,所提方案使用更少的加法器和寄存器即可實(shí)現(xiàn)相同的算力,且在更低的時(shí)鐘延遲和帶寬消耗下即可完成對(duì)相同規(guī)模矩陣運(yùn)算的加速。

    關(guān)鍵詞: 人工智能; 高性能計(jì)算; 矩陣運(yùn)算; 節(jié)省資源; 低時(shí)鐘延遲; GPGPU

    中圖分類號(hào): TN02?34; TP183" " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " 文章編號(hào): 1004?373X(2024)05?0160?07

    Design of hardware microarchitecture of resource?efficient matrix operation unit

    PAN Yu1, TIAN Yinghui1, ZHANG Wei1, YANG Jianlei2, SHEN Qi3

    (1. Hygon Information Technology Co., Ltd., Beijing 100193, China;

    2. Beihang University, Beijing 100191, China;

    3. China Unicom Smart City Research Institute, Beijing 100037, China)

    Abstract: It is necessary to use artificial intelligence accelerator NPU (neural processing unit) or GPGPU (general?purpose graphics processing unit) for acceleration, so as to realize the fast computation of artificial intelligence and high performance computing in different fields. Since the matrix operation is the core operation of artificial intelligence and high performance computing, an implementation scheme of resource?efficient matrix operation unit architecture is proposed. By expanding the number of multipliers and adders in each sub?unit of matrix arithmetic unit and broadcasting the input data to each sub?unit of matrix arithmetic unit by row and column, the acceleration of matrix arithmetic unit can be realized. By using the data sharing between PE matrix and adopting the new PE matrix interconnection scheme, the purpose of reducing bandwidth resources and increasing computing power can be achieved. In comparison with the existing implementation scheme of matrix operation of NPU or GPGPU, the proposed one can achieve the same computing power with fewer adders and registers, and can complete the acceleration of the same scale matrix operation with low clock latency and bandwidth consumption.

    Keywords: artificial intelligence; high performance computing; matrix operation; resource?efficient; low clock latency; GPGPU

    0" 引" 言

    隨著人工智能技術(shù)的不斷發(fā)展,其已經(jīng)在許多領(lǐng)域得到了廣泛的應(yīng)用。伴隨著各種應(yīng)用需求,出現(xiàn)了越來(lái)越多復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)模型[1?5],這些模型通常具有網(wǎng)絡(luò)層數(shù)多、運(yùn)算量巨大的特點(diǎn),因此運(yùn)算的實(shí)時(shí)性成為這些應(yīng)用的瓶頸。為了保證運(yùn)算的實(shí)時(shí)性,通常使用NPU和GPGPU來(lái)實(shí)現(xiàn)對(duì)各種深度學(xué)習(xí)網(wǎng)絡(luò)模型的加速。深度學(xué)習(xí)網(wǎng)絡(luò)模型的底層核心是卷積運(yùn)算和矩陣運(yùn)算,而通??墒褂镁仃囘\(yùn)算來(lái)實(shí)現(xiàn)卷積運(yùn)算,因此為了更好地實(shí)現(xiàn)對(duì)各種深度學(xué)習(xí)網(wǎng)絡(luò)的加速,對(duì)矩陣運(yùn)算進(jìn)行加速至關(guān)重要。最新的NPU[6?9]、GPGPU以及矩陣加速器[10]都有專門的模塊來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。

    而在其他應(yīng)用領(lǐng)域,如生命科學(xué)、氣象、圖像處理、航空航天及石油勘探等領(lǐng)域,同樣需要GPGPU對(duì)其進(jìn)行加速。這些高性能計(jì)算應(yīng)用中許多也都需要用到矩陣運(yùn)算。

    因此,設(shè)計(jì)一款高性能、低功耗以及面積開銷小的適用于實(shí)現(xiàn)矩陣運(yùn)算的硬件單元對(duì)于NPU或者GPGPU至關(guān)重要。目前業(yè)界最知名的NPU/GPGPU處理器設(shè)計(jì)廠商如谷歌、英偉達(dá)和AMD的產(chǎn)品都可以實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。谷歌公司基于脈動(dòng)陣列的思路設(shè)計(jì)了TPU(Tensor Processing Unit)[11]來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速;英偉達(dá)公司在其GPU中專門設(shè)計(jì)了TENSOR CORE[12]來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速;AMD的GPU中并沒(méi)有設(shè)計(jì)單獨(dú)的矩陣運(yùn)算單元來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速,其利用內(nèi)部的向量運(yùn)算單元將矩陣運(yùn)算拆解為并行的乘加運(yùn)算來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。

    本文提出了一種節(jié)省資源的PE矩陣(矩陣運(yùn)算單元)架構(gòu)的實(shí)現(xiàn)方案,該P(yáng)E矩陣可實(shí)現(xiàn)矩陣乘法運(yùn)算。通過(guò)對(duì)PE矩陣中每個(gè)PE單元(子運(yùn)算單元)進(jìn)行變化,將每個(gè)PE單元中的乘法器個(gè)數(shù)增加,并在每個(gè)PE單元中實(shí)現(xiàn)多個(gè)乘法器結(jié)果的累加,使每個(gè)PE單元可實(shí)現(xiàn)多對(duì)數(shù)據(jù)的乘累加以達(dá)到向量運(yùn)算的目的。相比于業(yè)界現(xiàn)有矩陣運(yùn)算加速單元每個(gè)PE單元只有一個(gè)乘法器的實(shí)現(xiàn)方案,本文方案使用更少的加法器和寄存器數(shù)即可實(shí)現(xiàn)相同的算力。同時(shí),通過(guò)將輸入數(shù)據(jù)按行、按列廣播到PE矩陣上的各個(gè)PE單元,本文方案可在更短的時(shí)鐘延遲下完成對(duì)相同規(guī)模矩陣運(yùn)算的加速。另外,本文提出了一種新型的PE矩陣Mesh結(jié)構(gòu),使用該方法可以在不增加后端實(shí)現(xiàn)復(fù)雜度的情況下顯著減少帶寬消耗,且進(jìn)一步提升在大算力下的可實(shí)現(xiàn)性。

    1" 設(shè)計(jì)背景及相關(guān)工作研究

    1.1" 設(shè)計(jì)背景

    矩陣運(yùn)算的本質(zhì)是乘加運(yùn)算,合理的對(duì)乘加運(yùn)算進(jìn)行調(diào)度是更好地實(shí)現(xiàn)矩陣運(yùn)算的關(guān)鍵。對(duì)于維度為[X]×[Y]的矩陣[A]乘以維度為[Y]×[Z]的矩陣[B],其將得到維度為[X]×[Z]的結(jié)果矩陣[C]。

    [a0,0…a0,Y-1???aX-1,0…aX-1,Y-1?b0,0…b0,Z-1???bY-1,0…bY-1,Z-1=c0,0…c0,Z-1???cX-1,0…cX-1,Z-1] (1)

    式中結(jié)果矩陣[C]中的每個(gè)元素[ci,j=m=0Y-1ai,m?bm,j],[0≤i≤X-1],[0≤j≤Z-1]。

    在多種應(yīng)用領(lǐng)域下常需要對(duì)大規(guī)模矩陣運(yùn)算進(jìn)行加速,即需要實(shí)現(xiàn)對(duì)上述公式的加速。因此,有必要設(shè)計(jì)一款專門的矩陣運(yùn)算單元來(lái)高效地實(shí)現(xiàn)上述矩陣運(yùn)算。

    1.2" 相關(guān)工作研究

    為了實(shí)現(xiàn)上述矩陣運(yùn)算,谷歌公司專門設(shè)計(jì)了一款TPU來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。TPU采用脈動(dòng)陣列的方式實(shí)現(xiàn)矩陣運(yùn)算,其核心是一個(gè)[N]×[N]的脈動(dòng)陣列。圖1以大小為4×4的脈動(dòng)陣列為例進(jìn)行說(shuō)明。其權(quán)重被提前裝載到脈動(dòng)陣列中,權(quán)重系數(shù)可認(rèn)為上述公式(1)中矩陣運(yùn)算的矩陣[A],矩陣[A]中的每個(gè)元素[aj,i]被提前裝載到脈動(dòng)陣列的[PEi,j]中,這里[0≤i≤3],[0≤j≤3]。矩陣[B]作為輸入特征圖,從左到右水平地輸入到脈動(dòng)陣列當(dāng)中。部分和從上到下垂直移動(dòng),脈動(dòng)陣列最后一行的PE單元輸出矩陣運(yùn)算的結(jié)果。

    在TPU脈動(dòng)陣列中,每個(gè)[PEi,j]單元的硬件電路如圖2所示。圖2中上方的寄存器(reg)用于預(yù)先裝載[A]矩陣中元素[aj,i];乘法器用于實(shí)現(xiàn)[B]矩陣的元素[bi,k]與[aj,i]的乘積,[0≤k≤3];圖2中下方的寄存器用于存儲(chǔ)部分和,同時(shí)輸出當(dāng)前PE單元的部分和給其下方的PE單元。對(duì)于脈動(dòng)陣列最后一行的PE單元,其輸出矩陣運(yùn)算的最終結(jié)果。加法器用于實(shí)現(xiàn)乘法器輸出與部分和結(jié)果的累加,這里輸入給加法器的部分和結(jié)果來(lái)自于當(dāng)前PE單元上方PE單元的運(yùn)算結(jié)果。

    谷歌公司的脈動(dòng)陣列在實(shí)現(xiàn)矩陣運(yùn)算時(shí)需要將矩陣[A]中的各個(gè)元素提前存儲(chǔ)到脈動(dòng)陣列中,當(dāng)矩陣[A]發(fā)生變化時(shí),每次都需要預(yù)先加載矩陣[A]的數(shù)據(jù)到脈動(dòng)陣列中。當(dāng)每次矩陣運(yùn)算的矩陣[A]都不相同時(shí),預(yù)先裝載矩陣[A]到脈動(dòng)陣列中會(huì)使矩陣運(yùn)算的運(yùn)算時(shí)間受到影響。

    為此,一些設(shè)計(jì)采用經(jīng)典脈動(dòng)陣列[13?16]的方式實(shí)現(xiàn)矩陣運(yùn)算,圖3展示了其中一種經(jīng)典脈動(dòng)陣列的實(shí)現(xiàn)方式。此時(shí)[A]矩陣從左到右輸入到脈動(dòng)陣列,[B]矩陣從上到下輸入到脈動(dòng)陣列。不同于TPU中的脈動(dòng)陣列只在最后一行的PE單元輸出最終運(yùn)算結(jié)果,該方法下脈動(dòng)陣列中的每個(gè)PE單元都會(huì)輸出矩陣運(yùn)算的最終結(jié)果。

    圖3所示脈動(dòng)陣列中每個(gè)PE單元的運(yùn)算結(jié)構(gòu)如圖4所示,其乘法器用于接收矩陣[A]和矩陣[B]的元素實(shí)現(xiàn)乘法運(yùn)算,加法器用于實(shí)現(xiàn)累加運(yùn)算,寄存器用于存儲(chǔ)部分和以及最終的運(yùn)算結(jié)果。當(dāng)寄存器輸出最終運(yùn)算結(jié)果時(shí),多路選擇器選擇將數(shù)據(jù)0輸入到加法器的其中一個(gè)輸入端口。

    為了實(shí)現(xiàn)上述矩陣運(yùn)算,英偉達(dá)公司在其最新的幾款GPU產(chǎn)品中專門加入了Tensor Core(張量核心)來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。其具體實(shí)現(xiàn)細(xì)節(jié)并沒(méi)有在其白皮書中完整的說(shuō)明。

    AMD沒(méi)有在其GPU中設(shè)計(jì)專門的用于計(jì)算矩陣運(yùn)算的單元,其通過(guò)將矩陣運(yùn)算轉(zhuǎn)換成并行的乘加運(yùn)算,利用其CU(Compute Unit)內(nèi)部SIMD(Single Instruction Multiple Data)下的多個(gè)乘加單元的并行運(yùn)算來(lái)實(shí)現(xiàn)對(duì)矩陣運(yùn)算的加速。在相同算力的情況下,由于輸入輸出數(shù)據(jù)不停地和存儲(chǔ)媒介進(jìn)行交互,其加速能力不如專門的矩陣運(yùn)算加速單元。

    2" 本文架構(gòu)實(shí)現(xiàn)方案

    對(duì)于上述現(xiàn)有方案,其每個(gè)PE單元只能計(jì)算[a*b+c]。為了實(shí)現(xiàn)[a*b+c],每個(gè)PE單元有1個(gè)乘法器、1個(gè)加法器和1個(gè)用于存儲(chǔ)運(yùn)算結(jié)果的寄存器。為了提高算力,需要增加脈動(dòng)陣列中PE單元的個(gè)數(shù),因此脈動(dòng)陣列中加法器和乘法器的個(gè)數(shù)也成倍增加。同時(shí),為了實(shí)現(xiàn)脈動(dòng)陣列,在PE矩陣的數(shù)據(jù)輸入端口需要額外的寄存器來(lái)緩存輸入數(shù)據(jù),以實(shí)現(xiàn)時(shí)序匹配,此時(shí)所需的寄存器數(shù)量也隨之增加。脈動(dòng)陣列規(guī)模越大,需要的乘法器、加法器以及寄存器的數(shù)量就會(huì)成倍增加。

    通過(guò)對(duì)PE單元進(jìn)行改進(jìn),本文提出了一種在相同算力情況下減少加法器和寄存器使用數(shù)量的方案。在本設(shè)計(jì)中,每個(gè)周期矩陣[A]中同一行的相鄰多個(gè)元素同時(shí)輸入到PE矩陣對(duì)應(yīng)行的每個(gè)PE單元中,矩陣[B]中同一列的相鄰多個(gè)元素同時(shí)輸入到PE矩陣對(duì)應(yīng)列的每個(gè)PE單元中,即每個(gè)PE單元每個(gè)周期可以實(shí)現(xiàn)[a1*b1+a2*b2+…+an*bn]的運(yùn)算,即將傳統(tǒng)的PE單元執(zhí)行標(biāo)量運(yùn)算改進(jìn)為每個(gè)PE單元都可執(zhí)行向量運(yùn)算,這里[n]為每個(gè)PE單元中乘法器的個(gè)數(shù)。以[n]等于4為例,其PE單元的結(jié)構(gòu)如圖5所示。

    圖5中每個(gè)PE單元的乘法器個(gè)數(shù)為4,其對(duì)應(yīng)的加法器數(shù)量為3,寄存器的數(shù)量為1,其每次可以實(shí)現(xiàn)4對(duì)輸入元素的向量乘累加運(yùn)算。采用這種方案,雖然乘法器的數(shù)量提高了4倍,但加法器和寄存器數(shù)量并沒(méi)有與傳統(tǒng)架構(gòu)一樣提升4倍,其加法器的數(shù)量為3,寄存器的數(shù)量只為1,可見采用該方法可有效地減少資源消耗。

    此外,本文方案還對(duì)PE矩陣的實(shí)現(xiàn)進(jìn)行了優(yōu)化,如圖6所示,本文方案并沒(méi)有采用脈動(dòng)陣列的方式實(shí)現(xiàn)PE矩陣,而是將輸入矩陣[A]的各行數(shù)據(jù)廣播到PE矩陣對(duì)應(yīng)行的各個(gè)PE單元中,將輸入矩陣[B]的各列數(shù)據(jù)廣播到PE矩陣對(duì)應(yīng)列的各個(gè)PE單元中。此種方法可進(jìn)一步減少采用脈動(dòng)陣列時(shí)輸入端所需要的寄存器數(shù)目,同時(shí),其不需要額外的延時(shí)即可將輸入數(shù)據(jù)同時(shí)傳遞給各個(gè)PE單元。

    圖6以在4×4大小的PE矩陣中實(shí)現(xiàn)4×4大小的[A]矩陣乘以4×4大小的[B]矩陣為例,說(shuō)明矩陣運(yùn)算在本文方案PE矩陣中的運(yùn)算流程。

    在一個(gè)周期內(nèi),將矩陣[A]第一行的四個(gè)數(shù)據(jù)[a00~a03]同時(shí)廣播到PE矩陣第一行的4個(gè)PE單元PE00~PE03;將矩陣[A]第二行的四個(gè)數(shù)據(jù)[a10~a13]同時(shí)廣播到PE矩陣第二行的4個(gè)PE單元PE10~PE13;將矩陣[A]第三行的四個(gè)數(shù)據(jù)[a20~a23]同時(shí)廣播到PE矩陣第三行的4個(gè)PE單元PE20~PE23;將矩陣[A]第四行的四個(gè)數(shù)據(jù)[a30~a33]同時(shí)廣播到PE矩陣第四行的4個(gè)PE單元PE30~PE33。

    在該周期內(nèi),將矩陣[B]第一列的四個(gè)數(shù)據(jù)[b00~b30]同時(shí)廣播到PE矩陣第一列的4個(gè)PE單元PE00~PE30;將矩陣[B]第二列的四個(gè)數(shù)據(jù)[b01~b31]同時(shí)廣播到PE矩陣第二列的4個(gè)PE單元PE01~PE31;將矩陣[B]第三列的4個(gè)數(shù)據(jù)[b02~b32]同時(shí)廣播到PE矩陣第三列的4個(gè)PE單元PE02~PE32;將矩陣[B]第四列的四個(gè)數(shù)據(jù)[b03~b33]同時(shí)廣播到PE矩陣第四列的4個(gè)PE單元PE03~PE33。

    此時(shí)PE矩陣的各個(gè)PE單元只需一個(gè)周期即可同時(shí)計(jì)算出結(jié)果矩陣的16個(gè)運(yùn)算結(jié)果[c00~c03]、[c10~c13]、[c20~c23]、[c30~c33]。PE矩陣中的每個(gè)PE單元計(jì)算出結(jié)果矩陣的一個(gè)元素。例如,PE單元PE00執(zhí)行[c00=a00*b00+a01*b10+a02*b20+a03*b30]這4對(duì)輸入數(shù)據(jù)的乘加運(yùn)算;PE單元PE01執(zhí)行[c01=a00*b01+a01*b11+a02*b21+a03*b31]這4對(duì)輸入數(shù)據(jù)的乘加運(yùn)算;依此類推,其余PE單元同時(shí)完成各自的運(yùn)算。由于單周期內(nèi)同時(shí)輸出4×4大小的矩陣輸出結(jié)果,使得輸出結(jié)果的存儲(chǔ)控制邏輯也會(huì)相應(yīng)簡(jiǎn)化。

    當(dāng)其他形狀的矩陣[A]和矩陣[B]相乘時(shí),需要結(jié)合與PE矩陣交互的存儲(chǔ)器的讀寫控制邏輯,反復(fù)利用PE矩陣來(lái)完成各種形狀的矩陣乘法運(yùn)算。以大小為8×8的矩陣[A]和大小為8×4的矩陣[B]相乘為例,其可以拆解為多個(gè)4×4的矩陣乘法運(yùn)算以及相應(yīng)的累加運(yùn)算,其運(yùn)算流程如圖7所示。

    8×8矩陣乘以8×4的矩陣可以等效為式(2):

    [A00A01A10A11B00B10=C00C10] (2)

    式中:[A00]、[A01]、[A10]、[A11]、[B00]和[B10]都為4×4矩陣;結(jié)果矩陣[C00]和[C10]也都為4×4矩陣。

    [C00=A00*B00+A01*B10] (3)

    [C10=A10*B00+A11*B10] (4)

    根據(jù)式(2)~式(4),通過(guò)反復(fù)調(diào)用4×4矩陣運(yùn)算單元并執(zhí)行相應(yīng)的累加運(yùn)算,可以實(shí)現(xiàn)任意大規(guī)模的矩陣運(yùn)算。

    為了進(jìn)一步提高PE矩陣的運(yùn)算能力,通常采用增加PE矩陣尺寸的方法,例如將本文所示的PE矩陣大小從4×4增加到8×8甚至16×16。但隨著PE矩陣尺寸的增加,后端實(shí)現(xiàn)的難度也會(huì)隨之增加。為了提高后端的可實(shí)現(xiàn)性,同時(shí)實(shí)現(xiàn)更高的算力,通常采用分tile的方式來(lái)實(shí)現(xiàn),即用多個(gè)小尺寸的PE矩陣同時(shí)工作來(lái)完成更大規(guī)模的矩陣運(yùn)算。比如4個(gè)16×16的PE矩陣并行工作即可達(dá)到尺寸為32×32的PE矩陣的算力。

    本文展示了4個(gè)4×4大小的PE矩陣同時(shí)工作可實(shí)現(xiàn)更大算力的例子。其中每個(gè)PE矩陣在工作時(shí)都需要相應(yīng)的帶寬資源來(lái)向PE矩陣輸入矩陣[A]數(shù)據(jù)以及矩陣[B]數(shù)據(jù)。為了達(dá)到應(yīng)有的算力,多個(gè)PE矩陣同時(shí)工作時(shí),相應(yīng)的帶寬資源將成倍增加。

    本文提出一種新型的PE矩陣互聯(lián)方案,使得輸入到PE矩陣的數(shù)據(jù)被共享,進(jìn)而減少了多個(gè)PE矩陣同時(shí)工作時(shí)所需的總帶寬資源。

    對(duì)于8×4大小的[A]矩陣乘以4×8大小的[B]矩陣,每個(gè)PE矩陣執(zhí)行的操作如圖8所示。

    圖8中:PE00、PE01、PE10以及PE11都表示大小為4×4的PE矩陣。其中PE矩陣PE00用于計(jì)算[A]矩陣的前4行和[B]矩陣的前4列;PE矩陣PE01用于計(jì)算[A]矩陣的前4行和[B]矩陣的后4列;PE矩陣PE10用于計(jì)算[A]矩陣的后4行和[B]矩陣的前4列;PE矩陣PE11用于計(jì)算[A]矩陣的后4行和[B]矩陣的后4列。

    通過(guò)對(duì)PE矩陣進(jìn)行重新互聯(lián),并改動(dòng)每個(gè)PE矩陣在PE矩陣Mesh中的位置,利用數(shù)據(jù)共享可以達(dá)到減少帶寬資源的效果。與圖8對(duì)應(yīng)的PE矩陣Mesh結(jié)構(gòu)如圖9所示。

    在圖9中,利用Mesh結(jié)構(gòu)對(duì)矩陣數(shù)據(jù)進(jìn)行共享,并改動(dòng)PE矩陣在Mesh中的相對(duì)位置,使得4個(gè)PE矩陣整體的輸入帶寬資源減少一半。在圖9中,PE矩陣PE00和PE01共享數(shù)據(jù)[A0];PE矩陣PE00和PE10共享數(shù)據(jù)[B0];PE矩陣PE11和PE10共享數(shù)據(jù)[A1];PE矩陣PE11和PE01共享數(shù)據(jù)[B1]??梢钥吹剑瑘D9中每個(gè)PE矩陣在PE矩陣Mesh中的位置也有相應(yīng)的調(diào)整。在圖9中,輸入數(shù)據(jù)僅輸入給最左側(cè)一列PE矩陣,為了實(shí)現(xiàn)數(shù)據(jù)共享,也對(duì)PE矩陣的位置進(jìn)行了調(diào)整。將圖8所示的常規(guī)位置變?yōu)槿鐖D9所示的位置。當(dāng)PE矩陣Mesh規(guī)模進(jìn)一步增大時(shí),也僅有最左側(cè)一列PE矩陣接收輸入數(shù)據(jù),此時(shí)輸入帶寬資源會(huì)更顯著減少。而常規(guī)排列方法會(huì)使最左側(cè)一列和最上邊一行都有與外部數(shù)據(jù)的交互,增加了后端可實(shí)現(xiàn)的難度。

    3" 性能分析

    對(duì)于單個(gè)矩陣乘法運(yùn)算單元,考慮到頻率要求和后端的可實(shí)現(xiàn)性,本文設(shè)計(jì)采用的PE矩陣中的單個(gè)PE單元一般實(shí)現(xiàn)對(duì)4、8以及16對(duì)輸入數(shù)據(jù)的乘加運(yùn)算。當(dāng)輸入數(shù)據(jù)對(duì)數(shù)大于16時(shí)后端實(shí)現(xiàn)難度巨大,小于4時(shí)算力又顯不足。對(duì)于單個(gè)PE單元,輸入數(shù)據(jù)對(duì)數(shù)越大,PE單元能達(dá)到的最高頻率越低,同時(shí)后端實(shí)現(xiàn)該P(yáng)E矩陣的難度越大。在具體選擇PE矩陣大小時(shí),需根據(jù)算力、頻率的要求以及后端實(shí)現(xiàn)方案的難度,從上述三種情況中選擇一種實(shí)現(xiàn)。如果單個(gè)PE單元實(shí)現(xiàn)4對(duì)輸入數(shù)據(jù)的乘累加運(yùn)算,則相應(yīng)的PE矩陣大小為4×4,其乘法器個(gè)數(shù)為4×4×4;如果單個(gè)PE單元實(shí)現(xiàn)8對(duì)輸入數(shù)據(jù)的乘累加運(yùn)算,則相應(yīng)的PE矩陣大小為8×8,其乘法器個(gè)數(shù)為8×8×8;如果單個(gè)PE單元實(shí)現(xiàn)16對(duì)輸入數(shù)據(jù)的乘累加運(yùn)算,則相應(yīng)的PE矩陣大小為16×16,其乘法器個(gè)數(shù)為16×16×16??梢姰?dāng)進(jìn)一步增加規(guī)模時(shí),乘法器數(shù)將以指數(shù)增加,后端實(shí)現(xiàn)難度也將呈指數(shù)級(jí)增加。

    對(duì)于每個(gè)PE單元實(shí)現(xiàn)4對(duì)乘加運(yùn)算的情況,其相應(yīng)的PE矩陣大小為4×4,此種情況下,PE矩陣乘法器個(gè)數(shù)為64,加法器的個(gè)數(shù)為48,寄存器的個(gè)數(shù)為16。在相同算力下,采用TPU的矩陣乘法實(shí)現(xiàn)方案,需要的乘法器個(gè)數(shù)為64,加法器個(gè)數(shù)為64,寄存器的個(gè)數(shù)為212。在相同算力下,采用經(jīng)典脈動(dòng)陣列實(shí)現(xiàn)矩陣乘法的方案,需要的乘法器個(gè)數(shù)為64,加法器個(gè)數(shù)為64,寄存器個(gè)數(shù)為232。表1展示了各種方案下矩陣乘法單元的資源消耗情況。

    對(duì)于每個(gè)PE單元實(shí)現(xiàn)8對(duì)乘加運(yùn)算的情況,其相應(yīng)的PE矩陣大小為8×8,此種情況下,PE矩陣乘法器個(gè)數(shù)為512,加法器的個(gè)數(shù)為448,寄存器的個(gè)數(shù)為64。在相同算力下,采用TPU的矩陣乘法實(shí)現(xiàn)方案,需要的乘法器個(gè)數(shù)為512,加法器個(gè)數(shù)為512,寄存器的個(gè)數(shù)為2 000。在相同算力下,采用經(jīng)典脈動(dòng)陣列實(shí)現(xiàn)矩陣乘法的方案,需要的乘法器個(gè)數(shù)為512,加法器個(gè)數(shù)為512,寄存器個(gè)數(shù)為2 104。表2展示了各種方案下矩陣乘法單元的資源消耗情況。

    對(duì)于每個(gè)PE單元實(shí)現(xiàn)16對(duì)乘加運(yùn)算的情況,其相應(yīng)的PE矩陣大小為16×16,此種情況下,PE矩陣乘法器個(gè)數(shù)為4 096,加法器的個(gè)數(shù)為3 840,寄存器的個(gè)數(shù)為256。在相同算力下,采用TPU的矩陣乘法實(shí)現(xiàn)方案,需要的乘法器個(gè)數(shù)為4 096,加法器個(gè)數(shù)為4 096,寄存器的個(gè)數(shù)為14 240。在相同算力下,采用經(jīng)典脈動(dòng)陣列實(shí)現(xiàn)矩陣乘法的方案,需要的乘法器個(gè)數(shù)為4 096,加法器個(gè)數(shù)為4 096,寄存器個(gè)數(shù)為16 192。表3展示了各種方案下矩陣乘法單元的資源消耗情況。

    為了進(jìn)一步提高PE矩陣的算力,同時(shí)不增加后端實(shí)現(xiàn)的難度并減少帶寬消耗,本文提出了一種PE矩陣之間的互聯(lián)方案。表4給出了在不同PE矩陣Mesh規(guī)模下,帶寬資源節(jié)省的倍數(shù)。由于任意地增加PE矩陣Mesh的規(guī)模同樣會(huì)增加后端的實(shí)現(xiàn)難度,表4僅給出大小為2×2、4×4以及8×8情況下帶寬資源節(jié)省的倍數(shù)。可見,采用本文所示的PE矩陣互聯(lián)方案可以有效減少帶寬資源的消耗。

    為了方便驗(yàn)證,圖10展示了2×2大小的PE矩陣波形圖,PE矩陣中每個(gè)PE單元包含2個(gè)乘法器,即每個(gè)PE單元的計(jì)算并行度為2。其中[a00]、[a01]、[a10]以及[a11]為矩陣[a]的輸入數(shù)據(jù),[b00]、[b01]、[b10]以及[b11]為矩陣[b]的數(shù)據(jù),[c00]、[c01]、[c10]以及[c11]為PE矩陣的輸出結(jié)果。由圖10可見,每個(gè)周期2×2大小的矩陣結(jié)果同時(shí)輸出。

    綜上所述,相比于業(yè)內(nèi)流行的兩種矩陣運(yùn)算實(shí)現(xiàn)方案,在實(shí)現(xiàn)相同算力的情況下,使用本文方案可使硬件資源消耗更少。同時(shí),相比于TPU在每次進(jìn)行矩陣運(yùn)算時(shí),對(duì)于不同的矩陣[A],TPU都需要將[A]矩陣的元素預(yù)先加載到脈動(dòng)陣列中,本文設(shè)計(jì)不需要額外的矩陣加載過(guò)程,因此相比于TPU來(lái)說(shuō)進(jìn)一步地減少了處理時(shí)間。此外,相比于業(yè)內(nèi)流行的兩種矩陣運(yùn)算實(shí)現(xiàn)方案,本文方案在PE矩陣的輸入端口并沒(méi)有用于匹配時(shí)序的寄存器,其可以進(jìn)一步減少矩陣運(yùn)算的latency。同時(shí),采用本文提出的PE矩陣互聯(lián)方案可以在節(jié)省帶寬資源且不增加后端實(shí)現(xiàn)復(fù)雜度的情況下進(jìn)一步提升算力,以實(shí)現(xiàn)算力的擴(kuò)展。因此,本文方案可以作為實(shí)現(xiàn)矩陣運(yùn)算的有效實(shí)現(xiàn)方案。

    4" 結(jié)" 語(yǔ)

    本文介紹了實(shí)現(xiàn)矩陣運(yùn)算加速的硬件微架構(gòu)方案,分析了業(yè)界實(shí)現(xiàn)矩陣運(yùn)算的通用方法,并對(duì)谷歌的TPU和通用脈動(dòng)陣列進(jìn)行了詳細(xì)的分析。為了進(jìn)一步減少硬件資源消耗,本文設(shè)計(jì)了一種改進(jìn)型PE矩陣,該P(yáng)E矩陣將數(shù)據(jù)廣播到多個(gè)PE單元,減少了通用方法中對(duì)輸入端寄存器的使用。本文方案使用可同時(shí)進(jìn)行多對(duì)輸入數(shù)據(jù)乘加運(yùn)算的PE單元,進(jìn)一步減少了對(duì)加法器和寄存器的使用,達(dá)到了減少硬件資源消耗的目的。同時(shí),采用本文提出的PE矩陣互聯(lián)方案可進(jìn)一步提升算力,其可以在不增加后端實(shí)現(xiàn)復(fù)雜度的情況下減少帶寬資源。經(jīng)過(guò)分析表明,在具有相同算力的情況下,使用本文方案可以在使用更少硬件資源以及帶寬的情況下達(dá)到更少的運(yùn)算延遲,因此是實(shí)現(xiàn)矩陣運(yùn)算加速的一種有效方案。

    注:本文通訊作者為田映輝。

    參考文獻(xiàn)

    [1] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 770?778.

    [2] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 6848?6856.

    [3] VASWANI A, SHAZZER N, PARMAR N, et al. Attention is all you need [C]// 2017 Conference and Workshop on Neural Information Processing Systems (NIPS). [S.l.: s.n.], 2017: 1?11.

    [4] HUANG G, LIU Z, WEINBERGER K Q. Densely connected convolutional networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2017: 4700?4708.

    [5] BENJUMEA A, TEETI I, CUZZOLIN F, et al. YOLO?Z: Impro?ving small object detection in YOLOv5 for autonomous vehicles [C]// IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 1?11.

    [6] GOPAL R, ANTON B, NARENDRA D, et al. Data multiplexed and hardware reused architecture for deep neural network acce?lerator [J]. Neurocomputing, 2022, 486: 147?159.

    [7] PRATAP S R, SHREYAM K, JUGAL G, et al. A time domain 2D OaA?based convolutional neural networks accelerator [J]. Memories: Materials, devices, circuits and systems, 2023, 4: 100041.

    [8] CHEN Y R, XIE Y, SONG L H, et al. A survey of accelerator architectures for deep neural networks [J]. Engineering, 2020, 6: 264?274.

    [9] LI T, SHEN L. A sparse matrix vector multiplication accelerator based on high?bandwidth memory [J]. Computers and electrical engineering, 2023, 105: 108488.

    [10] HAMEED K F, ADEEL P M, SHAHID M. Toward designing a hardware accelerator for 3D convolutional neural networks [J]. Computers and electrical engineering, 2023, 105: 108489.

    [11] JOUPPI N P, YOUNG C, PATIL N, et al. In?datacenter performance analysis of a tensor processing unit [C]// 2017 ACM/IEEE Annual International Symposium on Computer Architecture (ISCA). New York: IEEE, 2017: 1?12.

    [12] NVIDIA Corporation. NVIDIA A100 tensor core GPU architecture [M]. USA: NVIDIA Corporation, 2022.

    [13] 王陽(yáng),陶華敏,肖山竹,等.基于脈動(dòng)陣列的矩陣乘法器硬件加速技術(shù)研究[J].微電子學(xué)與計(jì)算機(jī),2015,32(11):120?124.

    [14] 劉勤讓,劉崇陽(yáng),周俊,等.基于線性脈動(dòng)陣列的卷積神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化與性能分析[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2018,4(12):16?24.

    [15] XU R, MA S, WANG Y H, et al. Heterogeneous systolic array architecture for compact CNNs hardware accelerators [J]. IEEE transactions on parallel and distributed systems, 2022, 33(11): 2860?2871.

    [16] INAYAT K, CHUNG J. Hybrid accumulator factored systolic array for machine learning acceleration [J]. IEEE transactions on very large scale integration systems, 2022, 30(7): 881?892.

    猜你喜歡
    人工智能
    我校新增“人工智能”本科專業(yè)
    用“小AI”解決人工智能的“大”煩惱
    汽車零部件(2020年3期)2020-03-27 05:30:20
    當(dāng)人工智能遇見再制造
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    AI人工智能解疑答問(wèn)
    人工智能與就業(yè)
    基于人工智能的電力系統(tǒng)自動(dòng)化控制
    人工智能,來(lái)了
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    人工智能來(lái)了
    日日爽夜夜爽网站| 最近中文字幕2019免费版| 1024香蕉在线观看| 1024香蕉在线观看| 女人久久www免费人成看片| 亚洲第一青青草原| 啦啦啦免费观看视频1| 超碰97精品在线观看| 大片免费播放器 马上看| 免费av中文字幕在线| 日韩一卡2卡3卡4卡2021年| 女警被强在线播放| 最黄视频免费看| 国产区一区二久久| 久久久久精品国产欧美久久久 | 中文字幕人妻熟女乱码| 国产97色在线日韩免费| 免费久久久久久久精品成人欧美视频| 久久99热这里只频精品6学生| 9191精品国产免费久久| 高清欧美精品videossex| 一区二区三区乱码不卡18| 精品少妇内射三级| 日韩免费高清中文字幕av| 亚洲精品av麻豆狂野| 丰满少妇做爰视频| 午夜福利视频精品| 中文字幕av电影在线播放| 热re99久久国产66热| 欧美日韩国产mv在线观看视频| 黑人巨大精品欧美一区二区mp4| 建设人人有责人人尽责人人享有的| 两性夫妻黄色片| 大型av网站在线播放| 免费女性裸体啪啪无遮挡网站| www.av在线官网国产| 欧美日韩亚洲综合一区二区三区_| 欧美日本中文国产一区发布| 免费在线观看完整版高清| av有码第一页| 欧美日韩一级在线毛片| 一级毛片精品| 人人妻,人人澡人人爽秒播| 精品一区二区三卡| 女人被躁到高潮嗷嗷叫费观| 在线 av 中文字幕| 女人爽到高潮嗷嗷叫在线视频| 亚洲熟女毛片儿| 在线观看免费视频网站a站| 亚洲欧美一区二区三区黑人| 国产精品免费大片| 国产精品99久久99久久久不卡| 巨乳人妻的诱惑在线观看| 欧美日韩亚洲综合一区二区三区_| 麻豆av在线久日| av网站免费在线观看视频| 高清黄色对白视频在线免费看| 日韩人妻精品一区2区三区| 电影成人av| 色精品久久人妻99蜜桃| 男女国产视频网站| 亚洲专区国产一区二区| 久久精品熟女亚洲av麻豆精品| 国产有黄有色有爽视频| 久久久久视频综合| 91九色精品人成在线观看| 18禁观看日本| 欧美激情极品国产一区二区三区| 中文字幕人妻熟女乱码| 色播在线永久视频| 免费黄频网站在线观看国产| 欧美xxⅹ黑人| 亚洲成国产人片在线观看| 午夜日韩欧美国产| 侵犯人妻中文字幕一二三四区| av天堂久久9| 欧美激情 高清一区二区三区| 在线观看免费视频网站a站| 99国产精品一区二区三区| 9热在线视频观看99| 亚洲精品成人av观看孕妇| 在线观看免费视频网站a站| 亚洲九九香蕉| bbb黄色大片| 亚洲精品av麻豆狂野| 亚洲专区中文字幕在线| 欧美激情高清一区二区三区| 一本—道久久a久久精品蜜桃钙片| 免费一级毛片在线播放高清视频 | 久久人人爽人人片av| 久久亚洲精品不卡| 又大又爽又粗| 久久国产精品人妻蜜桃| 久久久久久久大尺度免费视频| 日韩,欧美,国产一区二区三区| 精品国产乱码久久久久久小说| 亚洲欧美日韩高清在线视频 | 久久av网站| 一区二区三区精品91| 中国国产av一级| 精品国产超薄肉色丝袜足j| 老汉色av国产亚洲站长工具| 日本wwww免费看| 午夜91福利影院| 女人高潮潮喷娇喘18禁视频| 天天操日日干夜夜撸| 国产精品 欧美亚洲| 一级黄色大片毛片| 亚洲中文av在线| 黄色片一级片一级黄色片| 亚洲国产欧美网| 91成人精品电影| 亚洲欧美精品自产自拍| 中国国产av一级| 亚洲精品中文字幕在线视频| 精品国产一区二区三区久久久樱花| 99久久精品国产亚洲精品| 9191精品国产免费久久| 亚洲国产毛片av蜜桃av| 在线精品无人区一区二区三| 欧美亚洲 丝袜 人妻 在线| 在线av久久热| 脱女人内裤的视频| 亚洲国产毛片av蜜桃av| 国产精品久久久久久人妻精品电影 | 1024视频免费在线观看| 中国国产av一级| 悠悠久久av| videosex国产| 国产精品免费大片| 老汉色∧v一级毛片| 性高湖久久久久久久久免费观看| 精品国产乱码久久久久久小说| 99九九在线精品视频| 一个人免费看片子| 老鸭窝网址在线观看| 中文字幕最新亚洲高清| 欧美 日韩 精品 国产| 五月开心婷婷网| 精品久久久久久电影网| 一边摸一边抽搐一进一出视频| 日韩精品免费视频一区二区三区| 麻豆国产av国片精品| 免费一级毛片在线播放高清视频 | 久久中文看片网| 国产一区二区三区av在线| 久久青草综合色| 十八禁高潮呻吟视频| 肉色欧美久久久久久久蜜桃| 久久久精品94久久精品| 中文字幕制服av| 亚洲精品自拍成人| 91精品伊人久久大香线蕉| 日本五十路高清| 狠狠婷婷综合久久久久久88av| 777米奇影视久久| 侵犯人妻中文字幕一二三四区| 亚洲精品美女久久久久99蜜臀| 午夜老司机福利片| 亚洲专区国产一区二区| 免费高清在线观看日韩| 精品第一国产精品| 亚洲全国av大片| 大陆偷拍与自拍| 亚洲国产欧美在线一区| 啦啦啦啦在线视频资源| 欧美日韩亚洲综合一区二区三区_| 2018国产大陆天天弄谢| 日韩中文字幕欧美一区二区| 免费女性裸体啪啪无遮挡网站| www.熟女人妻精品国产| 久久久久久人人人人人| 欧美日韩亚洲综合一区二区三区_| 制服诱惑二区| 嫁个100分男人电影在线观看| 巨乳人妻的诱惑在线观看| 免费在线观看完整版高清| 国产有黄有色有爽视频| 别揉我奶头~嗯~啊~动态视频 | 亚洲色图综合在线观看| 午夜两性在线视频| 国产亚洲精品第一综合不卡| 一二三四社区在线视频社区8| 纵有疾风起免费观看全集完整版| 一进一出抽搐动态| 国产免费视频播放在线视频| av欧美777| 青草久久国产| 国产精品久久久久成人av| 国产精品麻豆人妻色哟哟久久| 天天操日日干夜夜撸| 亚洲精品国产一区二区精华液| 国产亚洲一区二区精品| 美女脱内裤让男人舔精品视频| 亚洲综合色网址| 亚洲精品成人av观看孕妇| 黄色视频不卡| 欧美国产精品一级二级三级| 亚洲av成人不卡在线观看播放网 | 国产精品一区二区精品视频观看| 精品人妻熟女毛片av久久网站| 少妇人妻久久综合中文| 久久久久网色| 美女高潮到喷水免费观看| 亚洲av男天堂| 美女国产高潮福利片在线看| av在线老鸭窝| 深夜精品福利| 超碰97精品在线观看| 91字幕亚洲| 99精品欧美一区二区三区四区| 国内毛片毛片毛片毛片毛片| 久久99一区二区三区| 99精国产麻豆久久婷婷| 桃花免费在线播放| 国产免费视频播放在线视频| 国产成人欧美| 黄片小视频在线播放| av欧美777| 欧美日韩视频精品一区| 男人爽女人下面视频在线观看| 国产三级黄色录像| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲精品在线美女| 欧美精品一区二区大全| 天天躁日日躁夜夜躁夜夜| 宅男免费午夜| 欧美一级毛片孕妇| 一区二区av电影网| 各种免费的搞黄视频| 热re99久久国产66热| 99热全是精品| 亚洲第一av免费看| 天堂中文最新版在线下载| 国产极品粉嫩免费观看在线| 午夜日韩欧美国产| 丝袜在线中文字幕| 精品乱码久久久久久99久播| 亚洲精品久久久久久婷婷小说| av网站在线播放免费| 国产精品熟女久久久久浪| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲精品中文字幕一二三四区 | 在线永久观看黄色视频| 国产成人精品无人区| av片东京热男人的天堂| 亚洲av成人一区二区三| 999久久久精品免费观看国产| 欧美日韩一级在线毛片| 久久 成人 亚洲| 91成人精品电影| 国产福利在线免费观看视频| 国产精品亚洲av一区麻豆| 狂野欧美激情性bbbbbb| 亚洲成av片中文字幕在线观看| 成人手机av| 中国国产av一级| 婷婷色av中文字幕| 亚洲av日韩精品久久久久久密| 别揉我奶头~嗯~啊~动态视频 | 亚洲自偷自拍图片 自拍| www.自偷自拍.com| 欧美午夜高清在线| 少妇被粗大的猛进出69影院| 最新的欧美精品一区二区| 淫妇啪啪啪对白视频 | 亚洲av日韩在线播放| 脱女人内裤的视频| 亚洲,欧美精品.| 精品久久蜜臀av无| 国产亚洲精品第一综合不卡| 三级毛片av免费| 亚洲欧美精品综合一区二区三区| 性高湖久久久久久久久免费观看| 欧美久久黑人一区二区| 亚洲第一av免费看| 免费不卡黄色视频| 飞空精品影院首页| 香蕉国产在线看| 不卡av一区二区三区| 91精品三级在线观看| 午夜激情久久久久久久| 国产精品影院久久| 如日韩欧美国产精品一区二区三区| 亚洲欧美清纯卡通| 国产欧美亚洲国产| 久久综合国产亚洲精品| 久久国产精品男人的天堂亚洲| 成人黄色视频免费在线看| 色婷婷久久久亚洲欧美| 99精国产麻豆久久婷婷| 窝窝影院91人妻| 亚洲精品久久成人aⅴ小说| 国产精品秋霞免费鲁丝片| 国产视频一区二区在线看| 一个人免费在线观看的高清视频 | 男人舔女人的私密视频| 久久精品成人免费网站| 老司机深夜福利视频在线观看 | 超碰成人久久| 日韩视频一区二区在线观看| 午夜日韩欧美国产| 99re6热这里在线精品视频| 国产成人av教育| 欧美亚洲日本最大视频资源| 嫁个100分男人电影在线观看| a 毛片基地| 亚洲九九香蕉| 夜夜骑夜夜射夜夜干| 日本黄色日本黄色录像| 欧美中文综合在线视频| 精品国产一区二区三区四区第35| 操美女的视频在线观看| 成人国产一区最新在线观看| 国产欧美日韩一区二区精品| 侵犯人妻中文字幕一二三四区| 国产亚洲精品久久久久5区| 在线观看免费高清a一片| 国产又色又爽无遮挡免| 亚洲欧洲日产国产| 国产淫语在线视频| 成人三级做爰电影| 亚洲精品久久成人aⅴ小说| 精品国产一区二区久久| 狠狠精品人妻久久久久久综合| 免费高清在线观看视频在线观看| 国产亚洲av高清不卡| 男女免费视频国产| 不卡av一区二区三区| 黑丝袜美女国产一区| 精品少妇内射三级| 国产一区二区激情短视频 | videosex国产| 黄色毛片三级朝国网站| 亚洲中文av在线| 黑人欧美特级aaaaaa片| 亚洲av美国av| 天堂8中文在线网| 国产一卡二卡三卡精品| 两个人看的免费小视频| 人妻一区二区av| 国产人伦9x9x在线观看| 亚洲成人国产一区在线观看| 成人18禁高潮啪啪吃奶动态图| 亚洲精品久久成人aⅴ小说| 大码成人一级视频| 久久精品熟女亚洲av麻豆精品| 少妇的丰满在线观看| 国产精品影院久久| 日韩一卡2卡3卡4卡2021年| 国产深夜福利视频在线观看| 精品一区二区三区四区五区乱码| 精品亚洲成a人片在线观看| 热99re8久久精品国产| 少妇粗大呻吟视频| 99久久国产精品久久久| 91字幕亚洲| av福利片在线| www.自偷自拍.com| 性少妇av在线| 午夜福利视频在线观看免费| 国产男人的电影天堂91| 久久精品熟女亚洲av麻豆精品| 成人国语在线视频| 91字幕亚洲| 久久精品久久久久久噜噜老黄| 亚洲中文字幕日韩| 亚洲人成电影观看| 一二三四在线观看免费中文在| 伊人亚洲综合成人网| 丰满少妇做爰视频| 亚洲七黄色美女视频| 一本久久精品| 天堂中文最新版在线下载| 一本大道久久a久久精品| 黑丝袜美女国产一区| 热re99久久国产66热| 精品久久久久久久毛片微露脸 | 亚洲视频免费观看视频| 丰满迷人的少妇在线观看| 国产一卡二卡三卡精品| 精品一区二区三区av网在线观看 | 天天躁夜夜躁狠狠躁躁| 操出白浆在线播放| 黑人巨大精品欧美一区二区蜜桃| av福利片在线| 亚洲专区中文字幕在线| 国产精品秋霞免费鲁丝片| 精品亚洲乱码少妇综合久久| 日韩大片免费观看网站| 亚洲第一av免费看| 午夜成年电影在线免费观看| kizo精华| 9色porny在线观看| 久久av网站| 中文字幕最新亚洲高清| 亚洲国产日韩一区二区| 国产成人免费无遮挡视频| 一二三四社区在线视频社区8| 高潮久久久久久久久久久不卡| 亚洲av美国av| 一级毛片精品| 日韩欧美免费精品| 91精品国产国语对白视频| 黄片小视频在线播放| 777米奇影视久久| 国产深夜福利视频在线观看| 亚洲精品久久久久久婷婷小说| a 毛片基地| 国产福利在线免费观看视频| 色婷婷久久久亚洲欧美| 18在线观看网站| 久久久精品区二区三区| 成年人黄色毛片网站| 欧美亚洲日本最大视频资源| 三级毛片av免费| 97精品久久久久久久久久精品| 午夜福利在线观看吧| 麻豆乱淫一区二区| 亚洲色图 男人天堂 中文字幕| 狠狠精品人妻久久久久久综合| 精品国产一区二区久久| 国产一区有黄有色的免费视频| 亚洲综合色网址| 一区二区日韩欧美中文字幕| 青青草视频在线视频观看| 久久久水蜜桃国产精品网| 一区二区三区四区激情视频| 五月开心婷婷网| netflix在线观看网站| 最近中文字幕2019免费版| 亚洲自偷自拍图片 自拍| 成年美女黄网站色视频大全免费| a 毛片基地| 亚洲精品日韩在线中文字幕| 丝袜在线中文字幕| 性少妇av在线| 搡老岳熟女国产| 欧美另类亚洲清纯唯美| 国产又色又爽无遮挡免| 丁香六月欧美| 国内毛片毛片毛片毛片毛片| 老司机在亚洲福利影院| 一区二区三区精品91| 12—13女人毛片做爰片一| 国产成人一区二区三区免费视频网站| 丁香六月天网| 国产成人啪精品午夜网站| 亚洲va日本ⅴa欧美va伊人久久 | 久久国产亚洲av麻豆专区| 国产精品一区二区在线观看99| 少妇猛男粗大的猛烈进出视频| 国产av精品麻豆| 老司机亚洲免费影院| 美女大奶头黄色视频| 亚洲精品成人av观看孕妇| 日韩大码丰满熟妇| 一边摸一边做爽爽视频免费| 波多野结衣一区麻豆| 丝瓜视频免费看黄片| 日韩一卡2卡3卡4卡2021年| 国产精品影院久久| av网站在线播放免费| 久久精品国产亚洲av香蕉五月 | 大香蕉久久成人网| 悠悠久久av| 国产成人av教育| 丁香六月天网| 国产成人av教育| 天天躁夜夜躁狠狠躁躁| 后天国语完整版免费观看| 国产在视频线精品| 亚洲欧美日韩另类电影网站| 日日夜夜操网爽| 男女床上黄色一级片免费看| 国产片内射在线| 日本欧美视频一区| 两人在一起打扑克的视频| 飞空精品影院首页| 久久香蕉激情| 久久久久久免费高清国产稀缺| 麻豆av在线久日| 亚洲午夜精品一区,二区,三区| 天天添夜夜摸| 一区二区三区四区激情视频| 国产在线免费精品| 国产99久久九九免费精品| 成年人免费黄色播放视频| 窝窝影院91人妻| 国产一卡二卡三卡精品| 国产亚洲欧美精品永久| 亚洲少妇的诱惑av| 热99re8久久精品国产| 午夜精品国产一区二区电影| 中国美女看黄片| 岛国在线观看网站| 免费女性裸体啪啪无遮挡网站| 99久久综合免费| 久久中文看片网| 久久影院123| 久久亚洲国产成人精品v| 国产高清国产精品国产三级| 精品一品国产午夜福利视频| 一本色道久久久久久精品综合| 成年av动漫网址| 麻豆国产av国片精品| 97精品久久久久久久久久精品| 男女之事视频高清在线观看| 国产1区2区3区精品| 99国产精品免费福利视频| 久久热在线av| 久久精品国产亚洲av香蕉五月 | 精品少妇一区二区三区视频日本电影| 国产免费福利视频在线观看| 狂野欧美激情性bbbbbb| 国产欧美日韩综合在线一区二区| 成年动漫av网址| 日本av手机在线免费观看| 99精国产麻豆久久婷婷| 亚洲成人免费电影在线观看| 国产97色在线日韩免费| 亚洲精品一二三| 99久久综合免费| 国产精品久久久久久人妻精品电影 | 在线 av 中文字幕| 香蕉国产在线看| 日本91视频免费播放| 久久久久精品国产欧美久久久 | 中国国产av一级| 国产精品一区二区在线观看99| 欧美日韩精品网址| 99热国产这里只有精品6| 在线观看人妻少妇| 久久国产精品人妻蜜桃| 99国产综合亚洲精品| 亚洲欧美精品综合一区二区三区| 精品熟女少妇八av免费久了| 欧美黑人精品巨大| 日日摸夜夜添夜夜添小说| 男女免费视频国产| 三上悠亚av全集在线观看| 久久久国产一区二区| 捣出白浆h1v1| 欧美 亚洲 国产 日韩一| 久久精品亚洲av国产电影网| 在线观看一区二区三区激情| 中国国产av一级| 精品国产一区二区三区久久久樱花| 侵犯人妻中文字幕一二三四区| 亚洲伊人久久精品综合| 考比视频在线观看| 亚洲av成人一区二区三| 又大又爽又粗| tube8黄色片| 国产成人av激情在线播放| 大香蕉久久网| 国产精品一区二区精品视频观看| 亚洲人成电影免费在线| 在线观看一区二区三区激情| 亚洲色图综合在线观看| 纵有疾风起免费观看全集完整版| 国产欧美日韩一区二区三区在线| 777米奇影视久久| 高清视频免费观看一区二区| 又黄又粗又硬又大视频| 波多野结衣一区麻豆| 亚洲 国产 在线| 一级毛片电影观看| 91成年电影在线观看| 下体分泌物呈黄色| 99久久国产精品久久久| 国产精品久久久人人做人人爽| 色播在线永久视频| 十八禁人妻一区二区| 国产成人系列免费观看| 91老司机精品| 丝袜美腿诱惑在线| 国产成人欧美| 亚洲avbb在线观看| 日韩视频一区二区在线观看| 亚洲精品在线美女| 亚洲avbb在线观看| 国产精品自产拍在线观看55亚洲 | 日韩一卡2卡3卡4卡2021年| 美女午夜性视频免费| 国产精品一区二区在线不卡| 19禁男女啪啪无遮挡网站| 无限看片的www在线观看| 精品免费久久久久久久清纯 | 俄罗斯特黄特色一大片| 下体分泌物呈黄色| 香蕉国产在线看| 日本91视频免费播放| 国产片内射在线| 成人亚洲精品一区在线观看| 色婷婷久久久亚洲欧美| 色精品久久人妻99蜜桃| 午夜视频精品福利| 亚洲免费av在线视频| 男人添女人高潮全过程视频| 欧美大码av| 欧美日韩中文字幕国产精品一区二区三区 | 三上悠亚av全集在线观看| 18禁裸乳无遮挡动漫免费视频| 日韩欧美一区二区三区在线观看 | 亚洲国产看品久久| 9色porny在线观看| 免费高清在线观看日韩| a 毛片基地| 久久久国产成人免费| 欧美精品高潮呻吟av久久| 男女国产视频网站| 女人久久www免费人成看片| 色老头精品视频在线观看| 久久九九热精品免费|