• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    主流卷積神經(jīng)網(wǎng)絡(luò)的硬件設(shè)計(jì)與性能分析①

    2020-03-23 06:04:08徐青青
    關(guān)鍵詞:測(cè)試程序網(wǎng)絡(luò)層基準(zhǔn)

    徐青青, 安 虹, 武 錚, 金 旭

    (中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 合肥 230027)

    1 概述

    近些年來(lái), 深度學(xué)習(xí)技術(shù)蓬勃發(fā)展, 廣泛應(yīng)用于各大領(lǐng)域并接連取得了突破性成就.卷積神經(jīng)網(wǎng)絡(luò)作為該領(lǐng)域中最具影響力的網(wǎng)絡(luò)結(jié)構(gòu)之一, 在計(jì)算機(jī)視覺(jué)領(lǐng)域中長(zhǎng)期占據(jù)著主導(dǎo)地位, 相關(guān)技術(shù)趨向成熟.目前,卷積神經(jīng)網(wǎng)絡(luò)主要基于通用CPU 和GPU 進(jìn)行訓(xùn)練,而通用處理器在面對(duì)網(wǎng)絡(luò)訓(xùn)練的龐大計(jì)算需求時(shí), 表現(xiàn)出較低的能效比.而且, 隨著網(wǎng)絡(luò)結(jié)構(gòu)朝著更深更復(fù)雜的方向發(fā)展, 對(duì)硬件計(jì)算能力提出了越來(lái)越高的要求, 隨之出現(xiàn)了各種類(lèi)型的專(zhuān)用處理器.為了對(duì)這類(lèi)處理器進(jìn)行評(píng)估并指導(dǎo)其優(yōu)化設(shè)計(jì), 需要一套基準(zhǔn)測(cè)試程序作為指導(dǎo)標(biāo)準(zhǔn).

    為此, 本文面向卷積神經(jīng)網(wǎng)絡(luò)提出了一套基準(zhǔn)測(cè)試程序.基準(zhǔn)測(cè)試程序的設(shè)計(jì)分為兩部分, 在為宏基準(zhǔn)測(cè)試程序選定好卷積神經(jīng)網(wǎng)絡(luò)后, 為了把握網(wǎng)絡(luò)的整體性能表現(xiàn), 本文從系統(tǒng)層面對(duì)網(wǎng)絡(luò)程序進(jìn)行評(píng)測(cè).但是, 網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性使得難以對(duì)其進(jìn)行深入的微架構(gòu)性能分析和瓶頸定位, 這就需要對(duì)網(wǎng)絡(luò)中各個(gè)組成部分做進(jìn)一步的分析.考慮到卷積神經(jīng)網(wǎng)絡(luò)是由網(wǎng)絡(luò)層構(gòu)成的, 除了輸入層, 網(wǎng)絡(luò)訓(xùn)練過(guò)程中每個(gè)網(wǎng)絡(luò)層都是作用于相鄰層輸出的張量結(jié)果.將這些網(wǎng)絡(luò)層看做獨(dú)立的計(jì)算單元, 將其從網(wǎng)絡(luò)中抽取出來(lái)并為其提供輸入集, 使其成為完整的測(cè)試模塊, 構(gòu)建微基準(zhǔn)測(cè)試程序.由于不同的網(wǎng)絡(luò)層具有不同的程序特性, 包括計(jì)算特性和訪存特性等, 通過(guò)對(duì)這些程序獨(dú)立進(jìn)行分析, 明確各個(gè)網(wǎng)絡(luò)層的行為特征, 定位它們的性能瓶頸, 從而有針對(duì)性地進(jìn)行處理器的結(jié)構(gòu)設(shè)計(jì).

    本文在給出基準(zhǔn)測(cè)試程序后, 在通用CPU 平臺(tái)上運(yùn)行基準(zhǔn)測(cè)試程序, 從系統(tǒng)和微架構(gòu)層面對(duì)測(cè)試程序進(jìn)行性能評(píng)測(cè).通過(guò)分析性能數(shù)據(jù), 明確測(cè)試程序的行為特征和性能瓶頸, 進(jìn)而給出處理器的優(yōu)化建議.

    2 相關(guān)工作

    早期的神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測(cè)試程序不具有討論價(jià)值,以BenchNN[1]為例, 它包含的是多層感知器等早期神經(jīng)網(wǎng)絡(luò).若用這樣過(guò)時(shí)的基準(zhǔn)測(cè)試程序?qū)μ幚砥鬟M(jìn)行評(píng)測(cè), 不能準(zhǔn)確反映出先進(jìn)神經(jīng)網(wǎng)絡(luò)和應(yīng)用的行為特征, 不能對(duì)處理器的設(shè)計(jì)提供正確指導(dǎo).

    DeepBench[2]是由百度開(kāi)發(fā)的一款神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測(cè)試程序, 旨在評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)中最核心的網(wǎng)絡(luò)層和基礎(chǔ)操作的性能表現(xiàn), 因此它僅選取了卷積層、循環(huán)層和矩陣乘法作為測(cè)試程序.由于DeepBench 包含的網(wǎng)絡(luò)層有限, 不能全面反映出神經(jīng)網(wǎng)絡(luò)的行為特性.

    Data Motifs[3]是面向大數(shù)據(jù)應(yīng)用和神經(jīng)網(wǎng)絡(luò)任務(wù)的基準(zhǔn)測(cè)試程序, 與神經(jīng)網(wǎng)絡(luò)相關(guān)的測(cè)試程序包括卷積層、池化層、激活層和矩陣乘法.與DeepBench 相比程序集更豐富, 但是仍缺乏全面性.

    BenchIP[4]的測(cè)試程序較多, 包括11 個(gè)神經(jīng)網(wǎng)絡(luò)和10 個(gè)網(wǎng)絡(luò)層, 但是測(cè)試程序的選取有待改進(jìn).BenchIP 沒(méi)有選取主流的Inception 系列網(wǎng)絡(luò)等; 在選取人臉識(shí)別網(wǎng)絡(luò)時(shí), 未包含識(shí)別效果最佳的FaceNet[5];在選取網(wǎng)絡(luò)層時(shí), 沒(méi)有剔除不再流行的LRN 等層, 而未包含流行的Concat 和Eltwise 等層.

    針對(duì)神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測(cè)試程序的研究工作還有很多,但是它們?cè)谠O(shè)計(jì)時(shí)存在諸多不足, 主要表現(xiàn)在: 大多數(shù)基準(zhǔn)測(cè)試程序僅從網(wǎng)絡(luò)或網(wǎng)絡(luò)層的單一角度進(jìn)行設(shè)計(jì);在選取目標(biāo)網(wǎng)絡(luò)或網(wǎng)絡(luò)層時(shí)缺乏全面性; 沒(méi)有充分考慮所選網(wǎng)絡(luò)或網(wǎng)絡(luò)層的流行性; 僅針對(duì)網(wǎng)絡(luò)的前向計(jì)算過(guò)程進(jìn)行設(shè)計(jì); 缺少?gòu)南到y(tǒng)、微架構(gòu)層面對(duì)測(cè)試程序進(jìn)行全面的性能分析過(guò)程.本文基于卷積神經(jīng)網(wǎng)絡(luò),克服現(xiàn)有基準(zhǔn)測(cè)試程序存在的種種缺陷, 提出了一套基準(zhǔn)測(cè)試程序.

    3 設(shè)計(jì)方法

    3.1 卷積神經(jīng)網(wǎng)絡(luò)選取

    為了使構(gòu)建出的基準(zhǔn)測(cè)試程序能夠有效指導(dǎo)硬件設(shè)計(jì), 本文充分調(diào)研了卷積神經(jīng)網(wǎng)絡(luò)的主流應(yīng)用領(lǐng)域和各領(lǐng)域的網(wǎng)絡(luò)情況, 為宏基準(zhǔn)測(cè)試程序的構(gòu)造奠定基礎(chǔ).基于流行性和代表性選取得到的卷積神經(jīng)網(wǎng)絡(luò)如下:

    (1)手寫(xiě)數(shù)字識(shí)別網(wǎng)絡(luò): LeNet[6]的簡(jiǎn)單網(wǎng)絡(luò)結(jié)構(gòu)對(duì)手寫(xiě)數(shù)字圖像的識(shí)別效果較好, 因此被選作手寫(xiě)數(shù)字識(shí)別領(lǐng)域的代表網(wǎng)絡(luò), 采用的數(shù)據(jù)集為MNIST.

    (2)圖像分類(lèi)網(wǎng)絡(luò): 從2012 年開(kāi)始, 圖像分類(lèi)領(lǐng)域涌現(xiàn)出了眾多卷積神經(jīng)網(wǎng)絡(luò), 最初大多都基于ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練, 并在ILSVRC 競(jìng)賽中表現(xiàn)出了優(yōu)異的分類(lèi)效果, 包括2012 年的AlexNet[7], 2013 年的ZFNet[8], 2014 年的Vgg[9]和GoogLeNet[10], 2015 年的ResNet[11], 以及表現(xiàn)優(yōu)于ResNet 的DenseNet[12].在選取Inception 和ResNet 系列網(wǎng)絡(luò)時(shí), 本文將其多個(gè)版本均包含進(jìn)基準(zhǔn)測(cè)試程序, 這是因?yàn)椴煌姹镜木W(wǎng)絡(luò)復(fù)雜度差異較大且均被廣泛使用.在選取以上網(wǎng)絡(luò)作為圖像分類(lèi)領(lǐng)域的代表網(wǎng)絡(luò)后, 統(tǒng)一為它們提供計(jì)算機(jī)視覺(jué)標(biāo)準(zhǔn)數(shù)據(jù)集ImageNet.

    (3)輕量型分類(lèi)網(wǎng)絡(luò): 卷積神經(jīng)網(wǎng)絡(luò)大多關(guān)注訓(xùn)練精度, 在精度要求不高的情況下, 小規(guī)模網(wǎng)絡(luò)模型通常具有訓(xùn)練速度快、帶寬要求低等優(yōu)點(diǎn), 且能夠很好地部署到FPGA 等硬件上, 因此, 輕量型分類(lèi)網(wǎng)絡(luò)得以提出, 著名的有SqueezeNet[13], ShuffleNet[14]和MobileNet[15].本文選取這3 個(gè)網(wǎng)絡(luò)作為輕量型網(wǎng)絡(luò)的代表, 并選擇ImageNet 作為其數(shù)據(jù)集.

    (4)目標(biāo)檢測(cè)網(wǎng)絡(luò): 該領(lǐng)域主要包括兩類(lèi)卷積神經(jīng)網(wǎng)絡(luò), 分別是R-CNN 系列網(wǎng)絡(luò)和YOLO 系列網(wǎng)絡(luò), 這兩類(lèi)網(wǎng)絡(luò)在目前的目標(biāo)檢測(cè)領(lǐng)域均得到了廣泛應(yīng)用并占據(jù)著主導(dǎo)地位.本文分別選取R-CNN[16]和YOLO v3[17]作為該領(lǐng)域中R-CNN 系列和YOLO 系列的代表網(wǎng)絡(luò), 采用目標(biāo)檢測(cè)數(shù)據(jù)集PASCAL VOC.

    (5)語(yǔ)義分割網(wǎng)絡(luò): 圖像分割技術(shù)在2014 年之后取得了突破性進(jìn)展, 這得益于FCN[18]的提出, 該網(wǎng)絡(luò)確定了語(yǔ)義分割的基礎(chǔ)框架, 實(shí)現(xiàn)了對(duì)輸入圖像的逐像素分類(lèi), 隨后出現(xiàn)了很多基于FCN 的研究工作.本文選取FCN 作為語(yǔ)義分割的代表網(wǎng)絡(luò), 為其提供數(shù)據(jù)集PASCAL VOC 2012.

    (6)醫(yī)學(xué)影像分割網(wǎng)絡(luò): U-Net[19]常作為Kaggle 競(jìng)賽中解決醫(yī)學(xué)影像分割問(wèn)題的優(yōu)選方案, 該網(wǎng)絡(luò)采用特殊的U 型結(jié)構(gòu), 具有從少量數(shù)據(jù)中學(xué)習(xí)特征的能力.本文選取U-Net 作為醫(yī)學(xué)影像分割領(lǐng)域的代表網(wǎng)絡(luò),并為其提供肺部結(jié)節(jié)檢測(cè)數(shù)據(jù)集LUNA16.

    (7)人臉識(shí)別網(wǎng)絡(luò): 已有很多前沿項(xiàng)目將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到人臉識(shí)別任務(wù)中, 最著名的包括DeepID[20],DeepFace[21]和FaceNet, 表現(xiàn)最優(yōu)的FaceNet 在人臉數(shù)據(jù)集LFW 上的識(shí)別準(zhǔn)確率高達(dá)99.63%, 已超出人眼識(shí)別的99.25%準(zhǔn)確率.本文選取FaceNet 作為人臉識(shí)別領(lǐng)域的代表網(wǎng)絡(luò), 并為其提供數(shù)據(jù)集LFW.

    本文為圖像分類(lèi)領(lǐng)域選取的網(wǎng)絡(luò)多達(dá)十幾個(gè), 但是這些網(wǎng)絡(luò)的作用不僅僅局限于圖像分類(lèi), 由于它們具有很好的特征提取能力, 目前被廣泛應(yīng)用于各大領(lǐng)域.如神經(jīng)風(fēng)格遷移應(yīng)用fast-style-transfer 的核心網(wǎng)絡(luò)為Vgg; 主流實(shí)例分割網(wǎng)絡(luò)Mask R-CNN[22]的核心網(wǎng)絡(luò)為ResNet; Faster R-CNN[23]的核心網(wǎng)絡(luò)為ZFNet 或Vgg 等.綜上所述, 本文共選取了20 個(gè)流行的卷積神經(jīng)網(wǎng)絡(luò)并為各個(gè)網(wǎng)絡(luò)配置了數(shù)據(jù)集, 這些網(wǎng)絡(luò)涉及到的應(yīng)用領(lǐng)域眾多, 具有很好的代表性, 它們共同構(gòu)成了宏基準(zhǔn)測(cè)試程序.

    3.2 網(wǎng)絡(luò)計(jì)算量和參數(shù)量分析

    在提出和改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型的過(guò)程中, 很多研究工作都是著眼于降低模型的計(jì)算量和參數(shù)量.網(wǎng)絡(luò)計(jì)算量在很大程度上決定了網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間; 網(wǎng)絡(luò)攜帶的參數(shù)量又與網(wǎng)絡(luò)在分布式訓(xùn)練過(guò)程中產(chǎn)生的跨節(jié)點(diǎn)通信量有關(guān).在網(wǎng)絡(luò)進(jìn)行分布式數(shù)據(jù)并行訓(xùn)練時(shí), 參數(shù)服務(wù)器對(duì)各個(gè)計(jì)算節(jié)點(diǎn)上的參數(shù)梯度進(jìn)行收集后求平均值, 再將處理后的梯度回傳給計(jì)算節(jié)點(diǎn)用于更新本地參數(shù), 當(dāng)網(wǎng)絡(luò)的參數(shù)較多時(shí),參數(shù)服務(wù)器和計(jì)算節(jié)點(diǎn)之間的參數(shù)梯度傳輸量較大,可能會(huì)產(chǎn)生較高的通信延遲, 影響網(wǎng)絡(luò)的訓(xùn)練速度.

    把握網(wǎng)絡(luò)的計(jì)算量和參數(shù)量有助于估計(jì)網(wǎng)絡(luò)的計(jì)算耗時(shí)和通信耗時(shí)情況, 在衡量網(wǎng)絡(luò)模型的計(jì)算量時(shí),針對(duì)單個(gè)樣本輸入, 選取網(wǎng)絡(luò)計(jì)算過(guò)程中產(chǎn)生的乘加操作次數(shù)MACCs 作為評(píng)測(cè)指標(biāo).在衡量網(wǎng)絡(luò)模型的參數(shù)量時(shí), 選取卷積層和全連接層攜帶的參數(shù)個(gè)數(shù)作為評(píng)測(cè)指標(biāo), 這是因?yàn)樗鼈兙哂械膮?shù)量通常占據(jù)了網(wǎng)絡(luò)參數(shù)總量的絕大部分, 而其他網(wǎng)絡(luò)層不具有參數(shù)或只具有很少的參數(shù).圖1 給出了所選網(wǎng)絡(luò)的計(jì)算量和參數(shù)量, 從圖中可以看出, 各個(gè)網(wǎng)絡(luò)的計(jì)算量和參數(shù)量存在較大的差異性.

    圖1 卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算量和參數(shù)量

    3.3 熱點(diǎn)網(wǎng)絡(luò)層分析

    在針對(duì)目標(biāo)程序進(jìn)行軟硬件優(yōu)化時(shí), 首先需要對(duì)程序進(jìn)行熱點(diǎn)分析.本文通過(guò)對(duì)所選網(wǎng)絡(luò)中網(wǎng)絡(luò)層的出現(xiàn)頻率和執(zhí)行時(shí)間占比進(jìn)行統(tǒng)計(jì)分析, 定位出各個(gè)網(wǎng)絡(luò)中頻繁出現(xiàn)、較耗時(shí)的網(wǎng)絡(luò)層, 對(duì)這些網(wǎng)絡(luò)層進(jìn)行優(yōu)化通常能夠明顯提升網(wǎng)絡(luò)的計(jì)算效率.圖2 給出了目標(biāo)網(wǎng)絡(luò)中網(wǎng)絡(luò)層的出現(xiàn)頻率, 圖3 基于Intel Xeon E5-2695 給出了網(wǎng)絡(luò)層在網(wǎng)絡(luò)中的執(zhí)行時(shí)間占比.

    不同的卷積神經(jīng)網(wǎng)絡(luò)包含的網(wǎng)絡(luò)層存在差異性,且各個(gè)網(wǎng)絡(luò)層在網(wǎng)絡(luò)中的出現(xiàn)頻率不盡相同, 本文所選網(wǎng)絡(luò)主要涉及11 種網(wǎng)絡(luò)層.由圖2 可以看出, 所有網(wǎng)絡(luò)均包含卷積層和ReLU 層, 兩者的出現(xiàn)頻率較高且相當(dāng), 頻率總和在大多數(shù)網(wǎng)絡(luò)中高達(dá)50%以上.這是因?yàn)榫矸e層和ReLU 層是卷積神經(jīng)網(wǎng)絡(luò)中最核心的操作, 卷積層在網(wǎng)絡(luò)中反復(fù)出現(xiàn)起到逐步提取特征的作用, ReLU 層一般作用于卷積層之后, 為網(wǎng)絡(luò)引入非線性.圖中多數(shù)網(wǎng)絡(luò)包含歸一化層(LRN 層、BatchNorm層), L R N 層出現(xiàn)在早期提出的網(wǎng)絡(luò)中, 隨后被BatchNorm 層取代, BatchNorm 層在網(wǎng)絡(luò)中的出現(xiàn)頻率通常高達(dá)30%.

    圖2 網(wǎng)絡(luò)層的出現(xiàn)頻率

    圖3 網(wǎng)絡(luò)層的執(zhí)行時(shí)間占比

    此外, 最大池化層出現(xiàn)在大多數(shù)網(wǎng)絡(luò)中且出現(xiàn)頻率較高, 平均池化層一般以全局平均池化的方式出現(xiàn)在網(wǎng)絡(luò)中且出現(xiàn)頻率一律較低.全連接層通常出現(xiàn)在網(wǎng)絡(luò)的后幾層且出現(xiàn)次數(shù)不超過(guò)3 次, Softmax 層在多數(shù)網(wǎng)絡(luò)中單次出現(xiàn), 反卷積層對(duì)于語(yǔ)義分割領(lǐng)域的網(wǎng)絡(luò)(FCN、U-Net 等)具有不可或缺的影響, 兩類(lèi)融合層(Concat 層、Eltwise 層)以較高頻率出現(xiàn)在多數(shù)網(wǎng)絡(luò)中.

    圖3 顯示卷積層的執(zhí)行時(shí)間占比在所有網(wǎng)絡(luò)中均高達(dá)70%以上, 這是因?yàn)榫矸e層在各個(gè)網(wǎng)絡(luò)中的出現(xiàn)頻率較高, 且單個(gè)卷積層產(chǎn)生的計(jì)算量較大.相比于卷積層, ReLU 層盡管有著相當(dāng)?shù)某霈F(xiàn)頻率, 但是執(zhí)行時(shí)間占比均在5%以下, 這是因?yàn)镽eLU 層的計(jì)算是基于元素級(jí)別的, 產(chǎn)生的計(jì)算量較少.BatchNorm 層一旦被卷積神經(jīng)網(wǎng)絡(luò)所采用, 出現(xiàn)頻率一般較高, 且執(zhí)行時(shí)間占比能夠達(dá)到10%至20%.全連接層和Softmax 層在較淺的網(wǎng)絡(luò)中有著較高的執(zhí)行時(shí)間占比, 但是均不超過(guò)10%.而在較深的網(wǎng)絡(luò)中, 它們對(duì)應(yīng)的執(zhí)行時(shí)間占比很低, 這是因?yàn)槿B接層和Softmax 層通常出現(xiàn)在網(wǎng)絡(luò)的最后幾層, 且全連接層的出現(xiàn)次數(shù)不超過(guò)3 次,Softmax 層的出現(xiàn)次數(shù)一般為單次, 這兩類(lèi)網(wǎng)絡(luò)層的執(zhí)行時(shí)間相對(duì)于眾多的其他層而言非常少.最大池化層的執(zhí)行時(shí)間占比在多數(shù)網(wǎng)絡(luò)中不超過(guò)5%, 平均池化層的執(zhí)行時(shí)間占比極低, 兩類(lèi)融合層在網(wǎng)絡(luò)中的執(zhí)行時(shí)間比例不足10%.

    綜合網(wǎng)絡(luò)層的出現(xiàn)頻率和執(zhí)行時(shí)間占比情況, 本文最終選取卷積層、ReLU 層、最大池化層、平均池化層、BatchNorm 層、全連接層、Softmax 層、反卷積層、Concat 層和Eltwise 層構(gòu)建微基準(zhǔn)測(cè)試程序.值得注意的是, 本文沒(méi)有選取LRN 層是因?yàn)樵搶赢?dāng)前已不再流行, 將其納入基準(zhǔn)測(cè)試程序不具有實(shí)際意義.微基準(zhǔn)測(cè)試程序涵蓋了目前卷積神經(jīng)網(wǎng)絡(luò)中流行的網(wǎng)絡(luò)層, 且大多數(shù)網(wǎng)絡(luò)層在卷積神經(jīng)網(wǎng)絡(luò)中有著較高的出現(xiàn)頻率或執(zhí)行時(shí)間占比, 所選的網(wǎng)絡(luò)層對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建發(fā)揮著不可或缺的作用.

    3.4 基準(zhǔn)測(cè)試程序集

    通過(guò)詳盡的調(diào)研與分析, 本文最終選取20 個(gè)主流的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成宏基準(zhǔn)測(cè)試程序, 而微基準(zhǔn)測(cè)試程序集如表1 所示.

    表1 微基準(zhǔn)測(cè)試程序集

    根據(jù)實(shí)際應(yīng)用情況, 本文為卷積層構(gòu)造了5 種常用配置, 分別是(3×3, 1), (3×3, 2), (1×1, 1), (5×5, 1),(7×7, 2), 配置給出了卷積核尺寸和卷積步長(zhǎng); 為平均池化層構(gòu)造了2 種配置, 分別是(2×2, 2), (3×3, 2), 為最大池化層給出的配置為(7×7, 7), 配置給出了池化窗口大小和池化步長(zhǎng).因此, 微基準(zhǔn)測(cè)試程序共包含15 個(gè)子測(cè)試模塊.此外, 在輸入集方面, 本文提供了小中大3 種規(guī)模, 分別為(64, 256, 56×56), (64, 128, 112×112),(64, 64, 224×224), 規(guī)模參數(shù)依次給出了批量樣本數(shù)、通道數(shù)和輸入張量的尺寸.

    圖4 給出了基準(zhǔn)測(cè)試程序的實(shí)現(xiàn)及評(píng)測(cè)框架, 本文基于通用CPU、GPU 和國(guó)產(chǎn)神威平臺(tái)上的高效深度學(xué)習(xí)庫(kù), 給出了基準(zhǔn)測(cè)試程序在這些平臺(tái)上的實(shí)現(xiàn).

    圖4 基準(zhǔn)測(cè)試程序?qū)崿F(xiàn)及評(píng)測(cè)框架

    4 實(shí)驗(yàn)結(jié)果及分析

    4.1 實(shí)驗(yàn)平臺(tái)和工具

    實(shí)驗(yàn)基于3 臺(tái)商用Intel 服務(wù)器, 每臺(tái)服務(wù)器的硬件配置具體如表2 所示.

    表2 實(shí)驗(yàn)服務(wù)器的硬件配置

    實(shí)驗(yàn)采用性能分析工具Intel VTune Amplifier XE 和Perf, 在程序執(zhí)行過(guò)程中, 捕獲系統(tǒng)中發(fā)生的硬件事件.通過(guò)對(duì)眾多事件有選擇地進(jìn)行選取和計(jì)算, 得到所需的性能數(shù)據(jù).

    4.2 系統(tǒng)性能評(píng)測(cè)

    卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程是基于大數(shù)據(jù)的, 大量的訓(xùn)練數(shù)據(jù)最開(kāi)始存放于磁盤(pán), 在每次迭代前, 輸入層從磁盤(pán)讀取批量樣本數(shù)據(jù), 整個(gè)訓(xùn)練過(guò)程中針對(duì)大量數(shù)據(jù)的讀取操作可能會(huì)造成較高的I/O 等待延遲.另外, 為了加速網(wǎng)絡(luò)的訓(xùn)練過(guò)程, 基于多節(jié)點(diǎn)的分布式數(shù)據(jù)并行訓(xùn)練[24]就顯得尤為必要, 然而, 這一過(guò)程中網(wǎng)絡(luò)參數(shù)梯度需要在參數(shù)服務(wù)器和計(jì)算節(jié)點(diǎn)間相互傳輸,可能會(huì)產(chǎn)生大量的節(jié)點(diǎn)間通信從而造成較高的通信延遲.為了把握宏基準(zhǔn)測(cè)試程序中各個(gè)網(wǎng)絡(luò)的整體性能表現(xiàn), 在3 臺(tái)服務(wù)器上執(zhí)行網(wǎng)絡(luò)的分布式數(shù)據(jù)并行訓(xùn)練, 圖5 給出了這些網(wǎng)絡(luò)在batchsize 為2 時(shí)的I/O 等待延遲、跨節(jié)點(diǎn)通信延遲和CPU 利用率等3 個(gè)系統(tǒng)性能指標(biāo)的評(píng)測(cè)結(jié)果.

    圖5 I/O 等待延遲、跨節(jié)點(diǎn)通信延遲和CPU 利用率

    由圖5 可知, 所有網(wǎng)絡(luò)的I/O 等待時(shí)間均不足1%(圖中一律顯示為1%).雖然訓(xùn)練數(shù)據(jù)量巨大, 但是,網(wǎng)絡(luò)在每次迭代訓(xùn)練的過(guò)程中, 僅由輸入層從磁盤(pán)讀取一批次訓(xùn)練數(shù)據(jù), 產(chǎn)生I/O 行為.在數(shù)據(jù)到達(dá)網(wǎng)絡(luò)后,其他網(wǎng)絡(luò)層的計(jì)算都是基于上一層產(chǎn)生的輸出結(jié)果,這些操作數(shù)存放在內(nèi)存中, 中間網(wǎng)絡(luò)層的計(jì)算過(guò)程不涉及磁盤(pán)的讀寫(xiě)操作, 通信過(guò)程同樣不存在I/O 行為.輸入層讀磁盤(pán)產(chǎn)生的I/O 等待延遲相對(duì)于網(wǎng)絡(luò)計(jì)算時(shí)間和通信時(shí)間而言極低, 讀磁盤(pán)造成的I/O 等待不是影響網(wǎng)絡(luò)模型訓(xùn)練性能的因素.

    然而, 很多網(wǎng)絡(luò)的通信延遲顯示較高, 部分網(wǎng)絡(luò)的通信時(shí)間高達(dá)40%.結(jié)合圖6 給出的網(wǎng)絡(luò)計(jì)算量與參數(shù)量的比值來(lái)看, 可以發(fā)現(xiàn)比值較低的網(wǎng)絡(luò)通常具有較高的通信時(shí)間占比, 而對(duì)于計(jì)算量與參數(shù)量比值最大的網(wǎng)絡(luò)U-Net, 通信時(shí)間不足2%.這是因?yàn)楫?dāng)網(wǎng)絡(luò)參數(shù)量相對(duì)于計(jì)算量越小時(shí), 通信時(shí)間相對(duì)于計(jì)算時(shí)間也就越少, 通信時(shí)間占比越低, 因此, 可以從網(wǎng)絡(luò)計(jì)算量與參數(shù)量的比值對(duì)網(wǎng)絡(luò)通信延遲作出估計(jì).

    圖6 網(wǎng)絡(luò)計(jì)算量與參數(shù)量的比值

    最后, 從CPU 利用率來(lái)看, 各個(gè)網(wǎng)絡(luò)的這一指標(biāo)值存在差異性, 通信時(shí)間占比較低的網(wǎng)絡(luò)通常具有較高的CPU 利用率, 對(duì)計(jì)算資源的利用更加充分.

    經(jīng)過(guò)進(jìn)一步的探究發(fā)現(xiàn), 隨著batchsize 的增大, 這些網(wǎng)絡(luò)的通信時(shí)間占比減小且CPU 利用率增大, 這是因?yàn)榫W(wǎng)絡(luò)計(jì)算量大幅增加, 而網(wǎng)絡(luò)參數(shù)量近似不變.因此, 為網(wǎng)絡(luò)訓(xùn)練過(guò)程選取較大的batchsize 有利于減少通信開(kāi)銷(xiāo)且更充分地利用CPU 計(jì)算資源, 網(wǎng)絡(luò)能夠較快地訓(xùn)練完所有數(shù)據(jù).為了支持網(wǎng)絡(luò)在較大batchsize下的訓(xùn)練, 在構(gòu)建網(wǎng)絡(luò)訓(xùn)練平臺(tái)時(shí), 需要配置足夠的內(nèi)存量.

    4.3 微架構(gòu)性能評(píng)測(cè)

    接下來(lái)針對(duì)微基準(zhǔn)測(cè)試程序中的網(wǎng)絡(luò)層, 從微架構(gòu)層面進(jìn)行自頂向下的性能評(píng)測(cè), 明確不同網(wǎng)絡(luò)層的行為特征并定位它們的性能瓶頸, 從而有針對(duì)性地對(duì)處理器的微架構(gòu)改進(jìn)提出建議.后續(xù)實(shí)驗(yàn)都是基于各個(gè)網(wǎng)絡(luò)層程序在大規(guī)模輸入集下的執(zhí)行過(guò)程所得.

    首先關(guān)注測(cè)試程序的整體性能表現(xiàn), 圖7 給出了它們的IPC 和Retiring.IPC 表示周期指令數(shù), Retiring表示執(zhí)行有效微操作的流水線槽數(shù)占流水線總槽數(shù)的比例.實(shí)驗(yàn)平臺(tái)采用Intel 的四發(fā)射處理器, 假設(shè)每條程序指令被解碼為單個(gè)微操作, 當(dāng)Retiring 為100%時(shí), IPC 可達(dá)到理論最大值4.圖中顯示IPC 與Retiring具有高度的一致性, 多數(shù)程序的IPC 高達(dá)2 以上, 程序執(zhí)行性能表現(xiàn)較好.BatchNorm、Softmax、Concat 和Eltwise 層的IPC 明顯較低, 程序的指令并行性仍有待發(fā)掘.然而, Retiring 較高并不代表目標(biāo)程序沒(méi)有性能優(yōu)化空間, 通過(guò)進(jìn)一步分析發(fā)現(xiàn), 池化層和ReLU 層的向量化程度顯示極低.可以通過(guò)對(duì)Intel MKL-DNN 中池化層和ReLU 層實(shí)行向量?jī)?yōu)化, 使得單條指令就能完成多個(gè)浮點(diǎn)計(jì)算, 由此來(lái)提升程序執(zhí)行性能.

    圖7 IPC 和Retiring

    對(duì)于非空的流水線槽, 其上執(zhí)行的微操作如果最終成功退役, 則該流水線槽被歸類(lèi)為Retiring, 不產(chǎn)生性能瓶頸.但是, 當(dāng)分支預(yù)測(cè)發(fā)生錯(cuò)誤時(shí), 流水線槽上執(zhí)行的微操作在退役前被取消, 導(dǎo)致流水線槽的無(wú)效執(zhí)行.圖8 給出了各個(gè)程序的分支指令比重和分支預(yù)測(cè)錯(cuò)誤率, 可以看出ReLU 層、最大池化層和Softmax層具有較高比例的分支指令, 且分支預(yù)測(cè)錯(cuò)誤率較高,程序性能在很大程度上受到錯(cuò)誤分支預(yù)測(cè)的影響.這是因?yàn)檫@幾個(gè)程序中存在大量的比較操作, 且操作數(shù)之間的大小存在不可預(yù)測(cè)性.其他程序中的分支預(yù)測(cè)行為主要產(chǎn)生于循環(huán)控制部分, 這類(lèi)的分支跳轉(zhuǎn)能夠很好地被當(dāng)前基于歷史的分支預(yù)測(cè)機(jī)制所處理, 因此表現(xiàn)出較低的分支預(yù)測(cè)錯(cuò)誤率.

    圖8 分支指令比重和分支預(yù)測(cè)錯(cuò)誤率

    然而, 并不是所有的流水線槽都會(huì)被占用, 空的流水線槽表現(xiàn)為CPU 停頓, 從CPU 時(shí)鐘周期上微操作的執(zhí)行情況考慮, 可以將總的時(shí)鐘周期劃分為工作周期和停頓周期.在CPU 停頓周期上, 執(zhí)行單元空閑, 沒(méi)有微操作在執(zhí)行, 頻繁的CPU 停頓必然會(huì)造成程序性能的極大損失.

    引起CPU 停頓的原因有很多, 從前端來(lái)看, 取指譯碼階段造成的CPU 停頓表現(xiàn)為指令饑餓.通過(guò)對(duì)目標(biāo)程序的指令饑餓表現(xiàn)進(jìn)行探究, 發(fā)現(xiàn)具有較高分支預(yù)測(cè)錯(cuò)誤率的ReLU 層、最大池化層和Softmax 層對(duì)應(yīng)較高的指令饑餓, 測(cè)試程序的指令饑餓在較大程度上由錯(cuò)誤的分支預(yù)測(cè)造成.這是因?yàn)楫?dāng)分支預(yù)測(cè)發(fā)生錯(cuò)誤后, 流水線需要被重新刷新, 在程序恢復(fù)正確執(zhí)行路徑之前, 執(zhí)行單元沒(méi)有來(lái)自于前端的可執(zhí)行指令, 處于等待指令的空閑狀態(tài).改善分支預(yù)測(cè)機(jī)制對(duì)于這3 個(gè)程序的性能提升會(huì)帶來(lái)明顯效果, 不僅使執(zhí)行無(wú)效微操作的流水線槽減少, 還能降低指令饑餓.

    前端造成的停頓一般較少, 很大一部分的CPU 停頓由后端執(zhí)行階段造成, 由于后端資源有限, 當(dāng)產(chǎn)生資源競(jìng)爭(zhēng)時(shí), 微操作便不能被發(fā)射.亂序執(zhí)行過(guò)程中需要競(jìng)爭(zhēng)的資源主要包括保留站、讀緩沖、寫(xiě)緩沖和重排序緩沖.通過(guò)詳盡探究資源的使用情況, 最終定位出測(cè)試程序的資源競(jìng)爭(zhēng)集中在保留站和寫(xiě)緩沖, 圖9 給出了這些程序的保留站滿(mǎn)載率和寫(xiě)緩沖滿(mǎn)載率.

    圖9 保留站滿(mǎn)載率和寫(xiě)緩沖滿(mǎn)載率

    由圖9 可知, BatchNorm 層的保留站滿(mǎn)載率最高,其20%的滿(mǎn)載率在很大程度上由程序內(nèi)部頻繁的除法操作造成, 由于除法操作通常更加耗時(shí)而除法單元配置較少, 除法單元長(zhǎng)時(shí)間被占用導(dǎo)致后續(xù)連續(xù)的除法微操作不能被分配到執(zhí)行單元, 微操作滯留于保留站中造成目標(biāo)資源的頻繁滿(mǎn)載.由此可見(jiàn), 優(yōu)化除法操作、增加除法執(zhí)行單元對(duì)BatchNorm 層的性能提升有較大的幫助.與保留站競(jìng)爭(zhēng)相比, 寫(xiě)緩沖競(jìng)爭(zhēng)對(duì)測(cè)試程序造成的性能損失更普遍且更明顯.大部分程序的寫(xiě)緩沖滿(mǎn)載率高達(dá)20%以上, 其中, Concat 層和Eltwise層的寫(xiě)緩沖滿(mǎn)載率分別高達(dá)80%和40%, 這與程序內(nèi)部大量連續(xù)的存儲(chǔ)操作密切相關(guān), 進(jìn)行寫(xiě)緩沖資源的擴(kuò)容對(duì)程序性能提升有著重要意義.

    在后端執(zhí)行過(guò)程中, 復(fù)雜的依賴(lài)關(guān)系、計(jì)算資源受限和訪存受限均會(huì)造成程序執(zhí)行性能的損失, 接下來(lái)從訪存表現(xiàn)進(jìn)行探究.在高速緩存的3 個(gè)級(jí)別中, L1 DCache 離CPU 最近, 速度最快, 較高的L1 DCache 命中率能夠很好地解決訪存與計(jì)算速度的不匹配問(wèn)題.然而, 一旦程序執(zhí)行過(guò)程中頻繁發(fā)生L1 DCache 的訪問(wèn)缺失, 程序執(zhí)行性能會(huì)受到很大影響, 圖10 給出了各個(gè)程序的L1 DCache 缺失率.

    圖10 L1 DCache 缺失率

    可以發(fā)現(xiàn), 大部分測(cè)試程序的L1 DCache 缺失率較小, 這是因?yàn)樗鼈兓跀?shù)據(jù)塊做循環(huán)計(jì)算, 程序具有良好的數(shù)據(jù)局部性, 當(dāng)一個(gè)Cache Line 的數(shù)據(jù)從內(nèi)存被取進(jìn)L1 DCache 后, 在接下來(lái)的一系列操作中, 前面讀進(jìn)來(lái)的數(shù)據(jù)都能被命中.其中, ReLU 層、池化層、Concat 層的L1 DCache 缺失率極低, 不足0.3%, 卷積層、全連接層和反卷積層的L1 DCache 缺失率均在3%以下.Softmax 層和Eltwise 層的L1 DCache 缺失率較高, 后者的L1 DCache 缺失率最高, 達(dá)到12%以上,這是因?yàn)镋ltwise 層的主要計(jì)算是矩陣的按元素相加操作, 內(nèi)部計(jì)算較為簡(jiǎn)單, 幾乎不存在數(shù)據(jù)依賴(lài), 在程序執(zhí)行過(guò)程中, 產(chǎn)生大量的同時(shí)取數(shù)據(jù)操作, 由此造成大量的數(shù)據(jù)緩存缺失.

    當(dāng)L1 DCache 命中失敗時(shí), 需要訪問(wèn)L2 Cache,圖11 給出了測(cè)試程序的L2 Cache 局部缺失率和全局缺失率.

    L2 Cache 的局部缺失率即為L(zhǎng)2 Cache 的缺失次數(shù)與其訪問(wèn)總次數(shù)的比值, L2 Cache 的全局缺失率是其局部缺失率與L1 DCache 缺失率的乘積結(jié)果.圖中顯示部分程序的L2 Cache 局部缺失率高達(dá)80%, L2 Cache 的局部缺失率不具有說(shuō)服力, 這是因?yàn)長(zhǎng)1 DCache中存儲(chǔ)的數(shù)據(jù)是最容易被命中的, L2 Cache 只會(huì)在L1 DCache 發(fā)生缺失時(shí)才會(huì)被訪問(wèn).因此, 在評(píng)測(cè)L2 Cache缺失率時(shí), 需要選取全局缺失率, 大多數(shù)程序的L2 Cache 全局缺失率不足1%, Softmax 層和Eltwise 層的L2 Cache 全局缺失率在10%左右, 這是由其極差的數(shù)據(jù)局部性造成.

    圖11 L2 Cache 的局部缺失率和全局缺失率

    綜合L1 DCache 缺失率和L2 Cache 的全局缺失率來(lái)看, 絕大多數(shù)測(cè)試程序的取數(shù)據(jù)需求能夠被前兩級(jí)緩存很好地滿(mǎn)足, 程序?qū)3 Cache 的訪問(wèn)需求極小,本文不再對(duì)L3 Cache 的缺失率進(jìn)行分析.在此基礎(chǔ)上給出了進(jìn)一步的分析, 以Conv331 為例, 在GEM5 體系結(jié)構(gòu)模擬器上探究了L1 DCache 和L3 Cache 的6 種配置組合對(duì)目標(biāo)程序的影響.其中, L3 Cache 的容量被減小為25 MB, 相聯(lián)度保持20 路不變, L1 DCache 的配置分別為2 路32 KB, 4 路32 KB, 8 路32 KB, 2 路64 KB, 4 路64 KB, 8 路64 KB.通過(guò)對(duì)比分析這些配置下的L1 DCache 缺失率和目標(biāo)程序的執(zhí)行時(shí)間發(fā)現(xiàn), 相聯(lián)度產(chǎn)生的影響極小, 因此重點(diǎn)關(guān)注容量配置帶來(lái)的影響.相對(duì)于L1 DCache 容量為32 KB 的情況, 在容量增至64 KB 時(shí)L1 DCache 的缺失率降低到80%以下, 目標(biāo)程序的執(zhí)行時(shí)鐘周期數(shù)也有所減少, 由此可見(jiàn), 增大L1 DCache 容量在較大程度上降低了缺失率,對(duì)于目標(biāo)程序的執(zhí)行時(shí)間優(yōu)化具有較好的效果.另外,對(duì)比第三種配置與真實(shí)硬件配置情況發(fā)現(xiàn), 目標(biāo)程序的執(zhí)行時(shí)間沒(méi)有明顯變化, 減小L3 Cache 的容量對(duì)于目標(biāo)程序的執(zhí)行時(shí)間沒(méi)有明顯影響.考慮到L3 Cache具有較大的容量, 占用了較大的芯片面積, 卻沒(méi)有帶來(lái)程序性能的明顯提升, 可以考慮減少L3 Cache 的容量,增大L1 DCache 的容量.

    5 結(jié)論與展望

    本文給出了一套卷積神經(jīng)網(wǎng)絡(luò)基準(zhǔn)測(cè)試程序, 包括由網(wǎng)絡(luò)構(gòu)成的宏基準(zhǔn)測(cè)試程序和由網(wǎng)絡(luò)層構(gòu)成的微基準(zhǔn)測(cè)試程序, 同時(shí)為所選網(wǎng)絡(luò)提供了典型數(shù)據(jù)集, 為網(wǎng)絡(luò)層提供了常見(jiàn)的配置, 并為它們構(gòu)造了不同規(guī)模的輸入集.最后從系統(tǒng)層面和微架構(gòu)層面給出了這套基準(zhǔn)測(cè)試程序的性能評(píng)測(cè)實(shí)例, 結(jié)合程序的性能表現(xiàn)和程序本身進(jìn)行分析, 可以證明測(cè)試程序能夠準(zhǔn)確反映卷積神經(jīng)網(wǎng)絡(luò)的程序特性, 能夠用于處理器的評(píng)測(cè)和優(yōu)化設(shè)計(jì)指導(dǎo).并且, 通過(guò)分析性能評(píng)測(cè)結(jié)果, 明確了目標(biāo)程序的行為特征和性能瓶頸, 為處理器的設(shè)計(jì)提出了一些改進(jìn)建議.

    下一步將繼續(xù)完善基準(zhǔn)測(cè)試程序, 使其包含更多領(lǐng)域的卷積神經(jīng)網(wǎng)絡(luò), 提高基準(zhǔn)測(cè)試程序的代表性.待國(guó)產(chǎn)神威硬件平臺(tái)上的軟件環(huán)境包括深度學(xué)習(xí)框架、卷積神經(jīng)網(wǎng)絡(luò)庫(kù)和性能分析工具完善后, 利用這套基準(zhǔn)測(cè)試程序?yàn)閲?guó)產(chǎn)處理器面向神經(jīng)網(wǎng)絡(luò)訓(xùn)練任務(wù)的優(yōu)化提供指導(dǎo).

    猜你喜歡
    測(cè)試程序網(wǎng)絡(luò)層基準(zhǔn)
    Noise-Tolerant ZNN-Based Data-Driven Iterative Learning Control for Discrete Nonaffine Nonlinear MIMO Repetitive Systems
    基于Castle型機(jī)械手的三溫量產(chǎn)測(cè)試平臺(tái)實(shí)現(xiàn)
    手機(jī)APP交互界面人因適合性測(cè)試程序的設(shè)計(jì)與實(shí)現(xiàn)
    中心主導(dǎo)制訂的《VHF/UHF頻率范圍內(nèi)測(cè)向系統(tǒng)測(cè)向靈敏度的測(cè)試程序》等兩項(xiàng)國(guó)際標(biāo)準(zhǔn)在ITU官網(wǎng)正式發(fā)布
    明基準(zhǔn)講方法??待R
    基于WPA的物聯(lián)網(wǎng)網(wǎng)絡(luò)層安全的研究
    電氣自動(dòng)化控制設(shè)備可靠性測(cè)試探討
    滑落還是攀爬
    巧用基準(zhǔn)變換實(shí)現(xiàn)裝配檢測(cè)
    河南科技(2014年15期)2014-02-27 14:12:35
    Imagination率先展示全新Futuremark 3DMark OpenGL ES3.0基準(zhǔn)測(cè)試
    新久久久久国产一级毛片| av网站免费在线观看视频| 无人区码免费观看不卡| 久久久久久久久免费视频了| 亚洲专区国产一区二区| 日韩精品免费视频一区二区三区| 丝袜美腿诱惑在线| 久9热在线精品视频| 日本三级黄在线观看| 一级毛片高清免费大全| 天天躁夜夜躁狠狠躁躁| 亚洲精品粉嫩美女一区| 久9热在线精品视频| 91大片在线观看| 高清欧美精品videossex| 成人av一区二区三区在线看| 日本黄色日本黄色录像| 一级作爱视频免费观看| 亚洲 欧美一区二区三区| 国产精品免费视频内射| 欧美午夜高清在线| 这个男人来自地球电影免费观看| 午夜成年电影在线免费观看| av免费在线观看网站| 日韩成人在线观看一区二区三区| 日本免费a在线| 精品久久久久久电影网| 亚洲一区二区三区不卡视频| 男女午夜视频在线观看| 99国产综合亚洲精品| 国产欧美日韩综合在线一区二区| 免费一级毛片在线播放高清视频 | 婷婷六月久久综合丁香| 亚洲国产欧美一区二区综合| 多毛熟女@视频| 亚洲va日本ⅴa欧美va伊人久久| 亚洲伊人色综图| 国产成年人精品一区二区 | 老熟妇仑乱视频hdxx| 亚洲,欧美精品.| 电影成人av| 91麻豆av在线| 亚洲午夜精品一区,二区,三区| 乱人伦中国视频| 亚洲av日韩精品久久久久久密| tocl精华| 啦啦啦在线免费观看视频4| 中文亚洲av片在线观看爽| 国产主播在线观看一区二区| 十八禁人妻一区二区| 亚洲国产中文字幕在线视频| 久久国产精品影院| 在线观看免费视频网站a站| 一夜夜www| 久久久久久亚洲精品国产蜜桃av| 欧美国产精品va在线观看不卡| 涩涩av久久男人的天堂| 黄频高清免费视频| 久久久久久亚洲精品国产蜜桃av| 欧美日韩瑟瑟在线播放| 国产高清激情床上av| 亚洲国产精品一区二区三区在线| 男女高潮啪啪啪动态图| 夜夜看夜夜爽夜夜摸 | 欧美成人免费av一区二区三区| 欧美日韩国产mv在线观看视频| 成人国产一区最新在线观看| 久久中文字幕一级| 欧美成人免费av一区二区三区| 久久精品亚洲熟妇少妇任你| 婷婷六月久久综合丁香| 如日韩欧美国产精品一区二区三区| 精品久久久久久久久久免费视频 | 亚洲av熟女| 久久久久国产一级毛片高清牌| 久久精品亚洲精品国产色婷小说| 涩涩av久久男人的天堂| 啪啪无遮挡十八禁网站| 久久人妻av系列| 亚洲三区欧美一区| 99在线人妻在线中文字幕| 香蕉国产在线看| 免费观看精品视频网站| 国产深夜福利视频在线观看| 精品免费久久久久久久清纯| 久久伊人香网站| 欧美日韩瑟瑟在线播放| 欧美老熟妇乱子伦牲交| 久久午夜亚洲精品久久| 亚洲中文日韩欧美视频| 在线视频色国产色| 日韩精品免费视频一区二区三区| 精品免费久久久久久久清纯| 国产精品永久免费网站| 亚洲精品中文字幕在线视频| 亚洲性夜色夜夜综合| 日本vs欧美在线观看视频| 亚洲av成人一区二区三| 久久国产乱子伦精品免费另类| 亚洲欧美一区二区三区黑人| 在线av久久热| 亚洲精品一卡2卡三卡4卡5卡| 日韩欧美一区视频在线观看| 青草久久国产| 看黄色毛片网站| 纯流量卡能插随身wifi吗| 久久精品人人爽人人爽视色| 日本撒尿小便嘘嘘汇集6| 91九色精品人成在线观看| 久久人人精品亚洲av| 亚洲七黄色美女视频| 久久久国产一区二区| 国产精品1区2区在线观看.| 国产精品久久久人人做人人爽| 欧美成人性av电影在线观看| 久久午夜综合久久蜜桃| 波多野结衣高清无吗| 99精国产麻豆久久婷婷| svipshipincom国产片| 国产精品99久久99久久久不卡| 少妇被粗大的猛进出69影院| 99精品久久久久人妻精品| 久久久久久久久免费视频了| 国产深夜福利视频在线观看| 免费人成视频x8x8入口观看| 丰满人妻熟妇乱又伦精品不卡| 天堂俺去俺来也www色官网| 十八禁网站免费在线| 99久久国产精品久久久| 亚洲国产精品合色在线| 88av欧美| 性少妇av在线| 黄色成人免费大全| 国产一区二区在线av高清观看| 精品一区二区三区四区五区乱码| av免费在线观看网站| 日本精品一区二区三区蜜桃| 免费不卡黄色视频| 国产亚洲精品久久久久久毛片| 亚洲精品美女久久av网站| 18禁黄网站禁片午夜丰满| 久久精品亚洲精品国产色婷小说| 一进一出好大好爽视频| 日本vs欧美在线观看视频| 欧美日韩瑟瑟在线播放| 99热只有精品国产| 少妇的丰满在线观看| 欧美日韩av久久| 久久中文看片网| 黄色片一级片一级黄色片| 一本大道久久a久久精品| 男女下面进入的视频免费午夜 | 在线免费观看的www视频| 久9热在线精品视频| 国产熟女xx| 国产又爽黄色视频| 波多野结衣一区麻豆| 搡老熟女国产l中国老女人| 日本 av在线| 成人手机av| 男男h啪啪无遮挡| 亚洲欧美日韩无卡精品| 久久久国产成人免费| netflix在线观看网站| 日韩 欧美 亚洲 中文字幕| 一区二区三区精品91| 丝袜美足系列| 亚洲激情在线av| 操出白浆在线播放| 国产精品国产高清国产av| 18禁国产床啪视频网站| 97超级碰碰碰精品色视频在线观看| 又黄又爽又免费观看的视频| 亚洲成av片中文字幕在线观看| 精品无人区乱码1区二区| 久久久久国产精品人妻aⅴ院| 人人妻人人爽人人添夜夜欢视频| 亚洲欧美激情综合另类| 一二三四在线观看免费中文在| 久久精品国产清高在天天线| 国产成人欧美在线观看| 成人特级黄色片久久久久久久| 国产免费现黄频在线看| 午夜久久久在线观看| 激情视频va一区二区三区| 国产精品爽爽va在线观看网站 | 男女之事视频高清在线观看| 亚洲精品av麻豆狂野| 啦啦啦免费观看视频1| 中文欧美无线码| 精品卡一卡二卡四卡免费| 久热这里只有精品99| 成人黄色视频免费在线看| 一级毛片高清免费大全| 国产高清激情床上av| 欧美日韩福利视频一区二区| 国产精品免费视频内射| 少妇裸体淫交视频免费看高清 | 老熟妇乱子伦视频在线观看| 免费高清在线观看日韩| 色尼玛亚洲综合影院| 色哟哟哟哟哟哟| 99久久人妻综合| 国产xxxxx性猛交| 不卡av一区二区三区| 国产一区二区三区视频了| 国产一卡二卡三卡精品| 午夜免费激情av| 老司机福利观看| 一级毛片女人18水好多| 夜夜看夜夜爽夜夜摸 | 在线国产一区二区在线| 99国产极品粉嫩在线观看| av在线播放免费不卡| ponron亚洲| 国产精品二区激情视频| 久99久视频精品免费| 国产激情久久老熟女| 国产精品av久久久久免费| 99久久综合精品五月天人人| www.熟女人妻精品国产| 亚洲一区中文字幕在线| 婷婷六月久久综合丁香| 老鸭窝网址在线观看| 国产精品 欧美亚洲| 国产成人精品无人区| 性欧美人与动物交配| 女人爽到高潮嗷嗷叫在线视频| 亚洲国产欧美日韩在线播放| 黄色女人牲交| 51午夜福利影视在线观看| 日韩人妻精品一区2区三区| 真人一进一出gif抽搐免费| tocl精华| 午夜福利影视在线免费观看| 在线视频色国产色| 最近最新中文字幕大全免费视频| 老司机午夜福利在线观看视频| 亚洲午夜精品一区,二区,三区| 黄色女人牲交| 桃红色精品国产亚洲av| 9色porny在线观看| 纯流量卡能插随身wifi吗| 啦啦啦 在线观看视频| 午夜老司机福利片| netflix在线观看网站| 丁香欧美五月| 亚洲五月天丁香| 高清在线国产一区| 天堂俺去俺来也www色官网| 免费高清视频大片| 高清毛片免费观看视频网站 | 国产免费男女视频| 亚洲成人免费av在线播放| 国内毛片毛片毛片毛片毛片| 桃色一区二区三区在线观看| 又黄又粗又硬又大视频| 色在线成人网| 中文字幕另类日韩欧美亚洲嫩草| 十分钟在线观看高清视频www| 国产免费男女视频| 精品国产一区二区三区四区第35| 亚洲狠狠婷婷综合久久图片| 18禁黄网站禁片午夜丰满| 欧美最黄视频在线播放免费 | 午夜福利,免费看| 日韩高清综合在线| 亚洲男人的天堂狠狠| 女性被躁到高潮视频| 村上凉子中文字幕在线| 亚洲九九香蕉| 欧美黄色淫秽网站| 成人永久免费在线观看视频| 国产野战对白在线观看| 美女高潮喷水抽搐中文字幕| 免费搜索国产男女视频| 中出人妻视频一区二区| www日本在线高清视频| 日本免费一区二区三区高清不卡 | 亚洲av成人av| 在线观看免费日韩欧美大片| 亚洲成国产人片在线观看| 在线国产一区二区在线| 国产99白浆流出| 精品国产美女av久久久久小说| 69av精品久久久久久| 日本三级黄在线观看| 亚洲自偷自拍图片 自拍| 91成人精品电影| 国产av精品麻豆| 男人的好看免费观看在线视频 | 久久久国产成人精品二区 | 日韩精品免费视频一区二区三区| 国产伦人伦偷精品视频| 国产麻豆69| 美国免费a级毛片| 自线自在国产av| 亚洲国产看品久久| 亚洲国产精品一区二区三区在线| 免费久久久久久久精品成人欧美视频| 精品卡一卡二卡四卡免费| 久久精品91蜜桃| 男女下面进入的视频免费午夜 | 视频区图区小说| 亚洲 欧美一区二区三区| 悠悠久久av| 宅男免费午夜| 久久天躁狠狠躁夜夜2o2o| 黄色怎么调成土黄色| 亚洲精品国产区一区二| 久久精品国产亚洲av香蕉五月| 亚洲aⅴ乱码一区二区在线播放 | 女人精品久久久久毛片| 香蕉久久夜色| 国产亚洲精品第一综合不卡| 亚洲av第一区精品v没综合| 女人被狂操c到高潮| 午夜91福利影院| av中文乱码字幕在线| 极品教师在线免费播放| 精品久久蜜臀av无| 在线十欧美十亚洲十日本专区| 日韩精品免费视频一区二区三区| 亚洲精华国产精华精| av网站在线播放免费| 国产乱人伦免费视频| 丰满的人妻完整版| 最近最新中文字幕大全免费视频| 久久久久国产一级毛片高清牌| 超碰成人久久| 精品一品国产午夜福利视频| 久久精品91无色码中文字幕| 国产成人啪精品午夜网站| 国产亚洲av高清不卡| 欧美激情 高清一区二区三区| 嫁个100分男人电影在线观看| svipshipincom国产片| 亚洲熟女毛片儿| 精品乱码久久久久久99久播| a在线观看视频网站| 日韩 欧美 亚洲 中文字幕| 日韩视频一区二区在线观看| 黄网站色视频无遮挡免费观看| 午夜福利欧美成人| 免费高清视频大片| 午夜精品久久久久久毛片777| 高潮久久久久久久久久久不卡| 黑人巨大精品欧美一区二区蜜桃| 久久中文字幕人妻熟女| 久久草成人影院| 老熟妇乱子伦视频在线观看| 欧美黑人精品巨大| 最近最新免费中文字幕在线| 国产av一区在线观看免费| 黄色成人免费大全| 亚洲av美国av| 视频区图区小说| 亚洲国产欧美网| 新久久久久国产一级毛片| 天堂√8在线中文| 男人的好看免费观看在线视频 | 亚洲免费av在线视频| 亚洲一区二区三区不卡视频| 精品久久久久久,| 精品福利永久在线观看| 欧洲精品卡2卡3卡4卡5卡区| 亚洲专区国产一区二区| 精品乱码久久久久久99久播| 午夜免费激情av| 看片在线看免费视频| 91字幕亚洲| 国产成人精品久久二区二区91| 免费av中文字幕在线| 一级a爱视频在线免费观看| 久久香蕉国产精品| 欧美中文日本在线观看视频| 老熟妇乱子伦视频在线观看| 日韩欧美一区二区三区在线观看| 欧美色视频一区免费| 中文字幕高清在线视频| 久久国产精品男人的天堂亚洲| 国产精品久久视频播放| 免费在线观看日本一区| 嫩草影视91久久| 国产亚洲精品久久久久5区| 午夜成年电影在线免费观看| 亚洲五月色婷婷综合| 亚洲成av片中文字幕在线观看| 18禁黄网站禁片午夜丰满| 日韩免费高清中文字幕av| 在线观看免费视频网站a站| 最近最新免费中文字幕在线| 精品一区二区三区av网在线观看| 日本免费一区二区三区高清不卡 | 国产蜜桃级精品一区二区三区| 欧美成人性av电影在线观看| 黄片播放在线免费| 涩涩av久久男人的天堂| a级毛片在线看网站| 人妻丰满熟妇av一区二区三区| 久久欧美精品欧美久久欧美| 国产成人精品久久二区二区91| 久久国产精品人妻蜜桃| 日韩欧美国产一区二区入口| 日本a在线网址| 黄片播放在线免费| 亚洲伊人色综图| 夜夜爽天天搞| xxxhd国产人妻xxx| 波多野结衣av一区二区av| 啪啪无遮挡十八禁网站| 黑人欧美特级aaaaaa片| 99久久久亚洲精品蜜臀av| 一个人免费在线观看的高清视频| 国产亚洲欧美98| 欧美国产精品va在线观看不卡| 久久国产精品影院| 99精品欧美一区二区三区四区| 久久性视频一级片| 看片在线看免费视频| 村上凉子中文字幕在线| 亚洲黑人精品在线| 黑人欧美特级aaaaaa片| 黑人巨大精品欧美一区二区蜜桃| 欧美激情高清一区二区三区| 在线av久久热| 亚洲一区中文字幕在线| 人人妻人人爽人人添夜夜欢视频| 久久这里只有精品19| 国产熟女xx| 国产不卡一卡二| 99精品久久久久人妻精品| 中文字幕精品免费在线观看视频| 一区二区日韩欧美中文字幕| 国产欧美日韩一区二区精品| 两性夫妻黄色片| 国产成人啪精品午夜网站| 日本黄色视频三级网站网址| 久久久久久久午夜电影 | 亚洲欧美精品综合一区二区三区| 亚洲,欧美精品.| 日本vs欧美在线观看视频| 激情在线观看视频在线高清| av有码第一页| 校园春色视频在线观看| 久久久久久人人人人人| 久久99一区二区三区| 久久伊人香网站| 乱人伦中国视频| 午夜福利在线观看吧| 亚洲国产欧美网| 岛国视频午夜一区免费看| 97超级碰碰碰精品色视频在线观看| 激情在线观看视频在线高清| 久久久水蜜桃国产精品网| 少妇的丰满在线观看| 悠悠久久av| 69av精品久久久久久| 怎么达到女性高潮| 美女大奶头视频| 欧美色视频一区免费| 久久久久国产精品人妻aⅴ院| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲av五月六月丁香网| 午夜福利免费观看在线| 免费久久久久久久精品成人欧美视频| 热re99久久精品国产66热6| 久久精品成人免费网站| 色综合婷婷激情| 午夜福利一区二区在线看| 精品无人区乱码1区二区| 国产视频一区二区在线看| 极品教师在线免费播放| 人人妻人人添人人爽欧美一区卜| 丁香欧美五月| 黄色片一级片一级黄色片| 水蜜桃什么品种好| 一进一出好大好爽视频| 日韩高清综合在线| 亚洲av成人一区二区三| 嫩草影视91久久| 亚洲精品中文字幕一二三四区| 久久 成人 亚洲| 黄片小视频在线播放| 成人亚洲精品av一区二区 | 夜夜爽天天搞| 精品久久久精品久久久| 久久久水蜜桃国产精品网| 国产人伦9x9x在线观看| 日韩成人在线观看一区二区三区| 国产av又大| 超碰成人久久| 亚洲性夜色夜夜综合| 久久热在线av| 婷婷六月久久综合丁香| 18禁黄网站禁片午夜丰满| 国产亚洲精品久久久久久毛片| 亚洲国产精品一区二区三区在线| 啦啦啦在线免费观看视频4| av视频免费观看在线观看| 婷婷丁香在线五月| 国产高清视频在线播放一区| 亚洲国产欧美一区二区综合| 一区二区三区国产精品乱码| 亚洲熟妇中文字幕五十中出 | 国产无遮挡羞羞视频在线观看| 免费女性裸体啪啪无遮挡网站| 窝窝影院91人妻| 亚洲片人在线观看| 两人在一起打扑克的视频| 不卡一级毛片| 亚洲精华国产精华精| 欧美激情久久久久久爽电影 | 长腿黑丝高跟| 美女扒开内裤让男人捅视频| 亚洲美女黄片视频| 热99re8久久精品国产| 精品国产亚洲在线| 交换朋友夫妻互换小说| 国产熟女xx| 99国产精品免费福利视频| 国产av一区在线观看免费| av在线播放免费不卡| 无人区码免费观看不卡| 老汉色∧v一级毛片| 国产成人影院久久av| 曰老女人黄片| 国产有黄有色有爽视频| 久久 成人 亚洲| 日本黄色日本黄色录像| 久久国产精品人妻蜜桃| 午夜a级毛片| 中出人妻视频一区二区| 涩涩av久久男人的天堂| 精品国产一区二区久久| 亚洲一区二区三区色噜噜 | 成人三级做爰电影| 亚洲国产毛片av蜜桃av| 国产97色在线日韩免费| 人人妻,人人澡人人爽秒播| 免费在线观看黄色视频的| 999久久久精品免费观看国产| 久久久久国内视频| 久热爱精品视频在线9| 欧美日韩乱码在线| 女人爽到高潮嗷嗷叫在线视频| 亚洲av日韩精品久久久久久密| 精品国内亚洲2022精品成人| 免费在线观看完整版高清| 伦理电影免费视频| 亚洲精品久久成人aⅴ小说| 可以免费在线观看a视频的电影网站| 97碰自拍视频| 视频区图区小说| 三上悠亚av全集在线观看| 青草久久国产| 亚洲精品中文字幕在线视频| 午夜精品在线福利| 亚洲一区二区三区色噜噜 | 午夜免费鲁丝| 1024香蕉在线观看| 国产人伦9x9x在线观看| 国产欧美日韩一区二区三| 国产精品一区二区在线不卡| 精品国产美女av久久久久小说| 国产av一区在线观看免费| 精品人妻在线不人妻| 高清av免费在线| 久久人人精品亚洲av| 首页视频小说图片口味搜索| 亚洲成人免费av在线播放| 国产麻豆69| 老熟妇仑乱视频hdxx| 在线观看日韩欧美| 亚洲专区中文字幕在线| 国产欧美日韩一区二区精品| 国产一区二区三区视频了| 欧美乱妇无乱码| 午夜两性在线视频| 国产精华一区二区三区| 亚洲三区欧美一区| 两性夫妻黄色片| 12—13女人毛片做爰片一| 欧美人与性动交α欧美精品济南到| 亚洲中文字幕日韩| 成年人黄色毛片网站| 欧美日韩精品网址| 最近最新免费中文字幕在线| 亚洲专区国产一区二区| 日韩人妻精品一区2区三区| 一级a爱视频在线免费观看| 1024视频免费在线观看| 一边摸一边做爽爽视频免费| 色精品久久人妻99蜜桃| 亚洲欧美日韩另类电影网站| 亚洲一区二区三区欧美精品| 精品少妇一区二区三区视频日本电影| 久久久久国内视频| 中文亚洲av片在线观看爽| 青草久久国产| 丝袜在线中文字幕| 真人一进一出gif抽搐免费| 午夜视频精品福利| 午夜老司机福利片| 村上凉子中文字幕在线| 久久久久国产一级毛片高清牌| 美女高潮喷水抽搐中文字幕| 中文字幕最新亚洲高清| 午夜福利,免费看| 怎么达到女性高潮| 成年人免费黄色播放视频| 欧美最黄视频在线播放免费 | 丝袜人妻中文字幕| 精品一区二区三区视频在线观看免费 | 国内毛片毛片毛片毛片毛片|