• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大點(diǎn)數(shù)FFT 在“申威26010”上的并行優(yōu)化

    2024-02-12 07:43:08郭俊劉鵬楊昕遙張魯飛吳東
    關(guān)鍵詞:均分點(diǎn)數(shù)數(shù)據(jù)量

    郭俊,劉鵬,楊昕遙,張魯飛,吳東

    (1.湖州職業(yè)技術(shù)學(xué)院 信息工程與物聯(lián)網(wǎng)學(xué)院,浙江 湖州 313000;2.湖州職業(yè)技術(shù)學(xué)院 湖州市物聯(lián)網(wǎng)智能系統(tǒng)集成技術(shù)重點(diǎn)實(shí)驗(yàn)室,浙江 湖州 313000;3.浙江大學(xué) 信息與電子工程學(xué)院,浙江 杭州 310027;4.螞蟻科技集團(tuán)股份有限公司,浙江 杭州 310013;5.數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214125)

    隨著數(shù)字計(jì)算機(jī)和超大規(guī)模集成電路的飛速發(fā)展,數(shù)字信號處理技術(shù)得到了越來越廣泛的應(yīng)用,快速傅里葉變換(fast Fourier transform,F(xiàn)FT)是其中最基本、使用最頻繁的核心算法之一.其他諸多信號處理算法,例如卷積、濾波、頻譜分析等,都可以轉(zhuǎn)化為FFT 來實(shí)現(xiàn).

    超級計(jì)算機(jī)為解決當(dāng)今海量級數(shù)據(jù)的科學(xué)與工程計(jì)算問題提供了良好的平臺.“神威·太湖之光”是世界上首臺峰值每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)超過100×1015的超級計(jì)算機(jī),也是中國第一臺全部采用自主技術(shù)構(gòu)建的排名世界第一的超級計(jì)算機(jī)[1].“神威·太湖之光”由國產(chǎn)“申威26010”處理器組成,單處理器峰值FLOPs 可達(dá)3.1×1012.相比之下,訪存帶寬僅有136.5 GB/s 則略顯遜色,計(jì)算訪存比接近22.7.在面對諸如FFT 這樣兼具計(jì)算密集型和訪存密集型特點(diǎn)的程序時(shí),需要設(shè)計(jì)特定的并行實(shí)現(xiàn)策略,以優(yōu)化其性能.

    本文的主要工作是根據(jù)“申威26010”處理器的架構(gòu)特點(diǎn)和編程規(guī)范,提出針對大點(diǎn)數(shù)FFT 的眾核優(yōu)化方案.該方案源自經(jīng)典的Cooley-Tukey FFT 算法,將一維數(shù)據(jù)迭代分解為二維FFT 進(jìn)行加速.為了解決“列FFT”的讀寫和計(jì)算問題,降低矩陣轉(zhuǎn)置的影響,提出“列均分-行連續(xù)”結(jié)合DMA跨步傳輸?shù)淖x寫策略.該方法還可以推廣至其他需要進(jìn)行大量列數(shù)據(jù)操作的應(yīng)用.計(jì)算部分采用旋轉(zhuǎn)因子優(yōu)化和向量化操作,傳輸部分采用雙緩沖策略和寄存器通信,能夠充分利用眾核系統(tǒng)的計(jì)算資源和傳輸帶寬,達(dá)到了良好的加速效果.

    1 相關(guān)工作及研究現(xiàn)狀

    1.1 快速傅里葉變換

    FFT 是離散傅里葉變換(discrete Fourier transform,DFT)的快速算法,由Cooley 等[2]提出,經(jīng)過近60 年的發(fā)展,形成了龐大的算法體系,陸續(xù)衍生出包括高基[3]、混合基[4]、分裂基[5]、多維度[6]等多種FFT 算法,以應(yīng)對各種數(shù)據(jù)類型和數(shù)據(jù)量.

    在具體實(shí)現(xiàn)方面,F(xiàn)FT 的硬件優(yōu)化主要針對FPGA、ASIC、DSP 等專用處理器,大致可以分為基于存儲器和基于流水線2 類.基于存儲器的結(jié)構(gòu)利用數(shù)據(jù)在計(jì)算單元和存儲單元之間往復(fù)運(yùn)算和循環(huán)路由的特征來降低硬件復(fù)雜度[7-8].基于流水線的結(jié)構(gòu)通過設(shè)計(jì)單路/多路的前饋/反饋路徑,提升蝶形單元的吞吐率[9-10].

    FFT 的軟件優(yōu)化主要是通用平臺上高性能軟件包(庫)的開發(fā).常見的有CPU 平臺上Frigo 等[11]開發(fā)的FFTW、Intel 公司[12]的MKL FFTW 等、GPU平臺上NVIDIA 公司[13]的CUFFT、Ayala 等[14]提出的heFFTe 等.其中,F(xiàn)FTW 是目前使用最廣泛、綜合性能較好的FFT 庫.張明[15]在龍芯3B 處理器上、郭金鑫[16]在ARM V8 平臺上、操廬寧[17]在X86-64 平臺上均對FFTW 庫進(jìn)行了移植和優(yōu)化.

    1.2 申威26010 與神威·太湖之光

    國產(chǎn)“申威26010”處理器由上海高性能集成電路設(shè)計(jì)中心通過自主技術(shù)研制,采用片上計(jì)算陣列集群和分布式共享存儲相結(jié)合的異構(gòu)眾核體系架構(gòu),使用64 位自主申威指令系統(tǒng).單芯片集成了4 個(gè)核組共260 個(gè)核心,每個(gè)核組包含1 個(gè)控制核心(主核)和由64 個(gè)運(yùn)算核心(從核)組成的核心陣列.如圖1(a)所示為處理器的結(jié)構(gòu)示意圖,如圖1(b)所示為從核與主存、局存、寄存器之間的簡化通信模型.在編程規(guī)范上,核組內(nèi)部采用Athread 多線程庫或OpenACC 并行編程,核組間使用MPI 或OpenMP 編程接口.新一代“申威26010-Pro”處理器于2021 年發(fā)布,單核組運(yùn)算性能和訪存帶寬分別提升了3.1 倍和1.8 倍.

    圖1 “申威26010”處理器的示意圖Fig.1 Schematic of Sunway 26010 processor

    “神威·太湖之光”由中國國家并行計(jì)算機(jī)工程技術(shù)研究中心于2015 年12 月完成研制,投入運(yùn)行,已成功解決眾多的科學(xué)工程計(jì)算問題.目前已升級為配備有“申威26010-Pro”處理器的新一代超算系統(tǒng).代表性應(yīng)用包括Yang 等[18]的“千萬核可擴(kuò)展大氣動力學(xué)全隱式模擬”、Fu 等[19]的“非線性地震模擬”、Liu 等[20]的“超大規(guī)模量子隨機(jī)電路實(shí)時(shí)模擬”等,分別于2016 年、2017 年、2021 年三度榮獲“戈登貝爾獎”.

    在“神威·太湖之光”上開發(fā)了高性能擴(kuò)展數(shù)學(xué)庫xMath 并移植了FFTW 庫,其中面向科學(xué)計(jì)算BLAS 庫的優(yōu)化已十分成熟[21-22],但是缺少針對FFT 的研究.趙玉文等[23]在“申威26010”上實(shí)現(xiàn)了迭代Stockham FFT 計(jì)算框架,與單主核FFTW相比,獲得了平均44.5x、最高56.3x 的加速比.Stockham FFT 是Cooley-Tukey FFT 的一種常見變化算法,主要特點(diǎn)是消除了輸入輸出的倒位排序,可以避免傳統(tǒng)FFT 算法中的顯式轉(zhuǎn)置,在大數(shù)據(jù)量下能夠?qū)崿F(xiàn)一定的性能提升,代價(jià)是失去了蝶形結(jié)構(gòu)的對稱性和原位計(jì)算的特征,迭代框架的實(shí)現(xiàn)相對比較復(fù)雜.

    針對FFT 優(yōu)化的開發(fā)需求,根據(jù)“申威26010”處理器的架構(gòu)特點(diǎn)與FFT 算法的內(nèi)在聯(lián)系,提出“列均分-行連續(xù)”讀寫策略.結(jié)合其他優(yōu)化手段,對數(shù)據(jù)進(jìn)行巧妙的劃分、重排和交換,可以減少行列轉(zhuǎn)置帶來的影響,完成了經(jīng)典Cooley-Tukey FFT 的眾核實(shí)現(xiàn),達(dá)到了大點(diǎn)數(shù)下平均60x 以上的加速比.

    2 大點(diǎn)數(shù)FFT 算法

    離散傅里葉變換DFT 的計(jì)算公式為

    FFT 作為DFT 的快速算法,核心思想是將長輸入逐次分解成短序列DFT進(jìn)行遞歸計(jì)算,通過分而治之的策略,將計(jì)算復(fù)雜度降至O(Nlog2N).大點(diǎn)數(shù)FFT 的加速算法沿用了上述思想,通過將一維數(shù)據(jù)轉(zhuǎn)化為二維或更高維,減少了每一維上的數(shù)據(jù)量,更有利于進(jìn)行多核/眾核并行.

    將輸入規(guī)模為N=N1×N2的一維數(shù)組映射為N1行、N2列的二維矩陣.令輸入、輸出序號為

    其中,0 ≤n1、k1≤N1-1,0 ≤n2、k2≤N2-1.有如下關(guān)系:

    一維轉(zhuǎn)二維FFT 的計(jì)算流程(見圖2)如下.

    圖2 一維轉(zhuǎn)二維FFT 的計(jì)算流程Fig.2 Calculation process of 1D to 2D FFT

    1)將一維數(shù)據(jù)按行優(yōu)先順序排列為N1行、N2列的二維矩陣.

    2)進(jìn)行每一列N1點(diǎn) FFT,共進(jìn)行N2次,按原位置存回.

    3)對于矩陣中的每一個(gè)數(shù)據(jù),根據(jù)其坐標(biāo),乘以旋轉(zhuǎn)因子 e xp(-j2πn2k1/N).

    4)進(jìn)行每一行N2點(diǎn)FFT,共進(jìn)行N1次,按原位置存回.

    5)按列優(yōu)先順序?qū)?shù)據(jù)讀出,得到N=N2N1的最終結(jié)果.

    3 大點(diǎn)數(shù)FFT 在“申威26010”上的并行優(yōu)化

    將大點(diǎn)數(shù)FFT 在“申威26010”上并行實(shí)現(xiàn)時(shí),主要面臨如下難題.1)主核與從核之間列數(shù)據(jù)的讀寫問題.2)從核間行列數(shù)據(jù)的分布與轉(zhuǎn)置問題.3)從核內(nèi)小點(diǎn)數(shù)FFT 的高效實(shí)現(xiàn)問題.

    下面給出具體的并行優(yōu)化解決方案.

    3.1 基本存儲和分解策略

    使用雙精度浮點(diǎn)復(fù)數(shù),包括8 B 的實(shí)部和8 B 的虛部.“申威26010”從核對局存LDM 的訪問延遲為4 個(gè)CPU 周期,僅為對主存訪問延遲的1/40,應(yīng)盡可能將主存中的數(shù)據(jù)放入LDM 內(nèi)再計(jì)算.考慮到單從核LDM 大小僅為64 kB,采用雙緩沖策略需要2 份輸入/輸出緩沖區(qū)(3.6 節(jié)),將可單次寫入LDM 的最大數(shù)據(jù)量規(guī)定為512 個(gè)復(fù)數(shù).輸入和輸出共占512×16×2×2=32 kB,余下一半空間存儲中間結(jié)果和臨時(shí)變量.

    “申威26010”單個(gè)核組陣列包括8 行8 列共64 個(gè)運(yùn)算核心.為了方便維度分解和FFT 計(jì)算,總數(shù)據(jù)量采用2 的正整數(shù)冪次,每一維上的最小尺寸設(shè)置為8.下面給出基本的分解策略.

    1)將總點(diǎn)數(shù)分解為N=N1N2,通常N1和N2較大,需要繼續(xù)分解.以N1為例,可以按以下a)、b)、c)共3 種情況進(jìn)行分解.

    a)N1<64,即8、16、32 點(diǎn),停止分解,直接在單核上進(jìn)行小點(diǎn)數(shù)FFT 計(jì)算.

    b)64 ≤N1≤256,將N1進(jìn)行二維分解,包括8×8、16×8、32×8 共3 種方案.前一位數(shù)(8、16、32)代表單核上的FFT 點(diǎn)數(shù),后一位數(shù)(8)代表啟動一行(或一列)8 個(gè)從核進(jìn)行計(jì)算.

    c)512 ≤N1≤2 048,將N1進(jìn)行三維分解,包括8×8×8、16×8×8、32×8×8 共3 種方案.前一位數(shù)(8、16、32)代表單核上的FFT 點(diǎn)數(shù),后兩位數(shù)(8×8)代表啟動64 個(gè)從核進(jìn)行計(jì)算.

    2)同理,N2按以上3 條進(jìn)行再分解.當(dāng)N1、N2≥4 096 時(shí),對總點(diǎn)數(shù)N進(jìn)行三維及以上分解,并啟動多個(gè)核組.

    3)每多分解一次,需要將當(dāng)前FFT 替換為圖2所示的“列FFT-乘旋轉(zhuǎn)因子-行FFT”流程,直至迭代計(jì)算完畢.

    下面以輸入數(shù)據(jù)量為262 144=512×512 的實(shí)例,闡述各創(chuàng)新實(shí)現(xiàn)技術(shù).

    3.2 “列均分-行連續(xù)”策略

    在行優(yōu)先的存儲系統(tǒng)中,對列數(shù)據(jù)的讀寫是離散非連續(xù)的,傳輸效率很低.一維轉(zhuǎn)二維FFT并行方案的主要難點(diǎn)是對矩陣“列FFT”的處理.大數(shù)據(jù)量加劇了FFT 訪存密集型特點(diǎn)帶來的上述影響,若在主核上先進(jìn)行顯式轉(zhuǎn)置再傳輸,則會增加不可忽略的額外開銷.

    為了提升“列FFT”的并行效率,結(jié)合FFT 算法、處理器架構(gòu)以及數(shù)據(jù)在從核間的分布特點(diǎn),提出“列均分-行連續(xù)”讀寫策略,即并非用單個(gè)從核去讀取主存中的列數(shù)據(jù),而是把每一列的數(shù)據(jù)循環(huán)平分給64 個(gè)從核.如圖3 所示,對于“大矩陣”的每一列,0 號核讀第0 行,1 號核讀第1 行,······,63 號核讀第63 行.然后0 號核讀第64 行,······,直至63 號核讀第511 行.從列的方向來看,每一列循環(huán)平分到64 個(gè)從核內(nèi).每個(gè)核一次可以讀取多列,從行的方向來看,數(shù)據(jù)是連續(xù)讀取的,即為“列均分-行連續(xù)”策略.

    圖3 “列均分-行連續(xù)”策略Fig.3 Column-sharing,row-continuity strategy

    每個(gè)從核分到512/64=8 行的數(shù)據(jù).由于LDM最大單次輸入量為512,可以連續(xù)讀入“大矩陣”每一行中512/8=64 個(gè)數(shù).由于“申威26010”主存與局存之間的DMA 帶寬性能在傳輸粒度≥256 B(32 個(gè)double 數(shù)據(jù))時(shí)達(dá)到峰值,采用“列均分-行連續(xù)”策略的第1 個(gè)優(yōu)點(diǎn),即在保證一列數(shù)據(jù)能夠完整讀入從核陣列的同時(shí),符合行優(yōu)先的存儲結(jié)構(gòu),且充分利用了傳輸帶寬,從而有效解決了列讀寫的不連續(xù)性.

    3.3 從核間數(shù)據(jù)分布與寄存器通信轉(zhuǎn)置

    “列均分-行連續(xù)”策略的第2 個(gè)優(yōu)點(diǎn),即從核間的數(shù)據(jù)分布與大點(diǎn)數(shù)分解方案吻合,有利于“列FFT”的后續(xù)計(jì)算.如圖4 所示為“大矩陣”列數(shù)據(jù)在從核間的分布,方格中的數(shù)字代表該數(shù)據(jù)所在的從核號.將“大矩陣”任意一列512 個(gè)數(shù)(見圖4(a))排列成64×8 的“中矩陣”(見圖4(b)),再將“中矩陣”的任意一列繼續(xù)轉(zhuǎn)換成8×8 的“小矩陣”(圖4(c)以圖4(b)中的第0 列為例).此時(shí),“小矩陣”中的每一列數(shù)據(jù)均保存在同一個(gè)從核中,因此可以直接計(jì)算“小矩陣”“列FFT”.

    圖4 從核數(shù)據(jù)分布Fig.4 Data distribution among slave cores

    圖4(c)中,“小矩陣”的每一行數(shù)據(jù)分散在同列8 個(gè)從核中,可以利用“申威26010”的寄存器通信機(jī)制來實(shí)現(xiàn)從核間的數(shù)據(jù)交換.使用putc 和getc 指令開啟寄存器列通信模式,同列8 個(gè)核之間彼此將各行數(shù)據(jù)傳到對應(yīng)的從核,并接收其他從核傳給自己的數(shù)據(jù),即可完成“小矩陣”的列與行轉(zhuǎn)置(見圖4(d)),繼續(xù)執(zhí)行“小矩陣”“行FFT”計(jì)算.在“小矩陣”FFT 計(jì)算完畢后,核間數(shù)據(jù)按圖4(d)中的列優(yōu)先順序排列,實(shí)際上與圖4(b)保持一致.“中矩陣”的轉(zhuǎn)置過程與“小矩陣”類似,但須使用putr 和getr 指令開啟寄存器行通信模式(見圖4(e)).在完成“中矩陣”FFT 后,將數(shù)據(jù)按列優(yōu)先順序?qū)懟刂鞔妫ㄒ妶D4(f)).LDM 內(nèi)的64 列數(shù)據(jù)均按圖4(f)的順序排列,因此寫回過程符合“列均分-行連續(xù)”原則,DMA 傳輸可達(dá)最大速度.

    3.4 SIMD FFT

    FFT 計(jì)算采用單指令多數(shù)據(jù)流操作(single instruction multiple data,SIMD)進(jìn)行加速.“申威26010”支持寬度為4 個(gè)double 數(shù)據(jù)的向量運(yùn)算(doublev4),但須解決以下2 個(gè)問題.1)若將同組FFT 數(shù)據(jù)放在一個(gè)向量內(nèi),則不同間距的蝶形會引起數(shù)據(jù)依賴問題(見圖5(a)).2)若分散在不同向量內(nèi),則離散數(shù)據(jù)裝載/卸載向量的效率較低.

    圖5 SIMD FFT 數(shù)據(jù)排列Fig.5 SIMD FFT data arrangement

    當(dāng)前每個(gè)從核LDM 內(nèi)的數(shù)據(jù)排列為8×64 的矩陣,行方向上為從“大矩陣”中讀入的一行64 個(gè)數(shù)據(jù)(見圖3),列方向上是“小矩陣”中一列(行)(見圖4(c)、(d))或“中矩陣”中一行(見圖4(e))的8 個(gè)數(shù)據(jù).采用doublev4 數(shù)組進(jìn)行裝載,每個(gè)doublev4 內(nèi)的4 個(gè)子元素互不相關(guān),不同doublev4內(nèi)相同位置上的子元素來自同一組FFT 數(shù)據(jù),如圖5(b)所示,既消除了向量內(nèi)數(shù)據(jù)依賴,可以一次完成4 組FFT 計(jì)算,又使得數(shù)據(jù)在LDM 內(nèi)的存儲連續(xù)且邊界對齊,向量的裝載和卸載效率最高.這是“列均分-行連續(xù)”策略的第3 個(gè)優(yōu)點(diǎn).

    3.5 旋轉(zhuǎn)因子計(jì)算優(yōu)化

    1)和差化積.所有旋轉(zhuǎn)因子系數(shù)均為2 π/N的nk倍(N為矩陣規(guī)模,n和k為坐標(biāo)).對基本單元cos(2π/N) 和 sin(2π/N) 使用和差化積,用復(fù)數(shù)乘法代替三角函數(shù),大幅減少三角函數(shù)的調(diào)用次數(shù).

    2)數(shù)據(jù)復(fù)用.每個(gè)從核讀入的“大矩陣”多列數(shù)據(jù),實(shí)際上每一列在圖4 所示的“小矩陣”和“中矩陣”中所處的位置都是一樣的,即坐標(biāo)相同,因此只須計(jì)算第1 列旋轉(zhuǎn)因子并復(fù)用.

    3)提前計(jì)算.所有的旋轉(zhuǎn)因子均由矩陣尺寸,即輸入數(shù)據(jù)量決定,可以提前完成計(jì)算.和差化積縮短了計(jì)算時(shí)間,數(shù)據(jù)復(fù)用減少了計(jì)算次數(shù),將旋轉(zhuǎn)因子計(jì)算與第一次DMA 傳輸同步進(jìn)行,不會給存儲空間和計(jì)算時(shí)間帶來額外負(fù)擔(dān).

    此外,所有旋轉(zhuǎn)因子的計(jì)算和相乘采用SIMD操作,可以與FFT 結(jié)合.

    3.6 雙緩沖策略和跨步讀寫

    “申威26010”為異步DMA 傳輸,當(dāng)數(shù)據(jù)需要在主存與局存之間進(jìn)行多次傳輸時(shí),可以采用雙緩沖策略.如圖6 所示,數(shù)字表示循環(huán)輪次,奇數(shù)輪和偶數(shù)輪分別占用2 份不同的輸入/輸出緩沖區(qū).可以看出,除了第1 輪讀入和最后1 輪寫回外,在進(jìn)行中間輪次計(jì)算的同時(shí),可以進(jìn)行下一輪讀入及上一輪寫回,以計(jì)算時(shí)間隱藏通信開銷.

    圖6 雙緩沖機(jī)制Fig.6 Double buffering scheme

    實(shí)際上,DMA 還包括啟動athread_get(讀入)和athread_put(寫回)的函數(shù)調(diào)用開銷.該步驟為串行過程,無法被計(jì)算隱藏,當(dāng)一次完整讀寫需要多次調(diào)用這2 個(gè)函數(shù)時(shí),耗時(shí)不可忽略.從核在每一輪“列均分”中共分到8 行數(shù)據(jù),須調(diào)用get和put 函數(shù)各16 次(實(shí)部和虛部各1 次),因此無法被雙緩沖隱藏的DMA 時(shí)長T=16T1(設(shè)T1為函數(shù)調(diào)用時(shí)間),導(dǎo)致加速提升不到10%.

    此時(shí),每個(gè)從核在主存上的訪問空間呈現(xiàn)等數(shù)據(jù)量(行連續(xù))、等間隔(列均分)的特點(diǎn)(見圖4(a)、(f)).通過配置athread_get(dma_mode mode,void *src,void *dest,int len,void *reply,char mask,int stride,int bsize)的最后2 個(gè)參數(shù)“間距”和“單次傳輸數(shù)據(jù)量”,可以實(shí)現(xiàn)跨步傳輸.跨步讀寫僅須調(diào)用get 和put 各2 次,無法隱藏的調(diào)用時(shí)間2T3<<16T1(設(shè)T3為跨步函數(shù)調(diào)用時(shí)間),達(dá)到了非常明顯的加速效果.

    3.7 FFT 完整流程

    如圖7 所示為“大矩陣”“列FFT”的完整計(jì)算流程,包括各環(huán)節(jié)采用的優(yōu)化方法.“大矩陣”“行FFT”的計(jì)算過程與“列FFT”類似,此處不再贅述.

    4 實(shí)驗(yàn)結(jié)果與分析

    4.1 實(shí)驗(yàn)運(yùn)行環(huán)境

    測試了數(shù)據(jù)量為32 768~4 194 304 共8 組隨機(jī)生成的雙精度浮點(diǎn)復(fù)數(shù).眾核并行程序啟用“申威26010”1 個(gè)核組共64 個(gè)從核,運(yùn)行時(shí)間從athread_spawn 開始至athread_join 結(jié)束,包括傳輸和計(jì)算全過程.對比基準(zhǔn)為單主核上運(yùn)行FFTW 3.3.4庫以最優(yōu)plan 計(jì)算相同輸入的用時(shí),僅統(tǒng)計(jì)fftw_execute 計(jì)算時(shí)間.所有實(shí)驗(yàn)均重復(fù)多次,取穩(wěn)定值求平均作為測試結(jié)果.

    4.2 各優(yōu)化策略的加速效果

    如圖8 所示為采用旋轉(zhuǎn)因子優(yōu)化、SIMD、雙緩沖以及改用跨步傳輸后再結(jié)合雙緩沖等各方案的加速比SP.

    圖8 采用旋轉(zhuǎn)因子優(yōu)化、SIMD、跨步傳輸、雙緩沖方案的加速比Fig.8 Speedup using twiddle factor optimization,SIMD,stride transmission,double-buffering scheme

    4.2.1 計(jì)算環(huán)節(jié) 如表1 所示為優(yōu)化前、后單個(gè)從核內(nèi)旋轉(zhuǎn)因子的計(jì)算量.其中,小點(diǎn)數(shù)FFT 所需的旋轉(zhuǎn)因子數(shù)量分別為4、8、16,可以一次完成計(jì)算,所以忽略不計(jì),只統(tǒng)計(jì)一維轉(zhuǎn)二維方案中“列FFT”轉(zhuǎn)“行FFT”之間所須乘上的旋轉(zhuǎn)因子.3.5 節(jié)優(yōu)化策略的核心思想是以和差化積所需的復(fù)數(shù)乘法和加法(或4 次實(shí)數(shù)乘法和2 次實(shí)數(shù)加法)來代替耗時(shí)較長的三角函數(shù)調(diào)用.以262 144=512×512 為例,優(yōu)化前需要40 960 次三角函數(shù),優(yōu)化后僅為24 次三角函數(shù)加上1 136 次浮點(diǎn)運(yùn)算.且該加速效果隨著計(jì)算規(guī)模的增大而提高.

    表1 旋轉(zhuǎn)因子優(yōu)化前、后的計(jì)算次數(shù)Tab.1 Calculation times of twiddle factor before and after optimization

    實(shí)驗(yàn)結(jié)果表明,若未對旋轉(zhuǎn)因子計(jì)算進(jìn)行優(yōu)化,則多核并行總耗時(shí)比單主核FFTW 長,而通過3.5 節(jié)所述的和差化積、數(shù)據(jù)復(fù)用、提前計(jì)算等優(yōu)化策略,可以達(dá)到15 倍左右的加速比.因此,旋轉(zhuǎn)因子優(yōu)化可以認(rèn)為是計(jì)算環(huán)節(jié)中必須且最主要的加速部分.

    在加入SIMD 向量化運(yùn)算后,可以在旋轉(zhuǎn)因子優(yōu)化的基礎(chǔ)上提升近2 倍的加速效果.SIMD 覆蓋了計(jì)算環(huán)節(jié)的幾乎所有部分,包括FFT 以及旋轉(zhuǎn)因子相乘.若單獨(dú)測量運(yùn)算部分,則可以達(dá)到約3.5 倍的加速,接近4 倍峰值,證明利用3.4 節(jié)的方案,降低了裝載/卸載向量引起的額外開銷.

    4.2.2 通信環(huán)節(jié) 從核間寄存器單點(diǎn)通信的標(biāo)稱延遲為10 拍,但是在應(yīng)用中通常會疊加put/get 指令執(zhí)行開銷、顯式sync 同步開銷、網(wǎng)絡(luò)堵塞延遲、連續(xù)讀寫延遲等,效率明顯降低,需要采用匯編級流水線優(yōu)化進(jìn)行手動提升.在本實(shí)驗(yàn)中,每次寄存器通信共須傳輸512×7/8=448 個(gè)數(shù),數(shù)量固定,因此耗時(shí)基本穩(wěn)定,優(yōu)于采用DMA 傳回主存,且改用DMA 傳輸后會導(dǎo)致計(jì)算時(shí)間無法覆蓋傳輸時(shí)間,使雙緩沖失效.寄存器通信是“小/中矩陣”“列/行”轉(zhuǎn)置的首選方案.

    在“列均分-行連續(xù)”策略中,直接采用雙緩沖,加速比最大提升不到10%.與get 和put 調(diào)用次數(shù)有關(guān),數(shù)據(jù)量越大,調(diào)用次數(shù)越多,雙緩沖效果越差.在改用跨步傳輸再加上雙緩沖后,達(dá)到了非常明顯的加速效果,大數(shù)據(jù)量時(shí)可以再提升1 倍以上,與3.6 節(jié)的傳輸過程分析基本吻合.

    如圖9 所示為不同輸入點(diǎn)數(shù)時(shí)的DMA 平均傳輸帶寬BW及利用率UBW統(tǒng)計(jì).可以看出,“行連續(xù)”策略能夠保證連續(xù)傳輸字節(jié)數(shù)≥256 B,因此可以在大多數(shù)情況下保持對讀寫帶寬的充分利用.當(dāng)僅在最大數(shù)據(jù)量分解方案為2 048 列時(shí),連續(xù)讀寫粒度減小為128 B,導(dǎo)致性能下降.以實(shí)測讀帶寬峰值27.9 GB/s 進(jìn)行折算,帶寬利用率最高可達(dá)89.6%,最低為61.6%,平均為79.8%.

    圖9 DMA 傳輸帶寬及利用率Fig.9 DMA transmission bandwidth and utilization

    如圖10 所示為“主-從核DMA 通信”、“從核間寄存器通信”、“從核FFT 計(jì)算”3 個(gè)環(huán)節(jié)各自在總時(shí)長中的占比TP,左邊為普通傳輸,右邊為跨步讀寫(圖例僅表示各部分功能的相對占比關(guān)系,不表示運(yùn)行時(shí)長的絕對數(shù)值).可以看出,跨步傳輸+雙緩沖策略使得主/從核間DMA 傳輸時(shí)長占比明顯下降,不再是整體性能的瓶頸,各環(huán)節(jié)耗時(shí)更均衡.

    圖10 傳輸和計(jì)算各部分功能的耗時(shí)占比Fig.10 Proportion of time consumed by transmission and calculation

    4.2.3 實(shí)驗(yàn)小結(jié) 表2 給出FFTW 串行程序和最終多核并行方案各自的運(yùn)行拍數(shù)CS、CP及兩者的加速比測試結(jié)果,可以得到以下結(jié)論.

    表2 并行FFT 的加速測試結(jié)果Tab.2 Accelerated test results of parallel FFT

    1)該并行優(yōu)化方案的核心是“列均分-行連續(xù)”策略,優(yōu)點(diǎn)如下.a)列數(shù)據(jù)讀寫連續(xù)非離散,能夠充分利用DMA 帶寬.b)數(shù)據(jù)在從核間的分布能夠直接進(jìn)行后續(xù)FFT.c)數(shù)據(jù)在從核內(nèi)的排列可以實(shí)現(xiàn)高效的SIMD.d)有助于旋轉(zhuǎn)因子的快速運(yùn)算.以上4 點(diǎn)保證了除必需的主存和局存之間的數(shù)據(jù)讀寫以及算法中的矩陣“列/行轉(zhuǎn)置”操作以外,計(jì)算過程中基本沒有額外的數(shù)據(jù)搬移,最大程度上減少了數(shù)據(jù)移動的次數(shù),有效消除了FFT 訪存密集型特點(diǎn)帶來的影響.

    2)“列均分-行連續(xù)”策略的不足,即需要多次調(diào)用讀寫函數(shù)而帶來的開銷,可以采用跨步傳輸+雙緩沖進(jìn)行彌補(bǔ).合理的跨步傳輸能夠有效地減少傳輸次數(shù),從而提高異步傳輸時(shí)間在DMA總耗時(shí)中的占比,再利用雙緩沖加以隱藏,有利于“列均分”策略的實(shí)施.

    3)隨著輸入數(shù)據(jù)量的成倍增長,多核并行總時(shí)長的增加倍數(shù)與計(jì)算數(shù)據(jù)量的增長倍數(shù)基本相當(dāng),DMA 傳輸粒度保持在256 B 及以上.測試結(jié)果顯示,浮點(diǎn)運(yùn)算性能及主、從核間的傳輸帶寬基本可以達(dá)到并維持在峰值.

    4)單主核FFTW 在數(shù)據(jù)量較小時(shí)的運(yùn)算性能較好,在數(shù)據(jù)量大于262 144 之后基本保持成倍增長,應(yīng)該是FFTW 在不同數(shù)據(jù)量下會選擇不同的最優(yōu)算法所致.

    5)本實(shí)驗(yàn)最終的加速比可以達(dá)到平均48x、最高65x 以上的出色效果,尤其是在大點(diǎn)數(shù)情況下,能夠始終保持在50x 以上,平均接近60x.

    6)利用“列均分-行連續(xù)+跨步傳輸”的策略,能夠有效解決主、從核間“列”數(shù)據(jù)的讀寫問題,在矩陣應(yīng)用場景下可以消除顯式轉(zhuǎn)置帶來的影響,起到良好的加速效果.在新一代“申威26010-Pro”處理器架構(gòu)中,LDM 擴(kuò)大至256 kB,單次可傳輸數(shù)據(jù)量增加,更有利于DMA 帶寬的充分利用.從核間的寄存器傳輸改為RMA 通信機(jī)制,性能得到進(jìn)一步的提升.本方法重點(diǎn)關(guān)注處理器架構(gòu)與算法的內(nèi)在適配性,無須對軟件算法框架進(jìn)行大幅調(diào)整,因此可以作為一種通用優(yōu)化策略進(jìn)行推廣使用,為“申威26010”高性能數(shù)學(xué)庫中針對FFT算法的并行優(yōu)化做出一定的貢獻(xiàn).

    5 結(jié)語

    本文介紹了在國產(chǎn)“申威26010”眾核處理器上對大點(diǎn)數(shù)FFT 進(jìn)行并行加速的方案.為了有效地解決二維FFT 對列數(shù)據(jù)的讀寫和計(jì)算問題,消除矩陣轉(zhuǎn)置帶來的影響,特別提出“列均分-行連續(xù)”的讀寫策略,結(jié)合SIMD 向量操作、寄存器通信轉(zhuǎn)置、旋轉(zhuǎn)因子優(yōu)化、雙緩沖+跨步傳輸策略等優(yōu)化方法,實(shí)現(xiàn)了經(jīng)典Cooley-Tukey FFT 算法在“申威26010”上的眾核優(yōu)化.與單主核FFTW 相比,可以達(dá)到平均48x 以上、峰值65x 以上的加速比.

    猜你喜歡
    均分點(diǎn)數(shù)數(shù)據(jù)量
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    柔性喂絲機(jī)均分盤CFD分析和優(yōu)化設(shè)計(jì)
    煙草科技(2020年10期)2020-11-07 10:38:00
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    看不到的總點(diǎn)數(shù)
    面積均分線的推廣
    畫點(diǎn)數(shù)
    破解“心靈感應(yīng)”
    多核并行的大點(diǎn)數(shù)FFT、IFFT設(shè)計(jì)
    亚洲最大成人中文| 五月玫瑰六月丁香| 免费av不卡在线播放| 搞女人的毛片| 亚洲午夜理论影院| 成人欧美大片| 啦啦啦观看免费观看视频高清| 亚洲人成网站在线播| 99久国产av精品| 精品99又大又爽又粗少妇毛片 | 老司机深夜福利视频在线观看| 中文字幕av在线有码专区| 成人欧美大片| 脱女人内裤的视频| 欧美一级a爱片免费观看看| 欧美国产日韩亚洲一区| 亚洲精品乱码久久久v下载方式 | 一区二区三区高清视频在线| 国产亚洲精品久久久久久毛片| 在线天堂最新版资源| 女同久久另类99精品国产91| 欧美精品啪啪一区二区三区| 香蕉久久夜色| 岛国在线观看网站| 国产精品98久久久久久宅男小说| 久久国产精品影院| av天堂中文字幕网| 小说图片视频综合网站| 熟女电影av网| av天堂中文字幕网| 欧美一区二区精品小视频在线| 1000部很黄的大片| 亚洲精品在线观看二区| 亚洲乱码一区二区免费版| 最好的美女福利视频网| 2021天堂中文幕一二区在线观| 午夜福利在线在线| 午夜福利在线在线| 18禁黄网站禁片免费观看直播| 亚洲美女黄片视频| 最好的美女福利视频网| 少妇人妻一区二区三区视频| 无遮挡黄片免费观看| 最好的美女福利视频网| 免费看a级黄色片| 国产av在哪里看| 免费看a级黄色片| 亚洲国产精品999在线| 午夜福利欧美成人| 九九久久精品国产亚洲av麻豆| 热99在线观看视频| 黄色女人牲交| 黄色女人牲交| 亚洲av免费在线观看| 亚洲精品粉嫩美女一区| 少妇的逼好多水| 12—13女人毛片做爰片一| 免费观看精品视频网站| 国产色婷婷99| 国产欧美日韩精品一区二区| 成人欧美大片| 久久久久免费精品人妻一区二区| 成人国产综合亚洲| 久久国产精品影院| 老熟妇仑乱视频hdxx| 搡老岳熟女国产| 婷婷六月久久综合丁香| 在线免费观看的www视频| 久久精品人妻少妇| 三级国产精品欧美在线观看| 12—13女人毛片做爰片一| 国产精品99久久久久久久久| 国产精品电影一区二区三区| 日本撒尿小便嘘嘘汇集6| 亚洲欧美激情综合另类| 国产97色在线日韩免费| 国产单亲对白刺激| 尤物成人国产欧美一区二区三区| 国产精品一区二区免费欧美| 国产探花在线观看一区二区| 免费一级毛片在线播放高清视频| 成人精品一区二区免费| 搡老熟女国产l中国老女人| 白带黄色成豆腐渣| 动漫黄色视频在线观看| 国产爱豆传媒在线观看| 大型黄色视频在线免费观看| 村上凉子中文字幕在线| 在线观看一区二区三区| 黄色女人牲交| 国产高清视频在线观看网站| 19禁男女啪啪无遮挡网站| 久久久久久大精品| 国内毛片毛片毛片毛片毛片| 欧美成人性av电影在线观看| 久久天躁狠狠躁夜夜2o2o| 高清毛片免费观看视频网站| 国产欧美日韩一区二区精品| 国产麻豆成人av免费视频| 欧美3d第一页| 观看免费一级毛片| 国产色婷婷99| 午夜日韩欧美国产| 国产精品一区二区三区四区免费观看 | 99riav亚洲国产免费| 真人一进一出gif抽搐免费| x7x7x7水蜜桃| 内地一区二区视频在线| 一级毛片女人18水好多| 搞女人的毛片| 亚洲精品在线美女| 亚洲美女黄片视频| 97超视频在线观看视频| 少妇裸体淫交视频免费看高清| 老鸭窝网址在线观看| 亚洲人成电影免费在线| 人妻久久中文字幕网| 免费一级毛片在线播放高清视频| 国内精品一区二区在线观看| 成年女人看的毛片在线观看| 女人高潮潮喷娇喘18禁视频| 久久精品国产清高在天天线| 99国产综合亚洲精品| 性色avwww在线观看| 两人在一起打扑克的视频| 国产高清三级在线| 久久精品国产亚洲av涩爱 | 色av中文字幕| 麻豆一二三区av精品| 特级一级黄色大片| 动漫黄色视频在线观看| 美女大奶头视频| 变态另类丝袜制服| 一个人免费在线观看电影| 久久久久九九精品影院| 欧美一级毛片孕妇| 国产成人av激情在线播放| 天天一区二区日本电影三级| 国产一区二区三区视频了| 亚洲国产精品999在线| 国产国拍精品亚洲av在线观看 | 久久草成人影院| 脱女人内裤的视频| 亚洲专区国产一区二区| 男人舔奶头视频| 久久这里只有精品中国| 亚洲av日韩精品久久久久久密| 天天躁日日操中文字幕| aaaaa片日本免费| 午夜久久久久精精品| 国内精品一区二区在线观看| 午夜福利高清视频| 男女做爰动态图高潮gif福利片| 国产精品日韩av在线免费观看| 最近最新免费中文字幕在线| x7x7x7水蜜桃| 成人欧美大片| 国产老妇女一区| 亚洲自拍偷在线| 校园春色视频在线观看| 高潮久久久久久久久久久不卡| 内射极品少妇av片p| 亚洲精品在线美女| 国内揄拍国产精品人妻在线| 听说在线观看完整版免费高清| 真人一进一出gif抽搐免费| 亚洲av不卡在线观看| 中文字幕高清在线视频| 麻豆成人av在线观看| 国产三级在线视频| 亚洲精品国产精品久久久不卡| 久久久久国内视频| 中出人妻视频一区二区| 午夜日韩欧美国产| 色哟哟哟哟哟哟| 他把我摸到了高潮在线观看| 欧美性感艳星| 99riav亚洲国产免费| 狂野欧美激情性xxxx| 国产探花在线观看一区二区| 九九在线视频观看精品| 国产男靠女视频免费网站| 美女高潮喷水抽搐中文字幕| 岛国在线免费视频观看| 日韩有码中文字幕| 精品人妻一区二区三区麻豆 | 日韩欧美国产在线观看| 欧美日韩国产亚洲二区| 1000部很黄的大片| 美女黄网站色视频| 两个人视频免费观看高清| 精品无人区乱码1区二区| 亚洲欧美日韩高清在线视频| 又黄又爽又免费观看的视频| 中文字幕av成人在线电影| 久久中文看片网| 亚洲国产精品成人综合色| 欧美丝袜亚洲另类 | 国产av不卡久久| 久久久久久久精品吃奶| 又爽又黄无遮挡网站| 麻豆一二三区av精品| 欧美区成人在线视频| 3wmmmm亚洲av在线观看| 亚洲狠狠婷婷综合久久图片| 国产真实乱freesex| 精品人妻一区二区三区麻豆 | 欧美一级a爱片免费观看看| 亚洲专区国产一区二区| 亚洲成人中文字幕在线播放| 亚洲狠狠婷婷综合久久图片| 99精品久久久久人妻精品| 免费观看精品视频网站| 亚洲中文字幕日韩| 久久亚洲精品不卡| 亚洲av一区综合| 国产麻豆成人av免费视频| 欧美最黄视频在线播放免费| 亚洲 欧美 日韩 在线 免费| 久久久久久久久大av| 欧美黑人巨大hd| 亚洲av不卡在线观看| 成人国产综合亚洲| 日韩免费av在线播放| 宅男免费午夜| 最后的刺客免费高清国语| 亚洲人成网站在线播| 亚洲国产精品合色在线| 午夜福利18| 黄色视频,在线免费观看| 无人区码免费观看不卡| 啦啦啦韩国在线观看视频| 我的老师免费观看完整版| 国产成年人精品一区二区| 亚洲最大成人手机在线| 精品一区二区三区av网在线观看| 中文亚洲av片在线观看爽| 国产精品久久久人人做人人爽| 欧美一区二区国产精品久久精品| 天堂√8在线中文| avwww免费| 亚洲电影在线观看av| 国产探花极品一区二区| 国产精品一区二区免费欧美| 一级作爱视频免费观看| 91在线精品国自产拍蜜月 | 国产色爽女视频免费观看| www日本在线高清视频| 小说图片视频综合网站| 国产午夜精品久久久久久一区二区三区 | 欧美最新免费一区二区三区 | 国产高潮美女av| 一二三四社区在线视频社区8| 1024手机看黄色片| 国产精品一区二区免费欧美| 久久香蕉精品热| 高清日韩中文字幕在线| 亚洲精华国产精华精| 亚洲国产精品久久男人天堂| 免费看光身美女| 五月伊人婷婷丁香| 狠狠狠狠99中文字幕| www国产在线视频色| 伊人久久精品亚洲午夜| 五月伊人婷婷丁香| 欧美zozozo另类| 亚洲国产中文字幕在线视频| 亚洲av五月六月丁香网| 中文字幕人妻丝袜一区二区| 成年人黄色毛片网站| 久久久久久久亚洲中文字幕 | 日韩欧美 国产精品| 免费高清视频大片| 麻豆国产av国片精品| 可以在线观看毛片的网站| 国内少妇人妻偷人精品xxx网站| 舔av片在线| 最新在线观看一区二区三区| 欧美+日韩+精品| 美女大奶头视频| 99国产精品一区二区蜜桃av| 日韩欧美在线二视频| 精品福利观看| 久久精品国产清高在天天线| 男插女下体视频免费在线播放| 看片在线看免费视频| 午夜福利在线在线| 深爱激情五月婷婷| 免费看日本二区| 久久久久国产精品人妻aⅴ院| 国产主播在线观看一区二区| 日韩欧美精品免费久久 | 夜夜躁狠狠躁天天躁| 亚洲 欧美 日韩 在线 免费| 亚洲熟妇中文字幕五十中出| 欧美日韩福利视频一区二区| 看黄色毛片网站| 国产亚洲精品久久久久久毛片| 欧美+亚洲+日韩+国产| 一区福利在线观看| 九九热线精品视视频播放| 男插女下体视频免费在线播放| 亚洲成a人片在线一区二区| 国产激情欧美一区二区| 久久精品亚洲精品国产色婷小说| 岛国在线观看网站| 久久精品91蜜桃| 99久久九九国产精品国产免费| 一卡2卡三卡四卡精品乱码亚洲| 午夜久久久久精精品| 色综合婷婷激情| 国产精品99久久99久久久不卡| 悠悠久久av| 18禁黄网站禁片免费观看直播| 国产高清视频在线观看网站| 偷拍熟女少妇极品色| 国产成人影院久久av| 97超级碰碰碰精品色视频在线观看| 日本在线视频免费播放| a级一级毛片免费在线观看| 少妇高潮的动态图| 两个人的视频大全免费| 一区福利在线观看| 99riav亚洲国产免费| 一级毛片女人18水好多| 波多野结衣高清无吗| 欧美一区二区亚洲| 日韩欧美在线二视频| 不卡一级毛片| 嫩草影院精品99| 亚洲欧美精品综合久久99| av福利片在线观看| 99在线人妻在线中文字幕| 亚洲成a人片在线一区二区| 欧美最新免费一区二区三区 | 在线观看舔阴道视频| eeuss影院久久| 高清毛片免费观看视频网站| 国产伦精品一区二区三区四那| 国产午夜精品久久久久久一区二区三区 | 老汉色∧v一级毛片| 国产精品自产拍在线观看55亚洲| 91麻豆av在线| 成人特级黄色片久久久久久久| 女生性感内裤真人,穿戴方法视频| 成年免费大片在线观看| 国产黄片美女视频| 国产成年人精品一区二区| 在线免费观看不下载黄p国产 | 精品一区二区三区视频在线 | 天天添夜夜摸| 内地一区二区视频在线| 亚洲精品在线美女| 90打野战视频偷拍视频| 精品日产1卡2卡| 久久国产精品影院| 国产一区二区激情短视频| 少妇的丰满在线观看| 黄色成人免费大全| 亚洲av成人av| 国产日本99.免费观看| 国产乱人伦免费视频| 亚洲精品粉嫩美女一区| 欧美丝袜亚洲另类 | 国产中年淑女户外野战色| 久久久久国产精品人妻aⅴ院| 亚洲18禁久久av| 欧美中文日本在线观看视频| 在线天堂最新版资源| a级毛片a级免费在线| 亚洲av不卡在线观看| 三级国产精品欧美在线观看| 国内毛片毛片毛片毛片毛片| 欧美大码av| 国产精品久久久久久亚洲av鲁大| 日本a在线网址| 亚洲在线自拍视频| 午夜影院日韩av| 高清毛片免费观看视频网站| 午夜日韩欧美国产| 午夜a级毛片| av女优亚洲男人天堂| 成人高潮视频无遮挡免费网站| 国产av不卡久久| 一卡2卡三卡四卡精品乱码亚洲| 老熟妇仑乱视频hdxx| 91久久精品国产一区二区成人 | 丝袜美腿在线中文| 午夜精品一区二区三区免费看| 美女大奶头视频| 欧美日韩一级在线毛片| 白带黄色成豆腐渣| 成人特级av手机在线观看| 尤物成人国产欧美一区二区三区| 国产三级中文精品| 日韩欧美精品免费久久 | 两性午夜刺激爽爽歪歪视频在线观看| 精品国产三级普通话版| 熟女人妻精品中文字幕| 高潮久久久久久久久久久不卡| 在线观看66精品国产| av欧美777| 女人十人毛片免费观看3o分钟| 中出人妻视频一区二区| 天天一区二区日本电影三级| 午夜福利18| 日韩欧美免费精品| 97超级碰碰碰精品色视频在线观看| 99久久99久久久精品蜜桃| 波多野结衣高清无吗| 国产精品自产拍在线观看55亚洲| 免费在线观看亚洲国产| 在线观看舔阴道视频| 午夜免费观看网址| 国产黄色小视频在线观看| 在线观看免费午夜福利视频| 淫妇啪啪啪对白视频| 不卡一级毛片| 免费大片18禁| 最近最新中文字幕大全电影3| 3wmmmm亚洲av在线观看| 国产精品美女特级片免费视频播放器| 国语自产精品视频在线第100页| 成人特级av手机在线观看| 最近最新中文字幕大全电影3| 91av网一区二区| 18禁黄网站禁片午夜丰满| 麻豆成人av在线观看| 欧美成人性av电影在线观看| 在线国产一区二区在线| 日本精品一区二区三区蜜桃| 蜜桃久久精品国产亚洲av| 亚洲精品一区av在线观看| 午夜精品久久久久久毛片777| 免费av不卡在线播放| 日本免费a在线| 日韩欧美在线乱码| АⅤ资源中文在线天堂| 黄色丝袜av网址大全| 久久婷婷人人爽人人干人人爱| 国产精品久久久久久久久免 | 757午夜福利合集在线观看| 丰满乱子伦码专区| 欧美一级a爱片免费观看看| 国产免费av片在线观看野外av| 狂野欧美激情性xxxx| 国产精品久久久久久亚洲av鲁大| 最后的刺客免费高清国语| 757午夜福利合集在线观看| 久久久久久大精品| 精品一区二区三区av网在线观看| 91av网一区二区| 美女高潮的动态| 欧美+亚洲+日韩+国产| 一本一本综合久久| 网址你懂的国产日韩在线| 午夜福利成人在线免费观看| 黄色成人免费大全| 51午夜福利影视在线观看| 级片在线观看| 99国产精品一区二区蜜桃av| 窝窝影院91人妻| 精品国产超薄肉色丝袜足j| 91在线精品国自产拍蜜月 | 一二三四社区在线视频社区8| 高清在线国产一区| 亚洲成人中文字幕在线播放| 午夜激情欧美在线| av在线蜜桃| 天天躁日日操中文字幕| 午夜激情欧美在线| 国产高潮美女av| 毛片女人毛片| 亚洲av二区三区四区| 亚洲av一区综合| 欧美高清成人免费视频www| 99在线人妻在线中文字幕| xxx96com| 国产高清激情床上av| 久久精品国产99精品国产亚洲性色| 日韩人妻高清精品专区| 亚洲av免费高清在线观看| 麻豆成人av在线观看| 丝袜美腿在线中文| 日韩国内少妇激情av| 日韩欧美免费精品| 看黄色毛片网站| 少妇的逼好多水| 久久国产精品人妻蜜桃| 日韩欧美一区二区三区在线观看| 成熟少妇高潮喷水视频| 精品久久久久久,| 亚洲欧美激情综合另类| 免费在线观看影片大全网站| 日本一二三区视频观看| 国产精品亚洲一级av第二区| 亚洲欧美日韩卡通动漫| www日本在线高清视频| 观看美女的网站| 久久精品国产综合久久久| 亚洲内射少妇av| 欧美最黄视频在线播放免费| 欧美黑人欧美精品刺激| 尤物成人国产欧美一区二区三区| 少妇丰满av| 又爽又黄无遮挡网站| 国产三级在线视频| 久久久久性生活片| 国产三级中文精品| 少妇人妻精品综合一区二区 | 国产亚洲精品久久久com| 欧美最新免费一区二区三区 | 99热只有精品国产| av黄色大香蕉| 国产欧美日韩一区二区三| 亚洲精品乱码久久久v下载方式 | 免费看日本二区| eeuss影院久久| 女人被狂操c到高潮| 村上凉子中文字幕在线| 欧美色欧美亚洲另类二区| 久久久久久九九精品二区国产| 好男人在线观看高清免费视频| 国内精品美女久久久久久| 久久久色成人| 两个人的视频大全免费| 日韩亚洲欧美综合| 色哟哟哟哟哟哟| 欧美色视频一区免费| 日韩欧美 国产精品| 国产成人aa在线观看| 国产爱豆传媒在线观看| 国产成人aa在线观看| 老汉色∧v一级毛片| 成年人黄色毛片网站| 午夜福利在线观看免费完整高清在 | 亚洲va日本ⅴa欧美va伊人久久| 欧美性猛交黑人性爽| 成人18禁在线播放| 男女午夜视频在线观看| 少妇人妻精品综合一区二区 | 亚洲国产欧洲综合997久久,| 成熟少妇高潮喷水视频| 伊人久久大香线蕉亚洲五| 亚洲成人久久爱视频| 国产野战对白在线观看| 成人亚洲精品av一区二区| 亚洲美女视频黄频| 中文在线观看免费www的网站| 18禁国产床啪视频网站| 国产色婷婷99| 精品久久久久久久毛片微露脸| 99久久99久久久精品蜜桃| 18禁在线播放成人免费| 最近最新中文字幕大全电影3| 97超视频在线观看视频| 午夜久久久久精精品| 宅男免费午夜| 亚洲av成人精品一区久久| 久久久成人免费电影| 亚洲天堂国产精品一区在线| 欧美黄色片欧美黄色片| 天堂网av新在线| 国产亚洲欧美在线一区二区| 日日夜夜操网爽| 国产一区二区三区在线臀色熟女| 成人永久免费在线观看视频| 欧美性猛交╳xxx乱大交人| 国产熟女xx| 欧美日韩乱码在线| 99久久九九国产精品国产免费| 国产精品久久视频播放| 麻豆成人av在线观看| 男插女下体视频免费在线播放| 精品一区二区三区人妻视频| 精品熟女少妇八av免费久了| 欧美+亚洲+日韩+国产| 首页视频小说图片口味搜索| 亚洲欧美日韩无卡精品| 91麻豆av在线| www.色视频.com| 99热这里只有是精品50| 国产黄a三级三级三级人| 日韩欧美在线乱码| 天美传媒精品一区二区| 激情在线观看视频在线高清| 精品久久久久久久末码| 中文亚洲av片在线观看爽| 别揉我奶头~嗯~啊~动态视频| 国产精品久久久久久亚洲av鲁大| 成人鲁丝片一二三区免费| 欧美av亚洲av综合av国产av| 精品99又大又爽又粗少妇毛片 | 免费在线观看日本一区| 国产亚洲欧美在线一区二区| 亚洲一区二区三区不卡视频| 欧美zozozo另类| 在线观看免费视频日本深夜| 欧美成狂野欧美在线观看| 91久久精品电影网| 久久久久性生活片| 啦啦啦免费观看视频1| svipshipincom国产片| 欧美黄色片欧美黄色片| 国产激情偷乱视频一区二区| 欧美一区二区亚洲| 在线a可以看的网站| 禁无遮挡网站| 亚洲专区中文字幕在线| 丝袜美腿在线中文| 日韩中文字幕欧美一区二区| 99在线视频只有这里精品首页| av中文乱码字幕在线| 欧美另类亚洲清纯唯美| 欧美黑人欧美精品刺激|