戴香玉 馮準(zhǔn)
摘 要 在服務(wù)器虛擬化環(huán)境中,云計(jì)算運(yùn)維工程師比較容易遇到兩虛擬機(jī)不通的問(wèn)題,針對(duì)這種現(xiàn)象的故障可能產(chǎn)生的原因,本文從虛擬機(jī)側(cè)、中間系統(tǒng)側(cè)和物理故障等多個(gè)維度較全面地分析故障產(chǎn)生可能的原因,并提出了故障排查措施。
關(guān)鍵詞 服務(wù)器虛擬化 虛擬機(jī)不通 故障排查
中圖分類號(hào):TP393.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.16400/j.cnki.kjdks.2020.05.017
Abstract In the server virtualization environment, cloud computing operation and maintenance engineers are more likely to encounter the problem that the two virtual machines do not work. In view of the possible causes of the failure of this phenomenon, this paper analyzes the possible causes of the failure from multiple dimensions such as virtual machine side, intermediate system side and physical failure, and proposes troubleshooting measures.
Keywords server virtualization; virtual machine does not work; troubleshooting
基于云計(jì)算的服務(wù)器虛擬化場(chǎng)景被廣泛應(yīng)用,[1-3]在服務(wù)器虛擬化環(huán)境中,虛擬機(jī)一般需要連接上分布式虛擬虛擬機(jī)或者標(biāo)準(zhǔn)虛擬交換機(jī),以實(shí)現(xiàn)虛擬機(jī)之間的通信。虛擬機(jī)可能屬于同一主機(jī)內(nèi),也可能屬于不同的主機(jī)之間。作為云計(jì)算的運(yùn)維人員,比較容易遇到兩虛擬機(jī)不通的現(xiàn)象,本文針對(duì)這種現(xiàn)象詳細(xì)分析了故障產(chǎn)生的可能原因,并提出了故障排除的措施。
1 服務(wù)器虛擬化環(huán)境中虛擬機(jī)的部署方式
基于云計(jì)算的虛擬化環(huán)境的應(yīng)用中,虛擬機(jī)的應(yīng)用是主流應(yīng)用技術(shù)之一。通過(guò)虛擬化的虛擬機(jī)來(lái)部署服務(wù)器,以提高數(shù)據(jù)中心的資源利用率,實(shí)現(xiàn)節(jié)能降耗。服務(wù)器虛擬化的部署一般是在物理服務(wù)器上安裝虛擬化操作操作系統(tǒng),通過(guò)虛擬化技術(shù),將物理資源變成池化的虛擬資源,再利用資源池中的資源來(lái)創(chuàng)建業(yè)務(wù),本文以計(jì)算實(shí)例(即虛擬機(jī))為例。根據(jù)資源池的大小,可以創(chuàng)建多臺(tái)虛擬機(jī),這些虛擬機(jī)可能是歸屬于同一臺(tái)主機(jī)(即物理服務(wù)器),也可能歸屬于不同的主機(jī)。這些虛擬機(jī)連接在相同的分布式虛擬交換機(jī)(DVS,以下都用DVS表示),也可能連接不同的DVS。為方便全面分析所有可能的情況,用圖1來(lái)表示兩虛擬機(jī)的可能部署位置。
2 兩虛擬機(jī)不通的可能原因分析
在服務(wù)器虛擬化環(huán)境中,兩虛擬機(jī)不通的可能原因很多,主要可以從三個(gè)角度來(lái)排查:虛擬機(jī)自身側(cè)、服務(wù)器虛擬化環(huán)境的中間系統(tǒng)側(cè)、物理故障。
2.1虛擬機(jī)側(cè)的可能原因
虛擬機(jī)自身的原因主要有如下4個(gè)方面:(1)虛擬機(jī)沒(méi)有開(kāi)機(jī)或者故障(如windows操作系統(tǒng)的藍(lán)屏或者Linux操作系統(tǒng)的panic故障);(2)虛擬機(jī)的網(wǎng)卡故障或者網(wǎng)卡被禁用;(3)虛擬機(jī)的網(wǎng)絡(luò)配置錯(cuò)誤(如IP地址、子網(wǎng)掩碼,如果是三層通信的話,網(wǎng)關(guān)配置必須正確);(4)虛擬機(jī)的防火墻開(kāi)啟攔截,或者安全軟件等第三方軟件攔截。虛擬機(jī)側(cè)的故障從以上4個(gè)方面排查,可以進(jìn)行解決。
2.2 中間系統(tǒng)側(cè)的可能原因
中間系統(tǒng)是指服務(wù)器虛擬化環(huán)境,包括主機(jī)、分布式虛擬機(jī)交換機(jī)(包含在該虛擬交換機(jī)上配置的端口組和上行鏈路)、物理交換機(jī)(TOR)以及鏈路。通過(guò)圖1的解析,針對(duì)兩虛擬機(jī)不通的可能原因,可以從以下幾個(gè)維度來(lái)分析:主機(jī)系統(tǒng)的安全組設(shè)置;ACL策略應(yīng)用;相應(yīng)的兩臺(tái)虛擬機(jī)是否處于同一二層網(wǎng)絡(luò)、是否歸屬于同一主機(jī)、是否關(guān)聯(lián)了同一臺(tái)DVS、是否配置在同一端口組。以下分別從這幾個(gè)維度分類來(lái)列舉分析:
第一種情況:不通的兩臺(tái)虛擬機(jī)處于同一二層網(wǎng)路、歸屬于同一臺(tái)主機(jī)、關(guān)聯(lián)同一臺(tái)DVS、配置在不同的端口組。
這種情況相當(dāng)于是圖1中是VM1和VM2之間不通。這兩臺(tái)虛擬機(jī)在不同的端口組,要實(shí)現(xiàn)這兩臺(tái)虛擬機(jī)互通,要求它們所接入的端口組配置相同的端口組屬性,比如VLAN ID必須一致。另外,這兩個(gè)端口組的Vlan ID是否設(shè)置為VM1和VM2所屬的同一網(wǎng)段。
第二種情況:不通的虛擬機(jī)歸屬于同一主機(jī)、關(guān)聯(lián)不同的DVS。
這種情況相當(dāng)于圖1中的VM 3和VM4之間不通。這兩臺(tái)主機(jī)由于物理交換機(jī)的隔離,默認(rèn)是不通的。如果要物理交換機(jī)之間的虛擬機(jī)進(jìn)行通信,需要連通兩臺(tái)TOR交換機(jī)。如果兩臺(tái)TOR物理交換機(jī)連接的是不同的局域網(wǎng),還需在TOR三層交換機(jī)上配置對(duì)應(yīng)的網(wǎng)關(guān)、并配置路由(如配置靜態(tài)路由或者RIP、OSPF等動(dòng)態(tài)路由)實(shí)現(xiàn)路由功能。
第三種情況:不通的虛擬機(jī)歸屬于不同主機(jī)、關(guān)聯(lián)同一臺(tái)DVS。
這種情況相當(dāng)于圖1中的VM1(或VM2,以VM1為例)與VM3之間不通??梢愿鶕?jù)數(shù)據(jù)包的路徑來(lái)分析,排查方式按數(shù)據(jù)包的路徑走向:(1)VM1連接到DVS1的端口組,端口組的Vlan屬性設(shè)置是否正確,VLAN必須是VM1 IP地址所規(guī)劃的Vlan ID;(2)DVS1的上行鏈路會(huì)綁定主機(jī)的網(wǎng)口,主機(jī)的網(wǎng)口可能有多個(gè),該網(wǎng)口是否是規(guī)劃的網(wǎng)口、該網(wǎng)口是否正常工作或者該網(wǎng)口是否正確連接到TOR1交換機(jī);(3)主機(jī)網(wǎng)口的鏈路連接到TOR1交換機(jī),該交換機(jī)的網(wǎng)口是否正常工作;TOR1交換機(jī)網(wǎng)口是否允許相應(yīng)的VLAN通過(guò);TOR1交換機(jī)網(wǎng)口的PVID(即缺省Vlan ID)配置是否正確;TOR1到VM3之間是類似的排查過(guò)程。
關(guān)于PVID的配置,需要運(yùn)維人員特別注意:PVID一般建議采用默認(rèn)的Vlan ID,如果修改,可能會(huì)導(dǎo)致由于PVID與Vlan ID相同而脫離數(shù)據(jù)包的Vlan 標(biāo)簽所引起的數(shù)據(jù)包不能正常轉(zhuǎn)發(fā)。
第四種情況:不通的兩臺(tái)虛擬機(jī)歸屬于同一主機(jī)、處于不同的二層局域網(wǎng)。
這種情況相當(dāng)于圖1中VM1經(jīng)過(guò)DVS1和TOR1到達(dá)VM2的場(chǎng)景。由于兩臺(tái)虛擬機(jī)是不同的二層局域網(wǎng),VM1和VM2配置不同的端口組屬性。首先是考慮端口組屬性正確與否,即VM1所連接的端口組的Vlan ID和VM2所連接的端口組的Vlan ID與所規(guī)劃的是否一致,它們應(yīng)該是不通的Vlan;其次經(jīng)過(guò)DVS1的上行鏈路,該上行鏈路綁定的主機(jī)1的網(wǎng)口是否正確,網(wǎng)口是否故障;最后TOR1交換機(jī)的端口是否正常、是否允許相應(yīng)的VLAN通過(guò)、PVID是否會(huì)脫離相應(yīng)的Vlan標(biāo)簽。
第五種情況;主機(jī)安全組設(shè)置和ACL策略應(yīng)用。
服務(wù)器虛擬化環(huán)境中,操作系統(tǒng)會(huì)設(shè)置安全組。默認(rèn)的安全組配置是允許所有流量出去、禁止所有流量進(jìn)入。管理員需要配置安全組的流量規(guī)則,按照規(guī)劃放行虛擬化環(huán)境中的虛擬機(jī)相應(yīng)的Vlan流量,否則兩虛擬機(jī)不通。
ACL,即訪問(wèn)控制列表,是管理員根據(jù)規(guī)劃應(yīng)用策略干預(yù)相應(yīng)的流量。如果ACL策略中攔截了相應(yīng)的數(shù)據(jù)流量,會(huì)導(dǎo)致兩虛擬機(jī)不通。
2.3物理故障
物理故障比較明顯,一般可能會(huì)出現(xiàn)大規(guī)模的故障,管理員可以輕易的排查,一般可能是停電所引起的物理服務(wù)器或者交換機(jī)關(guān)機(jī)、物理交換機(jī)故障、交換機(jī)端口故障、鏈路故障等。這類故障運(yùn)維人員基本上直接直觀判斷,比如交換機(jī)端口的燈沒(méi)亮或者顏色不對(duì)。
3 故障排除方法
理解了故障可能產(chǎn)生的原因,采取合適的措施進(jìn)行排錯(cuò)和處理,是運(yùn)維管理人員日常工作之一。故障排錯(cuò)的方法一般認(rèn)為如下幾種:
第一種:不通的兩臺(tái)虛擬機(jī)工作在同一二層局域網(wǎng)。這種情況可以在虛擬機(jī)的命令提示符界面使用arp –a(地址解析協(xié)議)命令查看arp表項(xiàng)。如果arp表項(xiàng)中有對(duì)端虛擬機(jī)的IP地址,表明arp表項(xiàng)能學(xué)習(xí)到對(duì)端的地址,說(shuō)明兩臺(tái)虛擬機(jī)之間的鏈路沒(méi)有故障,不通的原因一般是對(duì)端虛擬機(jī)防火墻開(kāi)啟了攔截或者安全軟件等第三方攔截。這種情況下可以在對(duì)端虛擬機(jī)上關(guān)閉防火墻或者第三方軟件即可。
第二種:不通的兩臺(tái)虛擬機(jī)工作在不通二層局域網(wǎng)。這種情況需要經(jīng)過(guò)路由,采用tracert(跟蹤路由)命令來(lái)拍錯(cuò)。通過(guò)tracert 命令確定數(shù)據(jù)包在網(wǎng)絡(luò)上具體的停止位置,結(jié)合上面分析的各類可能性,以排查具體的故障。
4 結(jié)束語(yǔ)
綜上所述,服務(wù)器虛擬化環(huán)境中導(dǎo)致兩虛擬機(jī)不通的原因大致可以分為如下幾類:一是虛擬機(jī)本身的原因如關(guān)機(jī)、藍(lán)屏或者網(wǎng)卡配置以及防火墻等攔截;二是服務(wù)器虛擬化環(huán)境的中間系統(tǒng)側(cè)的問(wèn)題,如DVS的端口組、上行鏈路、物理交換的PVID、主機(jī)系統(tǒng)的安全組和ACL策略等;三是物理側(cè)比如停電、交換機(jī)等物理故障。對(duì)于兩虛擬機(jī)不通的故障,可根據(jù)文中所分析的不通的場(chǎng)景進(jìn)行排查和分析,采取相應(yīng)的措施進(jìn)行處理。
參考文獻(xiàn)
[1] 郇林.計(jì)算機(jī)技術(shù)中虛擬化技術(shù)的運(yùn)用探討[J].技術(shù)與市場(chǎng),2018.25(12):132,134.
[2] 閆鴻斌.網(wǎng)絡(luò)虛擬化技術(shù)在云計(jì)算數(shù)據(jù)中心的應(yīng)用[J].電子技術(shù)與軟件工程,2019(14):3-4.
[3] 張?jiān)?云計(jì)算數(shù)據(jù)中心中網(wǎng)絡(luò)虛擬化技術(shù)的運(yùn)用探析[J].信息系統(tǒng)工程,2019(06):101.