編者按
根本原因分析(RCA)是尋找人們觀察或經(jīng)歷結(jié)果的根本原因的過程。在故障分析時,常用于尋找經(jīng)常發(fā)生的或重大機(jī)器故障的根本原因。
本文介紹了RCA的含義、起源和應(yīng)用環(huán)境,并介紹了應(yīng)用RCA的具體步驟。原文載于2021年5月的《質(zhì)量文摘》(Quality Digest),作者布萊恩·克里斯蒂安森(Bryan Christiansen)是Limble CMMS公司的創(chuàng)始人和首席執(zhí)行官。
根本原因分析(RCA)是一種調(diào)查工具,是一個跟蹤可觀察到的故障的原因并確定導(dǎo)致故障發(fā)生的根本問題的過程。修復(fù)被辨識出的根本問題,應(yīng)該能防止由它引發(fā)的故障再次發(fā)生。
如果所修復(fù)的問題不是根本問題,則無法保證相同的故障不會再次發(fā)生。RCA試圖通過跟蹤因果鏈來查明是不是根本問題,以精確定位能使所有失效不復(fù)存在的原因。
RCA不是一個保證結(jié)果的過程。實施RCA可能很復(fù)雜,通常涉及大量的數(shù)據(jù)收集和審查。RCA的結(jié)果也不總是黑白分明的,它并不是一種能夠最終表明我們所辨識的原因是否為根本問題的試金石測試。通常情況下,我們得到的只是因果之間的強(qiáng)相關(guān)性,而不是因果關(guān)系。得到結(jié)果后,有經(jīng)驗的專業(yè)人士必須判斷是否需要進(jìn)一步調(diào)查。
RCA是一門需要領(lǐng)域知識和經(jīng)驗的技藝。否則,對故障的任何修復(fù)都可能只是表面解決方案。在最壞的情況下,我們所做的改變還可能導(dǎo)致故障惡化。
盡管存在這些不確定性,RCA仍然是理解和改進(jìn)系統(tǒng)和程序基本性質(zhì)的有力工具。
RCA作為一種調(diào)查工具已經(jīng)存在了幾個世紀(jì)。被尊稱為“日本工業(yè)化之父”的豐田工業(yè)公司創(chuàng)始人豐田章男,將它正式引入了工程技術(shù)領(lǐng)域。
有人可能爭辯說,日本制造業(yè)的創(chuàng)新(如改善和其他精益制造過程),可以歸因于尋找問題的根源并解決問題的實踐,而不是滿足于表面上的解決方案。所有這些工藝改進(jìn)技術(shù)都有助于提高世界各地制造工藝的水平和效率。
RCA有兩種廣泛的使用方式。
1.用于尋找、確定問題的根本原因,這是最為常見的使用方式。
2.用于認(rèn)識發(fā)生積極變化的根本原因。有時,我們實施的程序會帶來比預(yù)期更好的結(jié)果,當(dāng)良好結(jié)果的原因無法被輕易解釋時,也可以用RCA來識別。
實施RCA需要投入大量的時間、人力和金錢,會導(dǎo)致進(jìn)行RCA的生產(chǎn)線或系統(tǒng)進(jìn)一步中斷。因此,不應(yīng)該對每個故障都執(zhí)行RCA。另外,何時進(jìn)行RCA并沒有固定的規(guī)則。
以下是一些經(jīng)驗豐富的專業(yè)人士決定是否進(jìn)行RCA的實例。
·持續(xù)的故障。如果相同的故障重復(fù)發(fā)生,就值得調(diào)查。由于相同的故障重復(fù)出現(xiàn),我們可以得出結(jié)論:故障不會通過修復(fù)可見問題來清除。反復(fù)出現(xiàn)故障有一些根本原因,應(yīng)該通過RCA進(jìn)行調(diào)查。
·關(guān)鍵故障。一個故障的嚴(yán)重程度可以通過工廠的成本或特定故障造成的總停機(jī)時間來衡量。當(dāng)發(fā)生此類故障時,必須進(jìn)行調(diào)查,以確定故障的根本原因。這將有助于避免今后再發(fā)生此類事件。石油鉆井平臺爆炸或飛機(jī)墜毀等,當(dāng)然就屬于需要調(diào)查的重大故障。
·失敗的影響。任何系統(tǒng)都有關(guān)鍵機(jī)器和關(guān)鍵子流程。這些故障將使整個操作中止,因為該特定機(jī)器或過程可能沒有備份或規(guī)避計劃。本質(zhì)上,機(jī)器或過程的臨界性決定了是否對故障進(jìn)行RCA。
識別(Recognize):我們要觀察的某些故障的真正原因并不總是顯而易見的。裝飾性、表相式的修復(fù)對糾正潛在的故障沒有太大作用。RCA是為了查明真正的原因,以便采取糾正措施,消除未來的問題。如前所述,RCA也可以用來確定意外積極結(jié)果的原因。
糾正(Rectify):一旦確認(rèn)了根本原因,就必須采取糾正措施。如果根本原因得到解決,同樣的故障將不會再次出現(xiàn)。如果故障再次出現(xiàn),說明所確定的原因很可能不是根本原因。這說明以前的RCA進(jìn)行得并不全面徹底,需要做更多的調(diào)查。
復(fù)制(Replicate):一旦發(fā)現(xiàn)并解決了故障的根本原因,必須確保相同的故障不會在同一系統(tǒng)中再次發(fā)生。如果進(jìn)行RCA是為了確定意外良好結(jié)果背后的原因,那么必須測試是否可以在其他場景和環(huán)境中復(fù)制相同的因素。
從本質(zhì)上講,根本原因分析是針對任何發(fā)生的事件,精確地找出發(fā)生了什么、它是如何發(fā)生的,以及它為什么發(fā)生。
RCA本質(zhì)上是一種知識工具,用于識別任何事件或故障的根本原因。幾乎每個行業(yè)都會出現(xiàn)故障和問題,使用RCA技術(shù)可以調(diào)查它們的根本原因和影響因素。
RCA最明顯和最普遍的用途在醫(yī)療診斷領(lǐng)域。同樣的癥狀可以由一系列疾病引起,在患者得到有效治療之前,醫(yī)生有責(zé)任查明潛在的病因。電視劇《豪斯醫(yī)生》幾乎所有劇集都有根本原因分析的練習(xí),盡管練習(xí)的方式是非傳統(tǒng)的。
許多其他垂直行業(yè)也經(jīng)常使用根本原因分析,比如:
·制造(機(jī)器故障分析);
·工業(yè)工程和機(jī)器人;
·工業(yè)過程控制和質(zhì)量控制;
·信息技術(shù)(軟件測試、事件管理、網(wǎng)絡(luò)安全分析);
·復(fù)雜的事件處理;
·災(zāi)害管理和事故分析;
·醫(yī)藥研究;
·變革管理;
·風(fēng)險和安全管理。
RCA是一種結(jié)構(gòu)化的思維方式,可以調(diào)查任何類型的事件。因此,RCA并不僅僅局限于上述領(lǐng)域,它可以在任何需要確定問題根源的部門或行業(yè)中實施。
RCA可以通過使用許多不同的工具和技術(shù)來完成,即利用不同的概念模型從根源上識別問題。盡管所有的工具在形式上有所不同,但每一種技術(shù)都必須經(jīng)過概念性的步驟來完成分析。
步驟1:問題陳述
問題陳述和定義對于任何形式的分析都必不可少,而不僅僅是RCA。它是對遇到的問題和癥狀的清晰描述,可以提供分析的范圍。
如果沒有精確的問題陳述,RCA就像一艘沒有舵的船,沒有前進(jìn)的方向,也無法改變方向。明確定義的問題陳述還有助于確定要實現(xiàn)的潛在解決方案的規(guī)模和范圍。
步驟2:數(shù)據(jù)收集
應(yīng)收集與該事件有關(guān)的所有可用數(shù)據(jù)。以制造工廠的機(jī)器故障為例,以下是需要收集的一些相關(guān)信息:
·機(jī)器的年代;
·連續(xù)運行時間;
·操作模式;
·維修計劃;
·操作人員操作機(jī)器的方式;
·機(jī)器規(guī)格;
·工廠基礎(chǔ)設(shè)施示意圖;
·機(jī)器的運行特性;
·運行環(huán)境的特點。
親自檢查機(jī)器還可以提供對RCA有益的信息。對于收集預(yù)測分析數(shù)據(jù)(換句話說,運行預(yù)測維護(hù))的設(shè)備,快速整理數(shù)據(jù)是容易做到的。
步驟3:時間表、差異化和映射
必須建立事件的時間表,這將有助于確定收集的數(shù)據(jù)中哪些因素值得調(diào)查。RCA需要可能指向根本原因的數(shù)據(jù)點集。按時間順序排列事件和數(shù)據(jù),將有助于從非因果事件中解讀因果事件。
從收集到的數(shù)據(jù)中,可以發(fā)現(xiàn)各類事件、發(fā)生的時間以及其他收集到的數(shù)據(jù)之間的相關(guān)性。這可以作為區(qū)分因果事件和非因果事件的初始步驟。需要記住的重要一點是:相關(guān)性并不意味著因果關(guān)系。
當(dāng)相關(guān)性被確定后,尚不能得出任何分析結(jié)論,則需要進(jìn)一步調(diào)查因果關(guān)系。
根據(jù)收集到的數(shù)據(jù),按時間順序排序和集群,我們應(yīng)該能夠創(chuàng)建一個因果圖(如圖1)。這種圖可以用來表示發(fā)生的各種事件和收集的數(shù)據(jù)之間的關(guān)系。不同的路徑被賦予不同的概率權(quán)重,可以作為追蹤根本原因的可視化工具。
圖1 因果圖示例
步驟4:根本原因解決
一旦確定了根本原因,就可以很容易地確定修復(fù)它的解決方案。它可以根據(jù)問題陳述中定義的范圍進(jìn)行映射。如果解決方案在范圍之內(nèi),則實施該解決方案。
解決根本原因應(yīng)能消除故障的復(fù)發(fā)。如果故障再次出現(xiàn),我們將需要從頭開始,再次進(jìn)行RCA。
故障解決后,必須采取措施避免再次發(fā)生??梢詰?yīng)用多種解決方案來解決單個故障。例如,根本原因可能是軸承的磨損,其發(fā)生比預(yù)期的時間要早得多。在這種情況下,必須調(diào)整程序以盡早更換軸承。為避免故障再次發(fā)生而采取的類似措施還包括更改維護(hù)計劃、維護(hù)模式和更改設(shè)計等。
已實施的解決方案必須與可用的資源保持一致。因此,如果根本原因是機(jī)器持續(xù)運行時間太長,明顯的解決方案是縮短機(jī)器運行時間。然而,當(dāng)生產(chǎn)計劃不允許時,另一種解決方案可能是更頻繁地安排預(yù)防性維護(hù)。