【摘要】人員可靠性在系統可靠性計算中占的比重越來越大,人因失誤事件的分析及其管理也成為安全管理的重要組成部分。為更加有效、準確地進行人員可靠性分析和人因失誤事件的管理,提高系統的安全性,建立一個人員可靠性分析及人員可靠性數據管理系統是非常必要的:首先為人員可靠性分析和人因事件管理提供一個有用的計算機輔助工具;再者通過建立具有一定規模的人員可靠性數據庫,以便為今后進一步的研究提供良好的數據支持。筆者簡述了該系統的一些基本原理和實現的主要功能。
【關鍵詞】人員可靠性分析(HRA) 人因 人因失誤 安全 數據庫
Study on the Analysis of Human Reliability and Its Data Management System
Gao Wenyu Zhang Li,Prof.
(Institute of Human Factors,Nanhua University)
Abstract:Human reliability is becoming more and more important in the quantification of the complex system reliability.The analysis and management of human error events have been an important part of the safety management.In order to conduct the human reliability analysis and manage the human error events more effectively and accurately,a human reliability analysis and its data management system were developed.These could provide a computer – aided tool for the analysis and management of human error events,and build its database providing the support for future study.Some basic principle and function of the system are discussed.
Key words:Human reliability analysis Human factor Human error Safety Database
1 引言
在現代社會中,人因失誤在系統安全中的重要性越來越受到重視。由于隨著機械、電子部件可靠性的不斷提高,系統安全越來越取決于人的行為。然而人的可靠性及其研究(人員可靠性分析),一直是世界各國可靠性問題專家攻克的一大難題。在這方面,國際原子能機構(IAEA)和美國核管會(NRC)曾做過大量的工作,包括對人員可靠性分析方法的研究和建立有效的人員可靠性數據庫[1]。傳統方法將機械、電子設備的可靠性分析方法移植到人員可靠性分析中的做法雖有其一定道理和易行性,但至少存在兩方面的問題。
一是機械、電子設備由于長期的積累,已有大量可用的可靠性數據,而有關人的可靠性數據,相對而言要少得多,在實踐中也更難以收集;
二是簡單地將機械、電子設備可靠性研究方法移植到人員可靠性分析中,其合理性仍受到專家、學者的置疑。
計算技術的飛速發展讓人們看到了人員可靠性分析工作的曙光。計算機發明以來,一直試圖模擬人腦的計算、思維方式;而人們進行人員可靠性分析,也是要充分了解人的思維、行為方式,然后對人的行為進行某種程度的預測和評估。因而可以利用計算機領域的專家們多年積累的關于人的智能方面的知識(如人工智能、模擬和仿真等),將其引入到人員可靠性分析領域,在某種條件下,讓計算機來模擬人的行為,從而對人的行為做出更準確的預測。數據庫技術和網絡技術的發展,給人們提供了前所未有的處理大量數據的能力,充分利用收集世界各地的人因數據進行有效的分析,從而更深刻地發現人的思維和行為的規律性。
2 人員可靠性分析的難點
由于人具有生理和心理因素,并且與系統和周圍環境交互性和相關性,導致在某種程度上人的行為不象機械電子設備那樣具有確定性,并難以進行定量化描述。因此,對一個復雜系統中人的可靠性的分析相對于對機械、電子部件的可靠性分析就要難得多。目前,許多行業或企業都建立了人員可靠性數據庫,但由于數據來源的“匱乏”和缺少對數據有效的、規范化的處理及分析,人員可靠性數據庫在人員可靠性分析以及人因工程所起的作用受到很大的限制[2,3]。
人員可靠性分析存在的主要困難可歸納如下:
(1) 缺乏可信的、規范化的大量的數據支持;
(2) 分析方法不足,以往的一些人員可靠性分析方法及其所基于人的認知行為模型,往往不能全面地反映人的行為,因而分析結果難免失之偏頗;
(3) 基于大量現實人因數據或實驗數據的人員可靠性分析,需處理的數據量和考慮的因素太多,靠手工處理不僅繁雜,也不方便;
(4) 分析的結果難得以驗證,分析結果也很難得到有效的再利用或再驗證;
(5) 隨著實時概率安全分析(Living Probabilistic Safety Analysis)在大型工業系統中的應用,作為其中重要的部分,人員可靠性分析也面臨越來越高的要求。而實時人員可靠性分析(Living Human Reliability Analysis)亦會成為現實性的需要;
(6) 人員可靠性分析過多依賴于專家判斷或人員可靠性分析者的個人特性,使得人員可靠性分析標準化程度太差,人員可靠性分析結果的一致性不好,作為一種實用的工程技術來說,就難以接受的。
以上困難,必須在人員可靠性分析理論研究基礎上,結合數據庫技術,人工智能(推理邏輯),及計算機模擬和仿真技術,構造一個基于大量數據的計算機輔助人員可靠性分析及人員可靠性數據管理系統[3~5],上述問題才有可能得以解決。
為此,筆者結合某核電站的實際情況,開發了一套人員可靠性分析及人員可靠性數據管理系統,以期為該核電站的人因事件管理工作及概率安全分析項目(PSA)提供有力的支持和有益的幫助。
3 系統的功能需求
3.1 系統對數據庫的要求
作為人員可靠性分析不可或缺的基礎,迫切需要一個有一定規模的、經長期實踐(實驗)檢驗的可信賴的數據庫的支持。該數據庫應具備以下特點:
(1) 數據庫設計遵循統一的標準,規范性好,數據格式統一,易與國際上和國內已存在的一些類似數據庫系統(如其他的可靠性數據庫)進行數據交換。
(2) 初始建庫時,數據庫應達到一定的規模,這對當前的應用才有一定的價值,因為基于貧乏數據所做的人員可靠性分析是缺乏說服力的。
(3) 由于人因數據的特點,人員可靠性數據庫在使用中應不斷地更新,包括修正以前不夠準確的數據和增添新的內容,最好能夠從某些工業運行系統中實時地采集數據,以保持數據量持續、快速增長,大樣本數據才能較準確地反映事物的規律。
因此,系統應有數據錄入、修改、采集、瀏覽以及數據庫正確性檢驗的功能。
3.2 系統應具有人員可靠性及人因事件定性分析功能
系統應能對已發生的一些人因事件進行分析,從中找出該人因事件發生的根本原因,亦能根據現實情況,預測可能發生的人因事件。在具體實現時參考人員可靠性分析方法CREAM(Cognitive Reliability and Error Analysis Method)[6],并對其進行必要的擴展和改進。
3.3 系統應具有人員可靠性及人因事件定量分析功能
對人因事件計算其發生的概率,以充分滿足LPSA的需要。具體實現時可參考CREAM中的定量分析方法和THERP+HCR(Technique of Human Error Rate Prediction,Human Cognitive Reliability)定量分析方法[2,7~8]。
3.4 系統應具有對外來及現有數據進行維護和再分析的功能。
4 系統涉及的定性、定量分析基本模型和方法
在人員可靠性分析系統中,涉及兩種重要的人員可靠性分析方法,以下對其做一簡要介紹。
4.1 CREAM定量分析法
CREAM是Erik Hollnagel建立起來的人員可靠性分析方法。它有其獨特的認知模型、前因-后果分類方案和分析技術,既可進行回溯性分析,又可進行預測性分析。該法考慮到與概率安全分析(PSA)的結合,提供了一種較好的定量化的方法,可將HRA有機地融入PSA。CREAM的另一個顯著特點是把對人的行為的描述置于一個環境背景中(Context),并在分析的早期階段就考慮環境背景對人的績效的影響。
4.1.1 模型
CREAM的認知模型稱為COCOM模型(Contextual Control Model)。該模型把人的行為按認知功能分為4個基本的類,即觀察(Observation)、解釋(Interpretation)、計劃(Planning)、執行(Execution)。人的行為是在現實的環境背景下,按照一定的預期目的和計劃進行的,但是,人又根據環境背景的反饋信息隨時調整自己的行為,這是一個多次交互的循環過程。在COCOM模型中,環境背景用控制模式(Control model)來描述,可分為4種控制模式,即混亂的(Scrambled)、機會的(Opportunistic)、戰術的(Tactical)、戰略的(Strategic),分別表示不同環境背景下對人的行為影響的程度。
4.1.2 分類方案
分類方案定義了后果和可能前因之前的聯系,形式類似于產生式規則,因而很容易利用計算機方法進行處理。后果和前因之間可相互轉換,如某一后果的一個前因,可能又是另外一個前因造成的后果。
前因又分為一般前因和特殊前因。一般前因指導致某一后果的比較概括的一個前因;而特殊前因則是在各種條件非常確定的情況下,一個非常具體的前因。即一般前因是在許多條件還不確定的情況下,許多同類特殊前因的一個總稱。分類方案是CREAM分析技術實施的基礎。由于分類方案在CREAM方法中的基礎作用,因而其正確性、完備性和有效性是非常重要的,而且其內容針對不同的行業領域也有所區別。在系統實現時,必須根據應用領域的特點,對其進行擴展并進行正確性、完備性和有效性驗證。
4.1.3 分析技術
CREAM的分析技術有兩種,即回溯性分析和預測性分析。前者主要用于事故和事件分析,從事故現象(模式)推導出造成事故的原因;而后者主要用于人員可靠性分析和預測可能發生的人因失誤。
4.2 THERP+HCR定量分析法
THERP+HCR分析技術是綜合THERP和HCR兩種方法的特點而成的方法[2]。THERP模式主要基于人因可靠性事件樹模型,它將人因事件中涉及的人員行為按事件發展過程進行分析,并在事件樹中確定失效途徑后進行定量計算。人因可靠性事件樹描述人員進行操作過程一系列操作事件序列,按時間為序,以兩態分支擴展,其每一次分叉表示該系統處理任務過程的必要操作,有成功和失敗兩種可能途徑。因而某作業過程中的人因可靠性事件樹,便可描述出該作業過程中一切可能出現的人因失誤模式及其后果。對樹的每個分枝賦予其發生的概率,則可最終導出作業成功或失敗的概率[7]。
HCR是用來量化作業班組未能在有限時間內完成動作概率的一種模式[8]。它基于Rasmussen的三級行為模型,將系統中所有人員動作的行為類型,依據其是否為例行工作、規程書情況和培訓程度等情況,分為技能型、規則型和知識型三種。同時它認為每一種行為類型的失誤概率決定于允許操作人員進行響應的時間t 操作人員執行時間T1/2之比,且遵從三參數的威布爾分布:
式中,α、β、γ——與行為類型有關的參數。
對THERP和HCR分析可知,兩種模式各自解決問題的側重點是不同的。前者主要針對與時間無關的序列動作;而后者的著眼點恰在與時間密切相關的認知行為上。然而,在現代復雜人-機系統中,人員的行為是多樣的。例如,在核電站,當一個需要操縱員響應并干予的事故發生后,操縱員首先要依據各種信息,如報警、顯示、記錄等對事故進行診斷,并進入相關事故規程,繼而按規程的要求實施具體的操作干預。一般而論,復雜人-機系統中人的行為均包括感知、診斷和操作3個階段。若只用THERP,則可能使人因事件中事實存在的“診斷步驟”度量太粗糙;若只用HCR,對具體操作,又不如THERP可反映出各類操作的不同失誤特征。因此,較好的方法是THERP與HCR相結合,在診斷階段,用HCR方法對該階段可能的人員響應失效概率進行評價,而對感知階段和操作階段中可能的失誤用THERP方法評價,兩者相互補充,共同構成一個有機整體。
5 系統的總體結構設計
5.1 數據庫結構設計
部分數據表中的字段有中、英文兩種方式,以便在某些時候使用起來會更方便。主要有以下幾大類:
(1) 基本人誤數據表類。來源于以前的研究者在長期的研究和實踐中總結出來的人誤數據,主要包括CREAM方法中提供的數據,以及THERP手冊和HCR手冊中提供的各類人誤數據。以及筆者通過模擬機實驗得出的數據和核電站運行實踐中統計歸納出來的一些典型的人的行為數據。
(2) 各種前因、后果描述表類。來源于CREAM主法中對各種人因事件的前因、后果的描述。
(3) 前因-后果聯系及概率表(知識庫)類。來源于CREAM方法中定義的各種原因-結果聯系,以及筆者根據核電行業特點補充的一些聯系。聯系是多對多的網狀結構。
知識庫分兩類:①后果與一般前因的關系知識庫,②后果與特殊前因的聯系知識庫。
(4) CREAM中的其他表[包含如影響人的行為的一般績效條件(Common Performance Condition,CPC)的定義、描述,認知行為的描述類,認知功能失效的描述類等]。
(5) 核電站特定人因事件的概率類。來源于核電站的PSA(概率安全分析)報告中的人員可靠性分析結果。
(6) 人因事件檔案類。記錄來自核電站在以往運行中發生的人因事件(通過數據采集),并用來保存每次利用本系統所分析的人因事件的結果。
5.2 系統結構設計
系統采用客戶/服務器(C/S)+瀏覽器/服務器(B/S)方式實現。數據全部存放在服務器上。在客戶端,較專業的用戶(如人員可靠性分析或PSA分析者)使用專業的客戶端界面進行人因事件的定性、定量分析及數據庫的維護工作,因為這一部分需要一定的專業背景。而瀏覽器作為另一個數據訪問工具,提供給非專業用戶如管理人員等進行一些人因數據的查詢及簡單的分析工作,如圖1所示。
系統服務器的操作系統平臺為Windows2000 server或Unix,數據管理系統為Oracle,客戶端的操作系統平臺為Windows2000或Windows98。通訊協議采用TCP/IP。系統采用數據庫應用開發工具Powerbuilder7.0 和Web開發工具開發。在系統的程序功能實現上,有如圖2所示結構。
圖1 系統結構圖
圖2 系統功能模塊圖
CREAM分析模塊和THERP+HCR分析模塊以數據庫為基礎完成人員可靠性分析,同時又將分析結果回送數據庫,以便對分析結果再利用。數據維護模塊通過錄入、修改等完成對數據庫的更新,同時又可供瀏覽、查詢數據庫。數據分析模塊則是通過對大量人因事件檔案的深層次的自動分析,以期得出或驗證一些隱藏于這些人因事件背后的規律或人的行為規律。另外,系統通過一些接口程序完成從核電站其它的信息系統中采集有關的人因數據。
系統功能實現的技術路徑如下。
5.2.1 文件模塊
[打印]:將數據庫中所保存的人因事件(分析)檔案轉化為人因事件報告(文本文件)并打印輸出。
5.2.2 數據維護模塊:
[錄入]:根據用戶選擇,啟動相應的數據表的錄入模塊,以便對原有表進行追加、擴充。
[瀏覽、查詢];可分為兩部分,一為查詢人員可靠性分析用到的有關標準數據,以對人員可靠性分析者提供一個輔助的支持;二為根據用戶輸入的條件,如人因事件的名稱、發生日期或人因事件涉及的內容等,在數據庫中模糊查詢相關的人因事件或人誤數據。
[修改]:根據用戶輸入的條件,取出相應表中的相應記錄供用戶審查、修改
[導入]:由外部數據庫或文本文件中成批導入數據(主要用于利用國外數據或非核電行業的人因數據)。
[采集]:從核電站的運行值班日志,運行事件單,異常事件單以及EFS(經驗反饋系統)中動態采集人因事件數據,放入人因事件表中。
[一致性檢驗]:主要用于對規則庫進行檢驗,檢驗規則庫的形式合法性。如某些規則之間是否存在閉合回路,因為這樣在分析時可能會導致死循環。
數據維護模塊主要保證數據庫的不斷更新、增長,在保證數據正確性的同時,持續、快速地擴大數據的擁有量,一則可提高今后分析的可信度,二則為今后更復雜、更高層次的應用做準備。
5.2.3 基于CREAM的分析模塊
CREAM分析模塊可分為3個子模塊:
1) 定性回溯性分析子模塊
回溯性分析的主要目的是根據已發生的人因失誤事件的描述獲得人因失誤的原因。它基于筆者擴展的分類表(即核電行業的人因事件后果-前因規則庫),根據所觀察到的人因失誤事件后果,使用后果-前因分類表中所定義的關系來建立可能存在的后果-前因關系路徑。系統按深度優先次序,自動搜索所有可能存在的路徑,并根據一些限制條件進行取舍。最后將分析過程和結果存入數據中作為人因事件歸檔。其實施步驟為:根據事故現象的描述,確定失誤模式,以此為起點,在分類表所定義的后果-前因聯系表中查找相關的條目,以查得的條目所包含的原因作為結果再到后果-前因聯系表中,查找相關的條目,依次類推,直至所查得的前因都為特殊前因,分析終止,所得的全部特殊前因就是回溯性分析的結果,即引起事故的根本原因。
2) 定性預測性分析子模塊
預測性分析與回溯性分析相反,是從確定的環境背景中去推導出可能的人因事件后果,即最終事故的故障模式。因而分析的終止條件就是遇到一個確定的故障模式。由于在規則庫中,前因-后果的對應關系是多對多的關系,因而在分析過程中,經過多次迭代后,分析路徑會迅速增長,數目甚至達到使分析成為不可能。所以在分析過程中要充分運用CPC等現場情況對分析路徑進行取舍。搜索方法亦采用深度優先搜索。其過程與回溯性分析類似。
3) 基于CREAM的定量預測性分析
定量預測性分析是在定性分析的基礎上進一步計算人因失誤的概率值。
首先根據COCOM模型的原則,通過調查、訪談等對現場工作環境的了解,確定一般績效條件(CPC),并由此得出現場工作環境所處的控制模式,該步驟將影響隨后的每一個步驟。通過工作分析將一個總的工作任務分解成小的子任務(子動作);確定每一個子任務(子動作)所涉及的認知行為;確定每一個子任務(子動作)中最可能發生的認知功能失誤;根據CREAM中提供的基本認識功能失效概率確定每一個子任務(子動作)的認知失效概率CFP(Cognitive Failure Probability);用CPC和控制模式去修正CFP。根據前面所得的控制模式,使用不同的權重去修正每一個子任務(子動作)的CFP。
最后根據工作分析和工作步驟構成的結構(并聯或串聯)計算整體失誤率,以便將結果用于PSA。
5.2.4 THERP+HCR分析模塊
根據前面對THERP+HCR分析方法的描述,基于THERP+HCR方法的定量分析,首先從工作分析入手,將某工作任務分解為小的子任務。然后確定每個子任務是屬于診斷或操作,再分別運用THERP或HCR方法對每一子任務進行分析、計算,最后,累加各子任務的失誤概率而得整體失誤概率。整個分析過程中的有用信息及結果都再將相應的數據表中歸檔保存,以便進一步的應用。
5.2.5 數據分析模塊
主要完成對數據庫大量的數據執行自動的、智能化的分析,該部分將在今后的工作中逐步完善。
5.2.6 幫助模塊
提供一個對該系統的簡要說明和用戶操作指南。
6 結束語
筆者進行的人員可靠性分析及人員可靠性數據管理系統研究,在基本原理、主要功能方面作了較深探討,并提出人員可靠性分析及數據管理系統的構架總思路。
該系統的建立是將計算技術有效地引入人員可靠性分析的一個嘗試,同時通過建立一個初具規模的、規范性的人員可靠性數據庫,對于今后的研究工作是很有幫助的。但對一些數據處理方法及分析模型的進一步求精,還有待于更深入的研究,并應及時地將一些理論研究成果計算機化。
(收稿:2002年4月;作者地址:湖南省衡陽市;南華大學經濟管理學院人因研究所;郵編:421001)
參考文獻
1 International Atomic Energy Agency.Human reliability analysis in probabilistic safety assessment for nuclear power plants.1995.IAEA.Safety series(50):10
2 張力.人因可靠性分析方法.中國安全科學學報,2001,11(3):6~16
3 張力.大亞灣核電站人因數據管理系統結構設計.核動力工程,2000,21(2):167~171
4 Kirwan B.The development of a nuclear chemical plant human reliability management approach:HRMS and JHEDI.Reliability Engineering and System Safety 56(1997):107~133
5 Kirwan B.Human error identification techniques for risk assessment of high risk systems-part 2:towards a framework approach.Applied ergonomics 1998,29(5):299~318
6 Hollnagel Erik.Cognitive reliability and error analysis method.Elsevier Science Ltd,1998
7 Swain A D,Guttmann H E.Handbook of human-reliability analysis with emphasis on nuclear power plant applications,1983,NUREG/CR-1278
8 Hannaman G W.Human cognitive reliability model for PRA analysis,1984,NUS-4531