目录
一、金融机构制定业务连续性计划的必要性
- 金融机构业务连续的意义
- 金融机构业务连续的目标
二、金融机构应该如何制定业务连续性计划
- 业务连续性管理框架
- 董事会、管理层责任以及审计要求
- 业务冲击分析和风险评估
- 确定业务连续性策略
- 建立业务连续性计划
- 培训、演练与测试
三、业务连续性计划具体运用案例
-
2003年美国加拿大金融机构应对大停电事故
-
2003年SARS疫情对中国香港证券市场的影响
作者:陈昊, 鲁政委(鲁政委为中国首席经济学家论坛理事,兴业银行首席经济学家)
2020年1月底以来,新型冠状病毒肺炎疫情对我国的日常生产生活造成了较大影响。不仅全国春节假期统一延长,部分地区还进一步延长了不得复工的日期。然而,正所谓“经济是肌体,金融是血脉”[1],“肌体”或许可以短暂休息、暂停运动,“血脉”的流动和运转却一刻也不能中断。因此,金融机构和金融基础设施自2月3日以后便开始恢复运转。本次疫情,不仅对正常的经济生活进行了冲击,各类企业也开始思考针对重大自然灾害、疫情等突发事件的应对预案。作为经济的“血脉”,金融体系面对各类突发事件不能终止关键金融服务,因而提前制定业务连续性计划,确保各类情况下金融机构业务能够连续进行成为了金融机构的“必修课”。本文将以美国监管机构对金融机构业务连续性管理要求为基础,解构金融机构业务连续性管理的具体内容、必要性和运用案例。
一、金融机构制定业务连续性计划的必要性
(一)金融机构业务连续的意义
根据国际清算银行(BIS)等监管组织的定义,对于金融机构而言,业务连续性(Business Continuity)指的是业务连续的、不中断的持续运营状态。按照美国联邦金融机构检查委员会(FFIEC)的定义,业务连续性管理(Business Continuity Management)指的是金融机构为保护员工、客户的利益以及产品服务不会中断而进行韧性、连续性、危机响应等相关举措的管理流程。2006年8月,巴塞尔银行监管委员会(Basel Committee on Banking Supervision)及国际证监会组织(IOSCO)等国际监管组织组成的联合论坛(Joint Forum)发表了《业务连续性的高级别原则》(High-Level Principles for Business Continuity,以下简称“《原则》”),首次在国际层面统一对金融机构业务连续性提出了要求。《原则》详细解释了金融机构和金融体系确保业务连续性的重要意义,指出业务连续性是金融行业参与者和金融监管机构一直以来的最高任务(Ongoing Priority)。《原则》认为,确保金融体系在重大突发事件之下仍能保持韧性是金融机构和金融监管机构共同的利益所在,这主要是有以下几个因素所导致的:一是金融体系对经济活动的重要支撑作用。在当前的全球经济模式下,金融中介所提供的服务对于便利和促进经济稳定运行起到了重要的作用,包括支付结算服务、存贷款服务、有效的转账服务和募集资金等投融资服务。二是绝大多数金融体系里清算和结算服务的集中性。如若在突发事件中金融体系的清算和结算服务发生了中断,将可能导致金融体系的重要参与者无法完成资金转移、难以偿付其应偿资金,从而对金融体系产生重大的负面影响。三是境内外金融机构的关联性日益紧密。随着资金和证券交易速度的加快,金融机构之间的相互关联性(Interdependencies)也进一步增强。关联性的增强,使得结算风险、信用风险、流动性风险在金融体系之中扩散的风险加大。因此,即使是单一金融机构业务中断,也有可能导致其他金融机构产生相应风险。更为严重的是,随着金融市场的全球化,单一司法辖区(Jurisdiction)的业务中断可能会导致全球金融市场的传染性影响。四是各类非传统安全风险和突发事件的概率有所提升。随着恐怖袭击等非传统安全因素风险的上升,金融体系基础设施被作为袭击目标的可能性也在上升。与此同时,随着气候变化等因素的影响,各类突发事件频率的提升对于金融体系保持业务连续性也提出了挑战。五是金融体系稳定运转对保持公众信心的作用。如果金融体系经常发生故障或时间的中断,那么金融消费者对于金融体系乃至更广泛体系的信心也会下降。这将有可能会导致境内外的金融市场参与者从该金融体系中撤出投资的资金。
值得注意的是,随着金融体系的复杂性进一步上升,相应的操作风险也有所提升,因此保证金融体系具有一定热韧性以确保业务连续性难度也进一步增大。例如,随着科技的发展,金融体系对于电脑、自动化、信息系统的依赖程度越来越高,进而对于这些信息系统的第三方提供者物理基础设施(如电力、电信网络)的依赖也愈发严重。与此同时,随着普惠金融惠及面的进一步拓展相比于以往,金融体系关键金融服务业务连续性也面临着比以往更为严重的挑战。
(二)金融机构业务连续的目标
随着时代的变迁,金融机构所要应对的可能造成业务中断的风险因素时刻在发生着变化。例如,恐怖袭击等非传统安全风险,使得此前单纯应对自然灾害等突发事件的业务连续性计划无法充分应对。由此,金融机构业务连续性的目标也发生了相应的变化。2001年911事件发生之后,美国金融监管机构与金融机构就金融机构业务连续性的管理进行了讨论,形成了《加强美国金融体系韧性的有效实践》(Interagency Paper on Sound Practices to Strengthen the Resilience of the U.S. Financial System,以下简称“《有效实践》”)。《有效实践》指出,根据911事件后金融市场参与者与金融监管机构的讨论,共同认为金融市场业务连续性有三个最为重要的目标:一是当面对大范围业务中断(Wide Scale Disruption)时,关键业务职能(Critical Operations)能够快速恢复并及时重新开始。二是当面对一个或更多重要运营地点无法进入或损失该运营地点的职员后,关键业务职能(Critical Operations)能够快速恢复并及时重新开始。三是通过持续和有效的测试,来确保金融机构内外部业务连续性安排是高置信度有效和合适的。
联合论坛(2006)认为,关键业务职能或服务(Critical Operation or Services)指的是:如若某职能或服务的中断,会对其他金融行业参与者、金融监管机构或金融体系相关方业务持续运作(continued operation)产生实质性(material)影响,那么该职能或服务则应被认定为关键业务职能或服务。在不同机构和金融市场环境之下,关键业务职能或服务的范畴也可能有所差异。一般而言,数据中心(Data Center)是绝大多数金融机构中的关键业务职能。除此之外,关键服务往往还包括了大额支付、交易清算和结算以及交易对账等服务。
二、金融机构应该如何制定业务连续性计划
为了更好地了解发达国家监管机构是如何要求金融机构制定业务连续性计划,我们考察了美国联邦金融机构检查委员会(Federal Financial Institutions Examination Council,FFIEC)[2]最新发布的《业务连续性管理手册》(Business Continuity Management,以下简称“《手册》”)[3]。虽然,FFIEC发布《手册》的主要目的只是为金融监管部门检查各机构业务连续性管理时的重点进行指导,但是通过《手册》的检查重点,可以从侧面了解监管部门对金融机构业务连续性管理的关注点和期望所在。
(一)业务连续性管理框架
《手册》指出,金融机构的业务连续性管理流程应形成从设定目标、风险分析、构建业务连续性计划、培训与测试直至检测与更新的有机闭环。《手册》将业务连续性的管理分为了10个步骤,具体为:一是管理层对于金融机构整体业务韧性、业务连续性和应急响应能力的监督和执行。二是将业务连续性管理的各个要素与机构战略目标等进行有机结合,使得业务连续性管理的目标、措施符合金融机构的特性和目标。三是通过业务影响分析(Business Impact Analysis)来确定关键业务职能(Critical Functions),分析与其他机构和企业的关联性,并评估影响。四是通过风险评估来识别确定风险、评估不同风险造成的业务中断的可能性和潜在影响。五是构建有效的业务连续性策略(Business Continuity Strategy)来确保业务韧性和恢复目标的实现。六是在前期分析和研判的基础上,基于业务连续性策略形成完备的业务连续性计划(Business Continuity Plan),其中包括事件响应(Incident Response)、灾害恢复(Disaster Recovery)以及危机管理(Crisis/Emergency Management)等组成部分。七是针对员工和其他利益相关方进行业务连续性的培训。八是通过演练和测试确保业务连续性相关流程能够有效支持此前建立的目标。九是对业务连续性策略、计划等进行整体的审查和更新,以此来反映最新的业务和市场情况。十是监测并同时向管理层汇报业务连续性管理的整体情况。
通过上述的闭环动态过程,金融机构才能保证能持续确保其业务连续性管理有效且符合机构和金融市场的最新特征。根据金融机构的复杂程度和整体的规模,金融机构可以针对可能产生业务中断的不同风险制定单一或多项的具体业务连续性计划方案。
(二)董事会、管理层责任以及审计要求
在业务连续性管理框架中,董事会、管理层对其具有管理职责,内部或外部的审计组织也应该充分对业务连续性管理的有效性进行审核。
董事会和管理层对于机构整体对业务连续性管理具有监督和审查等职责,其重视程度和应对策略判断会对机构业务连续性管理的执行起到决定性作用。《手册》指出,管理层需要从宏观角度评估业务连续性的潜在风险,并设定长期和短期的连续性目标,采取相关策略和计划来实现相应的业务连续性目标、增强业务的韧性,最后按照培训、测试和监测的反馈来更新业务连续性目标、计划等一系列内容。除此之外,管理层需要在设计批准新产品、新服务时充分考虑运营是否能保证相关业务连续性。
根据《手册》要求:董事会(Board)的监督职责包括:一是布置业务连续性管理的总体责任和义务;二是针对业务连续性管理分配资源;三是将业务连续性管理总体要求与机构的业务策略和风险偏好结合统一;四是了解业务连续性潜在风险、可能采取的应对措施和政策;五是通过管理层的汇报、日常测试结果和审计结果来审查业务连续性管理执行情况;六是有效的对管理层的业务连续性管理进行质询等独立监督判断。
管理层(Management)的监督管理职责包括:一是确定业务连续性管理各部门的角色、职责,以及相关方案;二是配置针对业务连续性管理的专职或兼职专业人员,并给予其充分的财务资源;三是确保相关人员了解其在业务连续性管理中的角色和责任;四是针对业务连续性的表现设立可以测度的目标,例如准备完成度、韧性目标等;五是设计和执行业务连续性执行战略;六是确保业务连续性管理中的演练、测试、培训等缓解足够全面,并与业务连续性管理策略相一致;七是解决在演练、测试、培训过程中暴露出来的超过公司风险承受能力的缺陷;八是设置业务连续性委员会(或协调人),并定期与其进行会议,讨论业务连续性管理相关策略、计划、演练、测试、培训等环节的修改;九是持续评估和更新业务连续性策略和计划,以期与公司最新的业务发展和市场环境相结合;十是与业务连续性管理的外部相关方(例如监管机构、第三方服务提供商等)定期进行协调。
《手册》要求,金融机构的董事会和管理层需要要求内部审计人员或聘请外部审计对业务连续性计划设计和执行的有效性进行审查。相关审计人员或单位应独立于此前的业务连续性管理框架。审计的频率和范围取决于机构的复杂程度、风险偏好和业务经营变化情况,比如大型、复杂的金融机构需要对于不同部门的业务连续性管理进行多个审计。
《手册》指出,审计人员应在审计业务连续性管理时做好以下几方面内容:一是评估业务冲击分析(Business Impact Analysis)和风险评估(Risk Assessment)的合理性、关键业务功能识别的准确性、不同事件的可能性以及对业务潜在冲击的严重程度;二是评估机构是否具有可靠、充足和有效率的管控来保证业务连续且具有韧性;三是将机构实际具有的风险水平和风险缓释措施与机构设定的风险偏好进行对比;四是检查测试计划是否取得了所希望的目标;五是监测业务连续性管理的测试,确保相关目标已经得到实现;六是评估业务连续性计划执行的有效性。
(三)业务冲击分析和风险评估
金融机构业务连续性管理的实际执行中,业务冲击分析(Business Impact Analysis)和风险评估(Risk Assessment)是业务连续性管理的基石。业务冲击分析(Business Impact Analysis)指的是对可能造成业务中断事件的识别,并对其潜在冲击的强度进行分析,包括关键业务职能的识别(Identification of Critical Business Functions)、相互依赖性分析(Interdependency Analysis)和中断的影响(Impact of Disruption)。风险评估(Risk Assessment)指的是识别金融机构业务操作、机构资产、员工和其他组织风险的过程,包括了风险的识别(Risk Identification)、可能性和影响分析(Likelihood and Impact)。
《手册》指出,管理层应当运用业务冲击分析和风险评估来有效识别和监测金融机构业务连续性的潜在风险。一旦管理层确认某个因素成为金融机构业务连续性的潜在风险,其可以选择四种应对方式:接受风险(Risk Acceptance)、风险缓释(Risk Mitigation)、风险转移(Risk Transference)或预防风险(Risk Avoidance)。在这其中,管理层的业务连续性管理应主要针对拟采取风险缓释和预防风险进行应对的领域。除此之外,风险转移的措施包括购买保险等,但是这并不意味着金融机构应该放松相关方面的风险管控。
业务冲击分析(Business Impact Analysis)可以大体分为三大部分:首先是关键业务职能(Critical Business Functions)的识别。关键业务职能可以通过多种方式来进行识别,包括业务流程(Work Flow)、访谈(Interview)、组织结构图(Organizational Charts)、网络拓扑(Network Topologies)、数据流程图(Data Flow Diagram)、后继计划(Succession Plan)等。关键业务职能不仅包括金融机构本身前中台业务,也包括了其支持活动(Support Activities)、信息系统和外部第三方的交互关系等。管理层应对金融机构的关键财产(Critical Asset,包括人员、硬件、软件、数据、信息、现金等)和基础设施(Infrastructure,包括网络连接、沟通渠道、设备、设施等)准备好库存备份。其次是相互依赖性分析(Interdependency Analysis)。通过业务冲击分析,管理层可以了解金融机构内业务职能、系统和共享资源之间的相互依赖性,由于不同个体、组织或流程之间的相互依赖性和关联性,单一的故障可能会产生潜在的“多米诺效应”风险。在分析的过程中,管理层应识别可能出现的单点故障(Single Point Failure),例如电信线路、网点之间的网络连接、备用设施的损坏、过于依靠单一电力来源或在地理位置上过于靠近的数据中心,如果没有提前培训好作为相应岗位的B角,人员安排也可能成为单点故障的来源。管理层特别需要注意的相互依赖性风险包括内部系统及业务职能(例如客户服务、生产过程、硬件、软件、应用程序界面、数据、出于合规或其他需求对于关键记录的保存)、第三方服务提供方(例如关键流程服务提供商、网上和移动银行服务提供商、结算服务提供商、灾害恢复业务提供商)、关键供应商(例如硬件、软件和设备提供方)、业务伙伴等。最后是中断的影响(Impact of Disruption)。在业务冲击分析的过程中,管理层应该评估潜在风险事件可能产生的影响,这些影响包括操作方面、财务方面以及声誉方面等。充分分析中断的影响之后,管理层应设置明确的恢复目标(Recovery Objectives)。一般用来测度恢复目标的有三个指标:恢复点目标(Recovery Point Objective,RPO),即为灾难发生时可容忍的最大数据丢失,当超过最大可容忍的数据丢失时长后,则可将该故障称为突发事件(Event)。恢复时间目标(Recovery Time Objective,RTO),即为预先设置的事件发生后,必须恢复数据的时长要求。对于恢复时间目标的设置将会影响到具体的技术和策略选择。当RTO的设置无法或难以实现时,管理层需要确认此前的RTO目标是否现实。最大可容忍业务中断时间(Maximum Tolerable Downtime,MTD)指的是系统管理者或相关负责人可以接受的业务流程中断时长,这段时间为RTO和为可能继续中断运营设置的冗余恢复时间之和。MTD对于应急管理方案制定者选择合适的恢复方式至关重要。若金融机构在实际运作中无法达到RPO、RTO、MTO目标,则将有可能造成操作冲击(如业务中断、证券违约、业务上线延迟等)和财务冲击(如营收损失、费用增加、监管罚款等)。
风险评估(Risk Assessment)可以大体分为两大部分:
首先是风险的识别(Risk Identification)。《手册》指出,管理层在进行风险评估时,应该关注机构整体的韧性情况。具体的风险种类可以被分类为多种,FFIEC指出,在进行监管检查时,检查者应应特别注意金融机构是否已经将下列事件包括在了风险评估之中:一是自然灾害,例如火灾、洪水、极端天气、空气污染和危险物质泄露。二是技术事件,例如通讯渠道中断、电力中断、设备和软件故障、交通网络中断、供水系统中断等。三是犯罪事件,例如欺诈、盗窃、敲诈、蓄意破坏、网络攻击和恐怖事件。四是国际事件,例如政治不稳定或经济意外事件。五是低概率但潜在影响巨大的事件,例如恐怖袭击和流行性疾病。不过管理层可以针对不同风险的同类影响制定单一的业务连续性计划,而不用针对每种特定风险都制定一个特别的计划。此外,在风险评估中,FFIEC指出公司管理层有几个特别需要注意的方面:一是管理层应评估公司所在地地理位置的潜在风险。例如若公司的位置位于洪水多发区、地震带、飓风或龙卷风多发地带、容易成为恐怖袭击目标等。除了纯地理的因素,管理层也应该注意潜在的地缘政治风险,例如在容易受美国制裁的国家展业可能造成附加的合规风险。二是管理层应统筹协调公司整体的风险评估。金融机构内单一业务部门或条线应与其他部门进行充分协调来更准确的判断对金融机构整体的潜在系统性风险。三是管理层应识别和评估网络安全风险。网络安全风险可能会对客户信息的安全性产生危害,进而导致金融机构违反监管规定。四是管理层应与外部机构协调以充分获取潜在威胁的信息。这些外部机构包括行业的信息分享机制、地方政府或政府部门的应急管理小组。而在金融机构内部充分的信息分享也可以帮助机构整体更为系统和准确的识别评估风险。五是管理层应关注与第三方服务商关联过紧的潜在风险。如果金融机构与第三方服务商联系过于紧密(如依赖性很强),那么当发生突发事件第三方服务商所受的影响可能会产生“多米诺效应”导致金融机构业务受到重大影响。
其次是可能性和影响分析(Likelihood and Impact)。不同风险事件的可能性和影响不尽相同,例如短期的电力中断是高可能性但低影响的事件,而流行性传染病则是可能性较低但影响较大的事件,这其中最难应对的事件就是这些可能性较低但影响较大的事件。作为风险评估的重要部分,管理层应当定量的评估风险事件的潜在的财务等损失、定性的评估风险事件潜在对客户、声誉等的影响。除了评估金融机构本身遭遇风险事件的可能性和影响,管理层还应该评估重要的第三方服务提供商遭遇风险事件的可能性和影响。
(四)确定业务连续性策略
当进行完业务冲击分析(Business Impact Analysis)和风险评估(Risk Assessment)之后,管理层需要制定相应的业务连续性策略(Business Continuity Strategy)。业务连续性策略应以风险为本(Risk-Based),并能充分应对可以预见的所有风险。业务连续性策略应将保证相应服务韧性和恢复目标的资源分配措施纳入其中。同时,相关策略应保证在高峰工作流量情况下可行,例如当前情况下对于电子系统和技术的依赖使得完全依靠手工形式进行业务操作不再可行。
《手册》指出,策略应将潜在冲击对人力资源、业务流程、支持技术、设施和数据的影响充分进行考虑:一是人力资源方面的应对策略,包括运输员工和物资的交通安排或安排员工在家办公的预案。此外,机构应考虑当电信系统故障时与员工、客户和外部服务商保持联系的方式。二是业务流程方面的应对策略,包括为不同业务条线和手工操作提前准备冗余的工作场所。三是支持技术相关的策略,包括装备齐整的备用数据中心或云服务提供方。四是设施相关的策略,包括设置地理上距离较远的灾备中心或提前准备多个电力资源提供方,以避免单点故障造成严重后果。五是数据保护策略,往往为对数据备份、复刻和储存相应措施的结合,以此来确保业务的连续性。例如在当前的技术支持下,可以运用云技术等先进技术支持的策略。《手册》中特别强调了在业务连续性策略中考虑云架构、虚拟化等其他先进技术的运用。《手册》指出,云技术的解决方案可以为金融机构提供低成本和高可利用率的环境,金融机构也可以考虑基于云技术的灾难服务作为整体业务连续性管理计划的一部分。
业务连续性策略中最为重要的部分是保证金融机构的韧性(Resilience)。《手册》解释,韧性(Resilience)指的是金融机构准备和应对环境突变、承受短暂冲击(例如蓄意攻击、意外事故、自然灾害等)并从其中快速恢复的能力。管理层应充分评估机构是否具有充足的资源(人力、财政、时间等)来保证机构整体具有韧性,并从过往的事件中充分吸取教训。具体而言,金融机构的韧性可以分为以下几个方面:一是实体韧性(Physical Resilience),实体韧性包括了IT架构、基础设施、设备以及沟通方式的韧性。为了避免联系方式中断的风险,金融机构应设立多样化的通信线路,备足分支结构和数据中心之间的冗余联系方式,设置备份系统、提前确定多种能源供给方,同时确保关键业务设施有不同地理位置的灾备中心。二是网络韧性(Cyber Resilience)。网络韧性的最大挑战在实时变化的风险情况保证网络系统具有韧性,随着网络攻击的频率和复杂性的加深,数据和信息系统的风险也进一步加大。例如,网络攻击有可能同时攻击生产系统和备份系统,从而造成二者同时无法使用,亦或者攻击方会在首次攻击后在此发起二次攻击等。因此在网络韧性的范畴内,管理层应当充分考虑各种情况,提前建立相关安全和隐私政策来确保符合监管规定。三是数据备份和拷贝(Data Backup and Replication)。当遭遇业务中断或数据丢失时,此前进行的数据备份和拷贝是恢复业务和数据的重要方式。数据拷贝(Data Replication)指的是拷贝数据的过程,其目标往往是为了确保在不同的地点(例如灾备中心)保存相同的数据。一般而言,数据的拷贝可以有两种形式,实时的(Synchronous)或非实时的(Asynchronous)。实时的拷贝(Synchronous Replication)指的是当数据有任何变化时都快速的将其同时进行复制,但其对于带宽等客观因素要求较高,一般用于关键业务职能且对于数据丢失容忍度很低的业务使用。而与之相反非实时的拷贝(Asynchronous Replication)可能会导致数据丢失的增加,但是对于带宽和数据占用等的要求较低,同时也适合长距离的数据传送。在此过程中,管理层应确保在数据的备份和拷贝过程中其保密性和隐私性。除此之外,管理层还应该提前明确相关数据的保存期(Retention Periods)。值得注意的是,与上文一致,《手册》再次点出,云技术和镜像技术等先进技术可以为实施大量数据复制提供可能。四是人力资源韧性(Personnel Resilience)。这是因为关键业务开展的韧性往往也取决于人力资源的多寡,当遭遇自然灾害、极端气候条件和流行性疾病时机构往往会面临人员缺乏,因此金融机构需要提前为工作人员的缺席做好策略和计划安排。在极端条件下,公共基础设施和交通设施可能将无法运作,而电信系统也可能由于负担过重无法正常运作。因此管理层应当提前考虑以下问题:需要保证业务连续性时可以获取的人员及其具备的技能、安置流离失所业务人员(乃至家属)的住宿条件、安置流离失所雇员的基本生活保障(例如水、食物、衣物等)、简易医疗支持设备、移动指挥中心、当业务人员远程工作时可靠的通讯方式、事先安排的应急处置人员等。五是第三方服务的韧性(Third-Party Providers Resilience)。许多金融机构在运营关键业务环节时会使用第三方服务进行支持,这也就意味着第三方服务的潜在风险也会成为金融机构单点故障的来源。因此在进行业务连续性管理时也应该充分考虑第三方服务提供商的潜在风险、恢复能力,甚至考虑潜在的第三方服务商的替代者。六是通信服务的韧性(Telecommunications Resilience)。考虑到通信服务的重要性,管理层应在公司层面设置通信基础设施的一定冗余。对于冗余设置的具体细节,《手册》指出,管理层应主要关注以下方面:在机构整体架构范围内识别和缓释单点故障的可能;建立和保持相应计划来应对通信线路遭遇停电等事件;提前通过合约形式与电信第三方服务商保持冗余线路,以确保在需要时可以切换至备用线路;审查第三方通信服务商的计划,以确保其能在金融机构可以接受的时间内恢复正常运作;根据金融机构规模、业务复杂程度和风险特性提前制定指引,多样化其通信线路,以缓释通信系统故障的风险;评估通信服务“最后一公里”的可靠性,以避免单点故障;检测与通信服务第三方服务商的关系,以此降低潜在风险;了解通信服务第三方提供商线路铺设的具体位置,确保其通信系统具有冗余。七是电力的韧性(Power Resilience)。金融行业的技术基础设施和营业网点等需要依赖电力来维持员工的工作环境和接待客户的必要条件。因此管理层需要在电力的韧性方面考虑以下内容:替代性的电力来源(例如自备发电机或接入多个电网)、燃料要求(包括储备的发电用燃料以及在突发事件来临时可以获取的燃料来源)、自备电机的承载能力(包括运作时长、折旧年限等)、自备电机的日常维护和测试。除此之外,管理层还应当在业务连续性计划中适当考虑管理层变动可能给业务连续性带来的风险,提前做好计划避免管理层的变动对金融机构业务产生负面影响。
值得注意的是,《手册》还在业务连续性策略之中提到了应当对沟通渠道保证一定的韧性。这主要是因为在遭遇突发事件、自然灾害甚至恐怖袭击时,传统的通讯系统可能也遭到了损害或无法使用。因此需要在事前提前准备好别用的通讯方式和联系人通讯录,以此确保机构内部、与第三方服务商以及外部机构(包括监管机构、政府应急响应部门、法律强力机构、金融行业组织、重要客户、信息共享组织)的联系。
(五)建立业务连续性计划
作为业务连续性管理最为重要的部分,《手册》指出金融机构应当根据机构的规模和复杂性提前就业务连续性计划(Business Continuity Plan,BCP)设置足够细节化的安排,而且BCP应当是一个动态的文件(Living Document),定期根据组织架构和业务特性等内容进行更新。对于小型机构而言,其可以设置一个单独的BCP,但是对于大型的、复杂的机构而言可能需要根据业务内容、设施地点等内容设置不同的BCP。
一个完善的BCP应当包含以下内容:一是金融机构员工和第三方服务提供商各自的角色、职责和所需技术;二是对于各类可以预见的突发事件的解决方案;三是提升应对等级的明确界限条件;四是保护职工减小损害的具体步骤;五是恢复运作、服务等的优先级和流程;六是重要信息的保护方式;七是在备用设施开展业务时对员工的运输和安置安排;八是网络设施、通信需求和各类信息传输安排;九是在替代设施的人员安排;十是业务连续性计划测试的范围和频率;十一是如何将业务流程从应急状态恢复至正常状态。
一般而言,业务连续性计划的建立可以分成几个大块:事件管理(Event Management)、 业务连续和恢复的安排(Continuity and Recovery)、基础设施和设备的准备(Facilities and Infrasture)、支付系统的保障(Payment System)、流动性考虑(Liquidity Considerations)以及其他内容。
在事件管理(Event Management)方面。在BCP之中,需要提前明确多种情况下的事件(Events)、中断(Disruptions)或者触发事件(Trigger)。所谓事件,指的是对业务操作产生影响的环境突变或改变,其可以是实物的、网络的或者二者合一的改变;所谓中断,指的是造成业务操作超出可接受范围降级或失效的事件;所谓触发事件,指的是将会引发管理层响应的事件。在制定业务连续性计划时需要提前确定好不同情况下应对升级的门槛(Threshold),以便施行不同的措施来应对突发事件。除了事先需要详细明确事件发生时的汇报路径,事件发生时的响应措施也需要提前进行明确,具体的响应措施可以包括:当软件升级失败时,可以将运营转换到备用的设施之中;当原设施所在地变得不安全时,将工作人员转移到安全的备用地点;当突发事件造成运营中断时,授权启动替代的通信设施;当识别判定重大网络攻击时,启动灾难恢复程序;当飓风对特定地点产生威胁时,启动应急响应程序。
在业务连续和恢复(Continuity and Recovery)的安排方面。管理层应事先建立相关业务连续性操作和系统恢复的草案,这些内容应包括:如何在业务暂时中断时处理客户服务要求、如何跟踪监测每日的交易、如何调和总账和分账、如何记录各类操作任务、如何在系统恢复后录入账簿、如何保存备份记录的客户账户信息等。在条件允许的情况下,BCP之中应纳入关键业务手工操作的流程,例如后台业务操作、贷款操作和客户支持服务。《手册》指出,BCP之中的操作流程应当清晰、明了且容易实施,可以采用检查表(Checklist)式的操作手册。值得注意的是,当遭遇突发事件或灾害时,客户可能受灾丢失了身份证明文件以及个人账户的记录,因此金融机构应当在BCP之中提前考虑其他客户用于证实自己身份的方式,并警惕这一时期可能出现的金融欺诈等行为。
在基础设施和设备(Facilities and Infrasture)的准备方面,《手册》指出BCP应当提前确定好关键业务操作、设施、基础系统、关键人员等方面的备选方案。在选取备用站点时,应当提前为其业务可扩充性(Scalability)进行规划考虑,以避免事件造成备用站点长时间运营的潜在风险。同时,管理层应当确定备用站点可以保证以下关键业务的进行:核心流程、支票操作、现金管理、支付系统、邮寄传真、客户验证等。具体到备用站点,一般分为两类:备用数据中心(Data Center RecoveryAlternatives)和备用营业网点(Branch Relocation)。备用数据中心可以根据其所服务业务和数据的重要性和实时性要求分为多种类别:一是冷站点(Cold Site),即为具有必须的电力和物理硬件设备的站点,但是还未装备电脑等设备。一般这些站点只有在接受了电脑、人员和相应软件调试之后才能运作,由于需要进行准备和调试的时间较长,难以短期内启用,一般较少用于金融行业的备用站点。二是温站点(Warm Site),即为在冷站点基础上还装备了部分信息系统和电信设备的站点,但是这些站点并没有准备好运作所需的软件和数据,也需要一定时间的装载、导入和调试,因此采用这种站点时,可能会遭遇一定时间的业务中断。三是热站点(Hot Site),即为在温站点的基础上还提前准备好了各类硬件、软件的站点,但不一定具有实时更新的数据,其设置和维护较为复杂、成本较高,但是却能保证业务切换到热站点时几乎不会中断。四是镜像数据恢复站点(Mirrored Data Recovery Site),在热站点的基础之上,其还具有实时更新和复制的数据。此外,这些站点之间应当是具有一定地理距离并采用不同的电力等一系列设备,以此避免同时失效。虽然这类站点的维护成本最高,但是却可以在发生灾害时实时进行切换。避免业务中断。五是移动站点(Mobile Site),移动站点的硬件和软件设备介于冷站点和温站点之间,同时还具有可移动的电脑等设备来服务客户。六是租赁的设施(Colocation Facility),指的是可以为多个互不相关租户提供空间、电力、设施、通信等服务的租赁场地。其使用风险在于当当地发生大范围自然灾害时,恐难以提供足够的空间来服务不同的客户。七是互惠协议(Reciprocal agreement),即为允许两家机构之间互相作为对方备用设施提供方的协议。虽然这类协议可以帮助两家机构节省成本,但其风险可能在于隐私保护和数据安全,因此这一类的互惠协议最多只能在短期内解决备用站点的问题,而无法成为长期解决方案。八是灾备即服务系统(Disaster Recovery as aservice),即为可以为相关设置、硬件和数据提供云备份和恢复服务的系统。备用营业网点则是在遭遇突发灾害袭击时元网点无法提供服务时,可以短期内替代原网点关键服务的网点,备用营业网点的设置和启用还需要监管机构的具体批准。
在支付系统的保障(Payment System)方面。BCP应当考虑支付系统(例如ATM及其、资金交易、电子银行等系统)发生故障时的替代方法,例如通过手工记账等方式来进行支付结算,除此之外网页系统或第三方软件等也可以在部分支付系统故障时临时承担支付转账的职责。当突发事件发生时,现金需求或转账的需求也可能急剧增多,在此情况下BCP应当充分考虑相关业务的可扩容性。
在流动性考虑(Liquidity Considerations)方面。BCP应当提前考虑当遭遇负面冲击时可能激增的现金和流动性需求。例如当遭遇自然灾害时,由于电力和通信系统的故障,对于现金的需求可能激增。BCP之中事先设置的满足现金和流动性需求的安排包括:紧急拆借通道、替代性的现金运输保管方式、更高的贷记卡透支限额等。
除了以上的内容,管理层在制定业务恢复计划是还应该提前考虑应急响应(Incident Response)、灾害恢复(Disaster Recovery)和危机管理(Crisis Management)等。通过应急响应,管理层能够较好的降低负面事件的不利影响。应急响应的优先程度排序为:保护生命、保全财产、稳定措施以及与相关方进行沟通,这些相关方包括客户、第三方服务提供商、政府机构、监管方以及媒体等。为了更好地消弭负面的影响,金融机构应当在遭遇负面事件时设立专职新闻发言人,向外主动提供信息,并监测舆情动态。而灾害恢复指的是遭遇灾害后对于IT基础设施、数据和系统的整体恢复,在这一过程中应事先识别哪些业务和系统是应该首先进行恢复的(例如在灾害发生时电子银行、ATM等业务的恢复需求较高),并充分注意信息安全的保护。危机管理则指的是在遭遇灾害等事件时管理、启动BCP计划的过程。并非所有事件都需要进行危机管理,因此需要相应的专业团队和事先的计划来判断某个特定的事件是否需要进行相应的危机管理,并采取相应举措。
(六)培训、演练与测试
《手册》要求,管理层应对相关人员进行韧性、业务连续性目标以及个人的角色和职责等内容进行培训。具体的培训内容可以包括:练习、当前风险和未来风险的普及、近期事件的阐述、新业务和新计划的提前预告、此前突发事件所吸取的经验等。培训的范围应该包括董事会、高管层、业务条线负责人以一线业务人员,具体的培训内容也应该根据听众的类别进行个性化的设置。值得注意的是,对于董事会和高级管理人员的培训应该更为频繁,特别是当具体的业务流程、风险和BIA发生显著变化时,董事会和高级管理层应当进行相应的培训。具体的培训形式包括以下类型:课程教育、网课训练、亲手实践以及与其他机构合作等。
《手册》指出,金融机构的董事会和高级管理人员应当设置适当的评估、测试和演练等,以此来评估业务连续性计划等内容是否能切实符合业务连续性目标。所谓演练(Exercise)指的是需要人员参与的对于BCP及相关流程单方面或全方位的验证。所谓测试(Test)指的是一种特定的演练形式,其旨在测试一定操作环境下系统的韧性、可靠性和具体表现。一般而言,演练和测试的主要差异在于演练主要关注人员的培养和测试,而测试则更多的关注系统的特定方面可靠性。
《手册》要求应该针对演练和测试的频率进行提前要求,特别是当新的风险被识别或者机构整体运营环境发生显著变化时,应该针对这些事项进行演练和测试。从演练的模式上来看,可以大体分为几种:一是全面演练(Full Scale Exercise),全面演练可以充分的监测所有可供使用的资源(包括人员和设备),是否可以在最大限度上帮助金融机构保持业务连续性。全面演练可以帮助管理层更为准确的识别关键业务运营部门之间的相关联性。二是有限规模演练(Limited-Scale Exercise),有限规模演练往往是针对特定的业务环节或业务条线在特定环境下是否能保持业务连续性来进行的演练,因此有限规模演练并不能帮助管理层识别不同业务条线之间和不同部门之间潜在的相关联性。三是图上作业演练(Tabletop Exercise)。图上作业演练即为负责业务连续性的人员对其在特定情况下所应扮演的角色和应付责任的讨论,其目标在于确定业务连续性计划对于个人职责和相应目标安排的合理性。值得注意的是,演练和测试其最为重要的目的是在其中发现业务连续性管理的漏洞以及潜在值得改进的地方,因此在进行了演练和测试之后,管理层应针对演练和测试所展现出来的弱点进行针对性的改进,确保业务连续性管理能够满足相应的目标。
三、业务连续性计划具体运用案例
从金融机构创设发端之初,业务连续性计划的设置便成为金融机构所需要面对的课题。随着历史的进程,金融机构的运作方式也愈发的电子化、自动化,在这一过程中,业务连续性管理的内涵和要求也不断地更新,各金融机构也通过不断在实践之中测试、启用、改进业务连续性管理。下文将根据联合论坛的汇总,简述21世纪以来2次遭遇外部事件冲击时金融机构业务连续性管理开展运作的经验和教训。
(一)2003年美国和加拿大金融机构应对大停电事故
2003年8月14日(星期四),美国东北部地区及加拿大安大略省东部地区的电力设施发生故障,导致了大范围的停电,其影响时长长达2天以上。大范围的停电不仅造成了照明系统和电脑、计算机系统的无法运转,也造成了通信系统的问题。在事件发生之后,美国和加拿大的金融监管机构迅速启动了应急沟通流程,一方面联系各大金融机构,了解其业务连续性计划响应情况,确保其关键金融服务能够继续进行,金融市场不会产生大范围的动荡;另一方面与当地政府和供电机构进行联系,了解具体事故情况和恢复信息。同时,组织召开当地政府和金融机构都参与的会议,消除对于灾害事故的不确定性恐慌,稳定金融市场情绪。
对于金融市场,由于停电的开始时间发生在下午4:11,即为金融市场交易完成之后,因此并没有对当天金融市场产生较大冲击,第二天各大交易所及主要金融机构也启动了备用电源等一系列方式保证了运营的连续性,因此整体的影响较小。但是部分机构在启用了备用电源之后还是出现了意外情况,全美证券交易所(American Stock Exchange, Amex)在8月15日的交易中心启用了其原有交易场所的备用电源,因此并未切换到备用的场地,但是在当日交易过程中,负责机房空调供电的系统发生故障,因此无法保证机房能够正常运转,受制于此Amex只得缩短当日的交易时长,避免机房由于过热产生故障。
对于零售业务而言,绝大多数银行的在第二天启用了备用能源,从而能保证大部分分支机构和零售客户的服务需求。由于备用能源的及时启用以及停电时间并未过分延长,因此大部分银行业金融机构不需要启用备用网点。但是部分ATM机由于缺少电力而无法运作。但总体而言,银行通过启动业务连续性计划,对于客户的正常零售业务需求还是能够基本满足。
除此之外,由于电力的暂停,各类公共交通设施陷入停摆,各大金融机构的部分值班人员在其工作单位度过了当晚,以便第二天关键业务人员不会受制于交通问题无法返回工作地点,进而影响金融机构核心业务的运营。
根据联合论坛(Joint Forum)在《业务连续性的高级别原则》中总结,本次事件带给大家的经验教训,主要有以下几个方面:一是金融机构应在业务连续性管理之中提前纳入之前没有遇到过的极端但可能的情景事件。随着时代的进步,金融机构所运营的模式也发生了较大的改变,金融机构很可能会遇到此前并未遭遇过的新风险、新事件,因此金融机构在业务连续性管理的计划、测试和更新之中应充分考虑这些新产生的极端但可能的事件。二是在突发事件发生时及时公开信息,进行有效的沟通极为重要。
停电事件发生之后,美国监管机构迅速联系了各大金融机构,并通过组织金融机构与当地政府应急响应部门联合会议的方式,及时公开了突发事件信息,否认了恐怖事件的可能,稳定市场情绪和金融机构整体预期,方便金融机构准确研判事态发展,启用合适的业务连续性计划进行应对。三是在事前准备遭遇突发事件时的沟通规则和联系方式。当遭遇突发灾害时,相关的电脑、通信系统可能会产生故障,在此情况下往往需要启用备用的通讯渠道,此时事前准备的沟通规则和联系人目录等材料就起到了举足轻重的作用。
(二)2003年SARS疫情对中国香港证券市场的影响
2003年SARS疫情爆发,中国香港共发现病例1755例,并造成300例的死亡,同时引起了当地社区的普遍恐慌和焦虑。事实上,SARS疫情在中国香港的扩散并未直接在金融机构的雇员之中流行,但是金融监管机构和各大金融机构也采取了相应的措施来应对疫情的影响。
以香港地区的投资银行机构为例,香港地区的投资银行在疫情期间形成了以行业工会为渠道的信息沟通平台,互相交流了所获取的最新信息与此同时,各主要投资银行还采取了以下措施来最小化疫情可能产生的影响:一是每日举行业务连续性情况简会。分享政府和各方面所了解到的有关疫情最新信息,并向所有员工发送邮件帮助雇员了解疫情最新情况和所需的防护措施。二是雇佣健康专业人员作为顾问。部分公司雇佣了专业的医疗人员为其办公室工作的雇员提供健康和咨询等服务。三是补贴需要乘坐公共交通工具的员工的士费。通过为员工提供交通补贴的形式来避免员工搭乘公共交通潜在的感染风险,与此同时,还采取了错峰上班等措施来降低通勤期间感染的风险。四是减少出差。
雇员在疫情期间尽量减少外出出差的机会,甚至部分公司要求员工出差之前需要首先咨询医生的意见。除此之外,香港的监管机构也采取了尽量减少现场服务、避免聚集性会议、向雇员分发口罩、牵头建立与金融机构沟通机制等形式来最小化疫情的潜在影响。
根据联合论坛(Joint Forum)在《业务连续性的高级别原则》中总结,本次事件带给大家的经验教训,主要有以下几个方面:一是此前业务连续性管理中的部分假设可能不够极端。例如在香港证券及期货事务监察委员会(SFC)此前的业务连续性计划中,其模拟的场景为部分员工由于突发事件无法前来上班,但是在面对SARS疫情时,很可能出现由于单个员工被感染而导致整个部门被要求进行医学隔离的情况,因此以SFC为代表的金融监管部门和金融机构在此次事件后相应调整了其业务连续性计划。二是本次事件使得各方更为重视信息的收集和公开。在SARS疫情在中国大陆刚刚爆发时,由于多方面原因,香港金融监管部门和金融机构所能收集到的公开信息较少,这影响了相关部门和机构的业务连续性响应的判断。因此,此后相关监管机构和金融机构对于突发事件时信息收集和分享更为的重视。
参考文献:
(1)Federal Reserve, OCC, SEC, April 2003, Interagency Paper on Sound Practices to Strengthen the Resilience of the U.S. Financial System, https://www.federalreserve.gov/boarddocs/srletters/2003/SR0309a1.pdf
(2)FFIEC, November 2019, FFIEC Information Technology Examination Handbook: Business Continuity Management, https://ithandbook.ffiec.gov/media/296178/ffiec_itbooklet_businesscontinuitymanagement.pdf
(3)Joint Forum, August 2006, High-Level Principles for Business Continuity, https://www.bis.org/publ/joint17.htm