Security+笔记——第十一章：保障业务连续性

课题A：选择业务连续性和灾难恢复流程

业务连续性和灾难恢复
业务连续性（Business continuity）也称为操作连续性（continuity of operations/COOP），是一组能使组织在面临某些不利事件时保持正常业务操作的流程。
灾难恢复（Disaster recovery）是业务连续性的一个主要组成部分，其重点工作是在灾难对组织产生影响后，修复，重建，恢复和更换系统，人员和其他资产。
灾难恢复过程
灾难恢复过程包括几个步骤，以便能够在发生破坏性事件后正确的恢复业务操作。

灾难恢复步骤	描述
通知利益相关者	应当将业务关键型灾难告知利益相关者。这些人员可能包括高级管理层，董事会成员，投资者，客户，供应商，员工和公众。不同类别的利益相关者会在不同的时间收到通知，通知的详细程度根据政策中的通知程序进行确定。
开始紧急行动	应当部署有关特定紧急服务的详细步骤。任命一名事故管理员负责控制情况并确保人员的安全。
评估损害	应进行损害评估，确定设施发生损坏的程度，如果尚不清楚灾难原因需要对其进行确定，并估计预计的停机时长。这一评估过程还能帮助确定合适的应对策略。例如如果仅限于对操作功能不构成威胁的部分业务，就没有必要到远程站点中进行全部恢复。
评估设施	有必要对当前设施是否能继续成为主要运营点的能力进行评估，如果设施受到不利影响并遭受重大损失，搬迁至备用地点可能是最佳选择。
开始恢复过程	一旦你通知了利益相关者，执行了最初的紧急操作，并评估了损害以及设施的运行能力，接下来就是开始恢复过程的时候了。

恢复团队
恢复团队是指在发生内部或外部关键业务流程中断时被指派执行恢复程序并控制恢复操作的个人团队。恢复团队在紧急情况下会立即做出响应，并在关键服务和信息系统重新上线时，在远程或恢复站点上将关键业务流程恢复到正常运营的水平。
恢复顺序
恢复顺序（order of restoration）决定了你在恢复工作中有限考虑哪种类型的系统，在组织看来，并不是所有的系统都是平等的。

恢复站点
为了能够保障业务的连续性，组织可以维护各种类型的恢复站点，用来帮助恢复系统功能。热站（hot site）是指完整配置的备用网络，可在灾难发生后迅速上线。温站（warm site）是指在正常情况下处于休眠状态或执行非关键功能的站点，但如果需要可迅速转换为关键操作站点。
冷站（cold site）是一个预确定的备用地点，可在灾难发生后重建网络。
安全恢复
业务连续性和灾难恢复必须包括安全恢复数据，系统和其他敏感资源的过程。着可能意味着需要指定一位受信任的管理员来监督恢复过程，并记录恢复流程，系统中使用的步骤和信息，以及从灾难中恢复所需的数据。另外可能还包括了在主站点或备用恢复站点上继续运行的指导。安全恢复应当进行定期的审查和测试。
备份类型
从备份中恢复数据的过程会根据原本非计划中包含的备份类型的不同而产生变化。有三种主要的备份类型：

备份类型	描述
完整备份（Fullbackup）	无论之前的状态如何，所有被选定的文件都会进行备份。许多完整备份可能会消耗大量存储空间，并且备份过程可能会很慢。但在恢复丢失的数据时，完整备份快速且可靠。
差异备份（Differential backup）	备份自上次完整备份依赖更改过的所有选定文件。使用差异备份时，你必须恢复上次的完整备份和最新的差异备份。差异备份比完整备份需要更少的存储空间和备份事件，但恢复速度较慢。
增量备份（Incremental backup）	备份自上次完整备份或增量备份（以最新版本为准）依赖发生过更改的所有选定。使用增量备份时，必须恢复上次完整备份以及所有后续增量备份。增量备份通常比差异备份话费的时间更少，因为它包含的数据较少，但恢复数据时速度也较慢。

快照与备份有关，但两者之间存储在重要的差异。快照记录存储卷在某个时间点上的状态，通常是存在于同一个卷上的状态，而备份是多个外部位置中数据的真是副本。
安全备份
备份敏感或重要数据只是方案中的一部分，因为备份也需要保持安全。被认为是最安全的备份状态是离线的，放置在站外，存储在物理锁定的环境中，经过保护能够免受注入火灾或水灾等环境入侵的影响。备份的媒介还应该进行准确的标记，防止重要数据被意外覆盖。
地理位置方面的考虑
用于创建数据备份的物理媒介必须安全的进行存储，但在需要数据的情况下必须保持可访问性。许多组织同时在站内和站外存储备份。站内的存储位置用于存放最近的一组备份，以便能在正常操作期间恢复数据时可以快速访问。站外位置是一个安全的，能抵御灾难的存储设施，组织在其中保存了一个重复的或较旧的备份集，防止主站点上的灾难情况引起任何损害了。
选择业务连续性和灾难恢复过程的准则
当选择业务连续性和灾难恢复过程时：

了解你的业务可能受威胁的不同方式。
实施整体业务连续性流程来响应实际的安全事件。
在发生重大不利事件后，实施灾难恢复流程以便恢复IT运营。
遵循灾难恢复流程，从通知利益相关方开始到开始实际的恢复行动。
组建一个具有多工作较色和责任的恢复团队。
确定一个恢复顺序，让业务关键型的系统最先恢复上线。
考虑维护备用恢复站点，以便能够在主站遭到入侵时快速恢复操作。
根据你的业务需求和方式，在热站，温站，冷站之间进行选择。
确保恢复过程免受攻击或其他危害。
选择能满足你对速度，可靠性和存储要求的数据备份类型。
确保备份存储在安全的位置。
考虑维护多备份的安全意义。
定期测试备份的完整性。
考虑将备份置于异地，环节特定位置上发生的损害。
了解近距离和远距离备份站点的优点和缺点。
研究治理备份站点所在地区的社会政治文化和法律。

课题B：指定业务连续性计划

业务连续性规划
业务连续性规划（business continuity plan/BCP）是一项描述和批准组织整体业务连续性战略的正常。一个可行的BCP应包括确定关键系统和组件，以确保这些资产得到保护。BCP还通过保存关键文件，建立决策机构，促进与内部和外部利益相关方的沟通，并维护财务职能来确保组织本身的生存能力。
灾难恢复规划
灾难恢复计划（disaster recovery plan/DRP）是描述和批准组织灾难恢复战略的一种策略。灾难恢复计划能帮助组织以最少的时间和金钱损失从事件中恢复过来。他们重点通常在于恢复IT运营的工作能力，并确保人员的安全。
DRP可能包括：

负责恢复的人员名单和联系信息。
硬件和软件清单。
保持业务连续性所需的重要业务和客户信息的记录。
程序手册和其他重要信息的记录，如BCP和IT应急计划。
备用站点的规格说明。
有关备份项目和程序的信息。

IT应急计划
IT应急计划（IT contingency plan）是BCP的一个组成部分，当你面临导致组织灾难的攻击或服务终端时，这一计划制定了可以进行切换的备用IT程序。过度措施可以包括在备用站点外操作，使用备用设备或系统，重新安置主要系统。IT应急计划的有效性取决于：

抓哟人员了解IT应急计划的组成部分，并在组织面临攻击或服务中断时决定何时以及如何启动应急计划。
不时的检查清单，查看IT应急计划的所有方面是否到位，如包括备用站点的恢复策略。
为员工和管理层提供充分的培训，以执行应急计划，并时常进行计划的维护和重新审核。

回退应急计划（backout contingency plan）是一份有文档记录的计划，包括了在撤销系统更改或修改应用的特定程序和流程。该计划可能包括关键人物，系统列表，回退时间框架以及完全撤销更改所需的具体步骤。计划的一部分可能还包括一个备份计划，将其作为回退流程和程序的一部分进行部署。
继任计划
继任计划（succession plan）确保所有关键业务人员拥有一个或多个可在需要时执行关键只能的制定后援。继任计划确定了称为后援的人员，他们可以替代的人员，他们可以执行的只能以及他们需要如何接受培训。
故障转移
故障转移（Failover）是一种能够确保冗余组件，设备或应用程序可以快速有效的接管故障资产的功能的技术。例如，负载均衡器在其后面的又一台服务器停机或响应时间过长时，通常会提供故障转移功能。一旦负载均衡器检测到此情况，就会将入站流量重定向到负载军何求后面其他真正健康的服务器上。因此负载均衡器中的冗余服务器可确保服务不会中断。
故障转移是包含在BCP和任何附属计划中的一项重要概念，因为它能使灾难的影响范围最小化。
备用业务实践
BCP中的部分内容也可能直接击中与如何调整组织开展业务的方式。如果业务的某些主要元素发生变化，就可能需要实施备用业务实践。在这种情况下，新设施可能忍受不足或装备不足，无法提供与以前相同的客户端水平。为了应对这些变化的情况，组织可能会决定放宽对这个特定部门的配额和期望，或将一些处理任务转移给第三方。前者可能需要修改与客户的服务等级协议，而后者则需要全新的业务安全。
测试演习
每个BCP/DRP在其实施过程中都应当进行定期的测试，并且你的开发过程应包括一个评估阶段以确保其有效性。

演习类型	描述
演练，专题研讨会和导向研讨会	这些活动通常用于为灾难恢复团队成员提供基本的认知和培训，这些联系描述了BCP，DRP和其他计划的内容以及这些计划中概述的角色和责任。
桌面演习（Tabletop exercise）	这是一种基于讨论的绘画，灾难恢复团队成员讨论他们在紧急情况中扮演的角色以及对特定情况的响应方式。
功能演习	这是一种基于行动的绘画，员工可以通过在模拟环境中执行基于场景的活动来验证BCP/DRP。
全方位演习	能反映实际情况的一种基于行动的会话，这些演习在现场举行，尽可能使真是的设备和真是的人员。公共机构经常进行全方位演习，当地组织可能也会被要求参与。

计划完成后，你应当至少每年进行一次审查，并根据审查结果和定期测试的结果进行任何维护级别的更改。你可能还需要在对组织的基础架构进行重大更改之后审核计划。
行动后报告
行动后报告（after-action report/AAR）或经验教训报告（lessons learned report/LLR）包含了对事件的分析，这些分析能够提供有关在未来如何改进响应流程的深入见解。在AAR中，你应当准确报告发生了什么以及组织如何进行响应。然后你就能确定组织是否充分遵循了BCP以及BCP本身是否能够充分确保业务运营的连续性。入股你能在业务连续性和灾难恢复过程中的成功与失误中学习经验，就能改进流程并优化你的计划。
起草AAR只是回答几个主要问题。一下仅仅是编写AAR时应该提出的一部分问题：

发生了什么？
组织在整体上对所发生的时间进行了哪些响应？
你是否遵循了BCP及其附属计划？
你未能执行BCP或其他计划中的哪些内容？
在这些与情况有关的元素中，是否有你未能成功实施的元素。
BCP是否充分解决了这种情况？
BCP中是否有原本可以在这种情形中提供帮助的缺漏？
恢复团队是否快速高效的履行了他们的职责？
是否需要任何额外的演习或培训？
如果再次出现同样的情况，你会以不同方式进行响应吗？
以上这些问题的答案是否使得BCP或附属计划需要进行修改。

制定BCP的准则
当制定一个BCP：

确保BCP是全面的，覆盖了组织的所有关键维度。
制定补充DRP，重点关注发生灾难后IT运营的恢复过程。
确保DRP中包含了备用站点，资产清单，备份程序和其他关键信息。
制定IT应急计划，确保IT程序在不利事件发生后能继续进行。
确保IT人员接受了有关此计划的培训。
制定回退计划，以防某些行动需要迅速撤销。
制定继任计划，以防员工需要由后备人员对他们进行替换，。
在BCP中纳入故障转移技术。
清点主资产和冗余资产，并将它们一一对应。
如有必要，将备用业务实践纳入BCP。
进行测试性的演习活动，以便让直行BCP/DRP的人员做好准备。
起草AAR，从你的成功和失误中学习经验。
询问你自己关于实践的关键问题，确定需要改进的地方。根据需要修改BCP，作为对学到的经验教训的一种响应。