数据库设计中的敏捷方法
引言
过去几年中,我们将敏捷方法应用于数据库设计,总结出一些技巧,使得当应用程序发展时,数据库也能够进化,这是敏捷方法的一个重要属性。我们的方法是通过持续集成以及自动重构,通过数据库管理人员(DBA)和应用开发人员的紧密合作来设计数据库。这些技巧在应用开发的各个时期都有效。
1 敏捷方法学
近年来,出现了一种新的软件开发方法学——敏捷方法学。这给数据库设计提出了一些新的、巨大的需求。这些需求的一个中心就是进化设计。在一个敏捷项目中,需要假定我们并不能事先确定系统的需求,因此在项目的初期有一个详细设计阶段的想法是不现实的。系统的设计必须随着软件的变化而进化。敏捷方法,尤其是极限编程(XP),通过一些实践使这种进化设计成为可能。在数据库设计采用敏捷方法,反复迭代。
许多人会怀疑敏捷方法能否用于有大型数据库组件的系统,但我们的确使用了许多敏捷和XP技巧,用于解决基于大型数据库的项目中的进化与迭代问题。
本文将介绍一些在数据库设计采用敏捷方法的实践。当然,这并不是说我们已经完全解决了数据库进化的问题,但是我们想提供一些行之有效的方法。
2 积极应对变化
敏捷编程的一个显著特点就是它面对变化的态度。对软件过程的一般解释是尽早理解需求,停止需求的变动,将这些需求作为设计的基础,停止设计的变动,然后开始构筑体系,这就是瀑布方法——基于计划的生命周期。
这种方法通过大量的前期工作来减少变化,一旦前期工作完成,需求变化会引起很大的问题。当需求变化时,这样的方法就会有很大的问题,因此需求变动是这种过程的一个很大的问题。
而敏捷编程却以另外一种方式来面对变化、拥抱变化,甚至允许在项目开发的后期发生变化。尽管变化会被控制,但是这种态度会允许尽可能多的变化。变化部分来自于项目需求的不稳定,部分来自于要支持变化的商业环境来面对竞争压力。
为了做到这样,必须采取不同的设计态度。设计不仅仅是一个阶段——在开始建筑之前就大部分完成的一个阶段,设计是一个持续的过程,与编码、测试甚至发布相关,这是计划设计与进化设计的不同之处。敏捷方法的一个重要贡献是提出了在可控制方式下的进化设计,提供了控制进化设计和使其可行的技巧。
敏捷方法的一个重要特点就是迭代式开发,即整个项目生命周期中运行多个完整的软件生命周期循环。敏捷过程在每次迭代中都会度过一个完整的生命周期,迭代可以完成最终产品的需求子集中编码、测试以及集成代码。敏捷方法迭代时间较短,通常是一周到两个月之间,而且我们更倾向于更短的迭代周期。
当使用敏捷方法时,最大的问题就是数据库如何进行进化设计。许多人认为数据库设计是前期计划的工作,而在后期改变数据库设计计划会引起应用软件的崩溃;在配置以后改变数据库设计计划会导致数据迁移问题。
在过去三年我们参加了一个大型的项目,其中用到了切实可行的进化设计的方法。该项目包括100人的项目组,200多张表格,数据库在一年半的最初开发中一直在进化,甚至在为多用户分发的过程中也在进化。一开始我们一个月迭代一次,过了几个月之后变为两周迭代一次。
随着我们将这些经验推广到项目中越来越多的部分,从越来越多的案例中获得经验。同时,我们也从其他敏捷项目中吸收了一些经验。
2.1 限制条件
在讲述实践方法之前,必须指出我们并没有解决所有的数据库进化设计问题,特别是:
(1) 我们是为单独的应用设计一个应用数据库,而不是试图集成多个数据库;
(2) 我们没有做到24*7的数据库更新。
虽然很多人认为我们无法解决这个问题,但其实这些问题是可以解决的。当然这需要进一步的工作,光说是不能解决问题的。
3 实践
我们有关于数据库进化设计的方法依赖于一些重要的实践。
3.1 数据库管理人员与开发人员紧密合作
敏捷方法的一个重要原则就是拥有不同技能和背景的人能够紧密合作。正式的会议和文档不能达到充分交流的效果,因此他们需要一直一起工作、亲密合作。所有的项目组成员都需要紧密合作:系统分析人员、项目经理、行业专家、开发人员以及数据库管理人员(DBA)。
开发人员的每项工作可能都需要DBA的帮助,开发人员和DBA需要考虑是否需要对数据库计划做很大的改变。开发人员向DBA咨询如何应对变化:开发人员知道需要什么新的功能,而DBA对应用中的数据有全局的观念。
为了达到亲密合作的效果,DBA必须使自己易于接近。DBA需要留出几分钟的时间,让开发人员来提问。必须确保DBA和开发人员坐在一起,这样他们就很容易沟通。同时必须确保应用设计会议是公开的,这样DBA可以随时加入进来。在很多情况下我们发现人们在DBA和应用开发人员之间建立屏障,这些屏障必须去除,这样进化数据库设计才有可能。
3.2 每个项目组成员都有自己的数据库实例
进化设计认为人们通过尝试来进行学习,在编程期间开发人员在如何实施某个特征,应用某个首选的方案之前做一些试验,数据库设计也是如此。因此,每个开发人员都有自己用来试验的实例,而不必影响其它人,这一点很重要,这样每个人都可以根据自己的需要进行试验。
许多DBA专家认为多个数据库是一种麻烦,不易于实际应用,但我们发现操作一百个左右的数据库是很容易的。当然其中很重要的是拥有便利的工具,使你像操作文件一样操作数据库。
3.3 开发人员数据库经常集成到共享主数据库
尽管开发人员可以在他们自己的空间频繁试验,但是将不同的工作定期汇合也是很重要的。应用开发需要一个共享主数据库,所有的工作都汇集于此。当开发人员开始工作时他们从主数据库获取拷贝到自己的工作空间,进行操作和修改,然后将变化反馈进入主数据库。我们的规定是每个开发人员要每天提交汇合一次。
假设开发人员上午10点开始一项开发任务,这项任务的一部分是改变数据库计划。如果这种改变很简单,如增加一个字段,他就可以自己决定。通过数据字典的帮助,开发人员还必须确保他想增加的字段数据库中没有,但是如果他与DBA讨论这种可能的变化,那么工作就要简单的多。
当他准备开始时,先从主数据库中获取一份拷贝,这样就可以自由地改变数据库计划和代码。因为他使用的是自己的数据库实例,所以不会影响别人。在某个时候,如下午3点,他很清楚需要什么样的数据库变化,甚至此时他还没有完全做完他的编码工作。这时他找到DBA,告诉他想要的变化,这时DBA可以提出开发人员没有考虑到的问题。当然大多数时候都很好,DBA同意这种变化(通过一个或多个数据库重构)。DBA使变化马上发生(除非他们是破坏性的变化),这样开发人员可以继续他的工作,在任何时候提交代码,因为DBA已经将这些变化发送给主数据库。
可以将这个原则看作类似于持续集成,持续集成常用于源码管理。实际上这就是将数据库看作是另一种源代码,因为配置管理系统象控制源代码一样控制主数据库。只要我们构建成功,数据库和源代码一起被送入配置管理系统,这样我们就有两者完整和同步的版本历史。
对于源代码来说,集成中的问题被源代码控制系统处理。对于数据库来说,要做的工作稍微多一些,所有数据库的变化都需要妥善处理,如自动化数据库重构。此外DBA需要审视任何数据库变化,保证其符合整个数据库的计划。为了使这项工作做的比较平稳,在集成的过程中不应该出现大的变化——因此需要DBA与开发人员紧密合作。
我们强调经常性的小集成,因为它比非经常性的大集成容易得多。集成的复杂度会随着集成的规模呈几何级度增加,因此做许多小的变化在实践中更易于实现,当然这看上去与直觉相抵触。
3.4 数据库包含计划和测试数据
当提到数据库的时候,我们并不仅仅指数据库计划,而且还包括相当规模的数据。这些数据包括应用所需的标准数据,如全国所有的省份名,以及一些样本客户的样本数据。
数据的作用:
(1) 易于测试
使用大量的自动化测试可以帮助稳定应用的发展,这样的测试在敏捷方法里是常用的方法。为了使这些测试有效进行,很理智的方法是在一个有样本测试数据的基础上工作,这样所有的测试可以在程序正式进行之前完成。
(2) 测试数据库的迁移
除了测试代码之外,样本测试数据允许我们测试数据库的迁移,当改变了数据库的计划后,我们还必须保证所有的计划变更也能够处理样本数据。
在大多数项目中这些样本数据是虚构的,然而在某些项目中人们使用实际数据作为例子,在这些情况下,数据从先前由自动化数据迁移代码的系统中提取出来。很明显不能马上迁移所有的数据,因为在早期迭代中数据库只有小部分建立起来。但是我们希望当应用和数据库发展时,改变迁移代码。这样不仅能够尽早解决迁移问题,也使行业专家易于处理这个正在开发的系统。因为有他们熟悉的数据,所以他们会指出可能给数据库和应用设计带来问题的地方,因此我们建议在项目的早期迭代中引入实际数据。