试验设计的那些事——费希尔的试验逻辑

作者&投稿：山蚁（若有异议请与网页底部的电邮联系）

如果说数学史上最牛的父子关系，您可能会想到伯努利家族，伯努利家族一共产生了8名数学家，其中有三人是世界级的数学家。而在统计学中，也有史上最牛的翁婿关系，他们是罗纳德·费希尔（1890年-1962年）与乔治·博克斯（1919年—2013年），两位重量级的统计学家都为试验设计这一重要统计优化分支做出了突出的贡献。

然而，可能大多数人并不熟知，试验设计如此重要的优化方法居然诞生于一个叫洛桑的农业实验站——世界上最古老的农业研究站，而他的发明者就是统计学大师罗纳德·费希尔，他在其著作《研究工作者的统计方法》和《试验设计》等书籍中系统地介绍了他关于试验设计的精妙思想。

非常巧合的是，乔治·博克斯——罗纳德·费希尔的女婿，也衣钵了费希尔深邃的统计学思维，在试验设计、时间序列模型等领域钻深研精、大有所成，并且发表了大量重要的文章和著作，他有一句被统计学和大数据行业从业人员奉为经典的名言：『所有模型都是错误的，但有些是有用的』。博克斯在《演化式操作——一种过程改进的统计学方法》、《实验员的统计学》以及《经验建模和响应面法》等著作中系统地介绍了他对于试验设计的深刻理解，同时，他本人在帝国化学工业（ICI）实习和工作的八年时间里曾与他的同事（化学家和化学工程师们）研究探索了如何设计和分析试验以达到提升试验效率的目的，提出了如何更快速地寻找提升化学反应收率的系统性方法。

试验设计从最初应用于农业以提升亩产量，转而迅速普及推广到化学、医药、电子、机械等各行各业的生产和研发活动当中，这一过程中，各行各业的研究人员在实践中逐渐认识到了试验设计方法在优化范畴的独特优势，本文将系统地从为何试验设计？试验设计三大原则，试验设计的工作流程，为何部分因子试验？响应曲面及序贯试验策略，以及试验设计的应用场景等方面对试验设计做一个简要入门的介绍。

一、为何试验设计？——面搜索还是线搜索？

博克斯在其作品《统计学大师之路——乔治·博克斯回忆录》中曾提到，『统计学是关于如何生成和使用数据来解决科学问题。为此，熟悉科学和科学方法至关重要。在科学和技术研究中，我们经常需要研究众多变量。不妨称那些你可以改变的变量为“输入变量”或“因子”，称那些你只能进行观测的变量为“输出变量”或“响应变量”。人们曾一度认为，研究多个因子影响的系统的正确方法是每次只改变一个因子。但早在八十多年前，R.A.费希尔就向世人揭示了，这种方法效率太低，白白浪费了许多实验努力。事实上，你应该按照所谓“实验设计”的安排同时改变多个因子。然而即便在现在，每次只改变一个因子的方法仍然在课堂上被教授。』

由此可见，即使在现在，仍有一些研究者依然在采用每次改变一个因子的方式（也称之为COST，即 Change One Separate factor at a Time ，与之对应的，试验设计也称之为DOE ，即 Design of Experiments ）来寻找最优值，然而，这种一次只改变一个因子的方式明显存在效率低下、因为无法评估交互效应而容易错失最优值等缺点。

我们可以先看一下如图1所示的案例：

某团队经过研究发现，其公司某种产品化学反应的收率与反应釜压力以及催化剂添加量有很大关系，为摸索最佳工艺展开如下试验：

1）固定催化剂添加量在5kg，调整反应釜压力进行试验数次，最后得出在反应釜压力750Mpa时，收率最佳；

2）随后，固定反应釜压力在750Mpa，调整催化剂添加量进行试验数次，最后得出催化剂添加量在3kg时，收率最佳；

3）因此，研究团队认为反应釜要在750Mpa，催化剂添加量在3kg时，整体收率达到最佳。

那么，事实与这个团队得出的的结论相同吗？我们从右边通过试验设计获取的等高线图中可以明显地看出，最优点实际上发生在反应釜压力=650Mpa及催化剂添加量=3kg时，此时的收率将高于91%，而通过第一种方法得到的最佳收率估计在90%左右，由此可见，第一种方法确实存在错失最佳值的风险。实际上，从上图我们也可以看出，第一种方法实际上是一种线搜索的方式，而试验设计是一种面搜索的方式，很明显，通过面进行搜索比通过线进行搜索更高效，更容易捕捉到最佳值。同时，通过试验设计的方法，我们可以获得响应变量与因子之间非常直观的响应曲面和等高线图，可以帮助我们更好地理解响应变量随因子变化的规律。

二、试验设计的三大原则 ——费希尔的农田

通过以上第一节，我们明白了为什么DOE比COST方法更加高效，然而如何进行试验设计是一个非常重要的环节，这将直接关系到试验的效率和成败。费希尔在洛桑农业实验站工作的14年中（1919年-1933年），通过大量的试验研究总结出了试验设计的普适性的三大原则，即：

（1）重复试验；

（2）随机化；

（3）区组化。

然而有时候，一些专业书籍对这三大原则的解读会非常晦涩难懂，这里我们通过一个杜撰的故事—— 费希尔的农田，尝试从另外一个视角来解读这三大原则。

如图2，故事讲的是，费希尔在洛桑农业实验站工作时，曾做过两种稻种亩产量的评估试验，他经过严密认真的思考，最终得出了试验设计的三大原则，并一直被学界奉为经典：

① 最初费希尔的想法是，在两块稻田中分别种上A稻种和B稻种，然后去看哪一种稻种的亩产量更高，这样就可以得出评估结论了；

② 可是，费希尔是大统计学家，所以稍作考虑后，认为仅仅从一个点去做判断是不严谨的，因此，他就把左右两块田各分成4块，然后再把A和B种上去，这样不仅可以得到A和B两种稻种亩产量的平均值，而且还可以获得它们亩产量的标准差，这样比较就更加有说服力了；

③ 但是，敏锐的费希尔很快又意识到上面的试验方法还是存在缺陷，因为根据自己多年在农业实验站工作的经验，实验站农田的土壤肥沃很是不均，假设左边的农田土壤一般，而右边的农田土壤更加肥沃，如果最后得出的结论是B稻种的产量更高，那么是稻种的原因导致其产量高，还是土壤的原因导致其产量高呢？这里就产生了两种因素的混淆，所以，他经过思考之后，又重新设计了试验方法，他在左边和右边的农田分别种上A和B，那么这样A和B稻种在土壤肥沃和普通的农田上都机会均等地种上了，所以这样做得出的结果会更加合理；

④ 本来这个试验方案可以直接来进行操作了，这时，农业实验站临时接到一个新任务，要求评价新发明的机械播种机比人工播种是否更有助于提高亩产量，为了减少试验次数，要求将两种评价合并在一起，费希尔不愧是天才，他很快就找到了完美的方法来解决这个问题，他把左边和右边的农田各一半用人工播种，另一半用机械播种，这样就在不增加试验次数的情况下，非常完美地完成了这个临时接到的任务。

实际上，费希尔在上面的试验逻辑思考②、③、④里面，已经非常完整地把重复试验、随机化和区组化这三大试验设计原则创造性地应用到两种稻种亩产量的评价任务中，从而，保证了试验结果的有效性和合理性，为最后得出科学的评价结果提供了有力保障。

当然，对于区组化，有一个基本原则，即：『能区组者则分区组，不能分区组者则随机化。』

三、试验设计及分析的工作流程

以上我们已经知晓了试验设计的优越性以及试验设计的三大原则，这里我们通过一个全因子完全析因设计来介绍一下试验设计及分析的工作流程。

如图3，这是一个典型的因子设计示意图，从图中可以看出，试验设计者试图研究A、B、C三个因子对响应变量的影响，为此，设计者设计了以下试验方案，并希望通过以上试验估计以下回归方程的系数：

由以上回归方程可以明显看出一共存在8个系数需要估计，因此，需要至少次试验，类似地，如果因子数量为n个，那么我们需要做到完全析因，则需要至少次试验。

根据前面所提到的试验设计的三大原则，我们还需要进行重复试验，但是为了减少试验次数，一般选择在中心点进行3-4次重复性试验。选择在中心点进行重复性试验还有一个好处，即它可以发现模型是否存在弯曲现象，如果存在弯曲现象，则我们需要加上因子的高阶项，以构成响应曲面，通常而言，也就意味着我们基本找寻到了最优值。当然，对于出现弯曲情况，还需要增加一些试验点来对模型参数进行估计，这将在后面进行讨论。同时，我们还需要对试验顺序进行随机化处理，本案例没有区组化的要求，因此，可以直接根据此试验设计进行试验，并获得相应的试验数据。

另外，在进行因子高低水平设置时，一定要尽可能地将高低水平设置得相对远一些，否则有可能试验中的噪声就可能淹没了本来存在的显著效应。而且，试验点设置远一些，也有助于探索未知的工艺位置，具体图4所示。

在获得了试验数据后，需要开始试验设计的分析工作，它基本上按照以下流程来展开：

实际上，以上工作流程中，前三个步骤我们在一元线性回归中已经进行了非常详细的介绍，稍有不同的是，在这个回归模型中，因子（主效应）的个数大于1个，且存在二阶交互项，所以，需要对回归系数进行检验，以确定其对响应变量的影响是否显著，同时，还需要看模型是否存在弯曲或者失拟的现象，比如，我们从模型结果中看到某个主效应不显著，或者某个二阶交互效应不显著的话，我们需要将这些项剔除后，重新进行回归。

当模型经过改进已经不存在任何异常时，就可以进入了模型解释阶段，在此阶段，我们需要做两件事情：

（1）通过输出因子的主效应图、交互效应图来进一步验证和确认它们的显著性；

（2）通过输出等高线图、响应曲面来更加直观地理解响应变量随自变量变化的规律，以帮助寻找最佳设置。

接下来，我们还需要通过响应优化器来寻找最佳设置，并且判断最优值是否已经达到了原先设定的目标，如果已经达到了，并不代表工作就结束了，而是需要做进一步的验证试验，通常的做法是在最佳点做3次以上验证试验，当然，如果还没有达到原先设定的目标，则我们还需要以最佳点为中心继续安排试验设计，直至达到预定的目标为止。

四、为何部分因子试验？——分辨度与试验效率间的平衡

前面已经提到，当因子数量为n时，如果需要做完全析因设计，则至少要做次试验，简单的计算我们就可以得到，当因子数量达到5个时，完全析因设计就需要32次试验（不包含中心点），当因子数量达到6个时，完全析因设计就需要64次试验。以4个因子为例，我们给出试验设计的模型方程如下：

由此可以看出，如果做完全析因设计，除了常数项外，估计出来的主效应有4项，二阶交互效应项共6项，三阶交互效应项共4项，四阶交互效应项共1项，一共项，而这些项中，三阶及三阶以上的交互项实际上已经不具备现实意义了，因此，我们真正需要推断的参数仅有常数项、主效应项和二阶交互效应项，一共是11项，因此，希望少做实验，同时能对模型方程中的常数、一阶及二阶项系数的想法是有可能实现的。

现实工作中，由于资源和时间的限制，这种对效率和试验成本控制的需求是常见的。依然以4因子（A、B、C、D）为例，完全析因设计需要16次试验，而此时根据限制条件，只能做8次试验，那么如何去选择这8次试验是最合理的呢？根据分析可以得出，按照生成元D=ABC（定义关系为ABCD= 1 ，简称 “字”）来选择试验是最合理，这样不仅可以保证实验设计的正交性，同时，可以保证一阶主效应与二阶交互效应不产生混杂。

在部分因子试验中，也存在多个生成元（即多个字）的情况，此时，将所有字中长度最短的那个字的长度定义为整个设计的分辨度（resolution），分辨度通常用罗马数字给出，如I、II、III、IV等。前面的例子通过ABCD=1来获得8次试验安排，那么它的分辨度就是IV，这个设计方案就记为，更一般地，分辨度为R的部分因子设计记为，其中k为因子个数，而p为生成元或字的个数。

统计学家为了方便研究者使用方便，特地编制了表2的部分因子试验分辨度表，同时，在minitab或者jmp软件中，也可以通过软件直接生成部分因子试验的设计。

由以上表格可以看出，在因子数量确定的情况下，我们需要得到更高的分辨度，那么就必须要做更多的试验，所以，在实际工作中，研究者可以根据自身的需求来进行选择，使得分辨度和效率达到一种均衡。

五、响应曲面方法及序贯试验策略——弯曲下的选择

响应曲面方法（ResponseSurface Method，RSM）一般适用于以下情形：

（1）因子数量较少（通常不超过3个）的情形；

（2）需要求出响应变量最大值或最小值。

在试验设计中，响应曲面方法一般发生在筛选因子后进行全因子试验时发现有弯曲的现象的情况下，此时，需要采取的策略是在模型中加入含二次项的回归方程，以2水平为例，其一般模型可以表示为：

很明显，此时需要估计的参数增加了2个（因子的平方项的系数），那么原先的试验点就不够用了，需要增加一些试验点，再通过线性回归的方式来估计相关参数。而此时，最高效的方式就是采用序贯试验策略来增加试验点，图6显示了2种保持序贯性的中心复合设计方法。当然，在响应曲面设计还包括其它类型的方法，但是它们都不具备保持序贯性的特点，如中心复合有界设计（CCI）和Box-Behnken设计。

在增补了试验点后，就可以进行响应曲面分析了，其分析流程与前述的试验设计分析流程基本类似，这里就不再赘述。

六、试验设计在工业现场的应用场景介绍

试验设计作为一种高效的优化工具在各个行业得到广泛应用，尤其是在化工行业，研究者通过试验设计方法来提升产品配方设计与开发效率、改善生产效率、提高产品收率等等，此外，通过试验设计来提升产品的可靠性、过程的鲁棒性已经在很多行业获得了巨大的成功。

在进行试验设计中，统计思考以及研究人员的专业知识和经验（非统计知识）对于试验的成功是非常重要的。然而在做一些探索性的研究时，由于积累的知识和经验较少，需要评估的因子数量将会陡然增多，从前面讨论中可知，当因子数量变多时，完全析因设计的试验次数将呈现指数级的增长，即便是部分因子试验，试验次数依然非常之多，因此，对企业而言，将造成了较大的研发成本压力，并且影响了研发效率。国工智能在与国内万华研究院的合作项目中，国工智能的数据科学专家通过贝叶斯优化算法使得原先需要150次试验才可以完成的优化工作，降低到仅仅3个轮组共15次的试验就达到了同样的效果，然而不可否认的是，试验设计方法与机器学习算法相比，其模型的可解释性更强，这对于研究人员进行进一步的机理研究是至关重要的，同时，即便是人工智能算法，也需要前期试验设计所获得数据点的支持以做进一步的优化和实验安排。

总体而言，试验设计目前依然是化工和医药领域最为重要的一种优化工具。作为化工和医药领域人工智能决策控制领域的领跑者，国工智能一直非常重视各种统计学模型算法的开发和应用，目前其数据大脑平台已经融合了上百种统计学和机器学习算法，并在化工、医药等行业得到了广泛的应用，为国内众多企业创造了巨大的商业价值。

参考文献：

[1].《统计学》，[美]William M. Mendenhall等著

[2].《Design and Analysis of Experiments》，[美]Douglas C. Montgomery著

[3].《统计学大师之路——乔治·博克斯回忆录》，[英]George E.P. Box著

[4].《六西格玛管理统计指南》，马逢时等著

[5]. A Brief Introduction to Design of Experiments, [美] Jacqueline K. Telford.

试验设计的那些事——费希尔的试验逻辑
答：要求评价新发明的机械播种机比人工播种是否更有助于提高亩产量,为了减少试验次数,要求将两种评价合并在一起,费希尔不愧是天才,他很快就找到了完美的方法来解决这个问题,他把左边和右边的农田各一半用人工播种,另一半用机械播种,这样就在不增加试验次数的情况下,非常完美地完成了这个临时接到的任务。

实验设计法的概述
答：费希尔于1923年与W.A.梅克齐合作发表了第一个实验设计的实例，1926年提出了实验设计的基本思想，1935年出版了他的名著《实验设计法》。其中提出了实验设计应遵循的三个原则：随机化，局部控制和重复。随机化的目的是使实验结果尽量避免受到主客观系统性因素的影响而呈现偏倚性；局部控制是用划分区组的...

试验设计(DOE)的类型有哪些
答：试验设计（DOE，DESignated Operational Entity），也称为实验设计。从20世纪20年代费希尔（R.A.Fisher）在农业生产中使用试验设计方法以来，试验设计方法已经得到广泛的发展，统计学家们发现了很多非常有效的试验设计技术。20世纪50年代，日本统计学家田口玄一将试验设计中应用最广的正交设计表格化，在方...

零假设的趣闻
答：对话的第三个科学家，威廉姆·洛奇（William Roach），建议大家做个试验。（这或许其实是个科学勾搭的时刻：布里斯托和洛奇1923年结婚了。）但是如何测试布里斯托的宣称呢？费希尔和洛奇能做的最简单的事情，就是倒一杯奶茶，不让布里斯托看见，然后给她尝，看她能不能猜对是先加的奶还是先加的茶。不过...

什么是试验设计?
答：从20世纪20年代费希尔（R.A.Fisher）在农业生产中使用试验设计方法以来，试验设计方法已经得到广泛的发展，统计学家们发现了很多非常有效的试验设计技术。20世纪50年代，日本统计学家田口玄一将试验设计中应用最广的正交设计表格化，在方法解说方面深入浅出为试验设计的更广泛使用作出了众所周知的贡献。

实验设计法的介绍
答：试验设计法，又称实验设计法，是数理统计学的一个分支，指研究如何制定实验方案，以提高实验效率，缩小随机误差的影响，并使实验结果能有效地进行统计分析的理论与方法。其基本思想是英国统计学家R.A.费希尔提出的。他在罗萨姆斯蒂德试验站任职时着重指出：在田间实验中，由于环境条件难于严格控制，实验数...

什么是点红实验?
答：“点红实验”就是在小孩的鼻子上点上一个红点，给他照镜子，他能够（对着镜子）擦去自己鼻子上的红点，还能够使用“我”来称呼自己。如果不能用“我”的话，你观察刚会说话小屁孩，他妈说：“小明，过来吃饭了”。他会说：“小明来了”。而不是说：“我来了”。证明他还是把小明他自己当作一...

DOE试验设计是什么
答：DOE（试验设计）在质量控制的整个过程中扮演了非常重要的角色，它是我们产品质量提高，工艺流程改善的重要保证。通过对产品质量，工艺参数的量化分析，寻找关键因素，控制与其相关的因素。实际上，DOE在CDM项目运作过程中非常关键，它直接决定了一个CDM项目能否成功注册、产生的温室气体减排量能否获得签发及签发...

DOE培训哪家强?试验设计培训
答：天行健咨询公司DOE试验设计有两个，分别是：《试验设计（DOE）经典课程培训》和《试验设计（DOE）实用课程培训》。两门都是热门课程。【课程背景】从20世纪20年代费希尔（R.A.Fisher）在农业生产中使用试验设计（Design Of Experiment，DOE）方法以来，试验设计方法已经在农业、生物学、遗传学、工程学等...

方差分析的思想是什么?
答：方差分析的基本思想是：通过分析研究不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。方差分析的基本思想可以归纳为根据研究设计的类型，将全部测量值总的离均差平方和及其自由度分解为两个或多个部分，每个部分的变异都由某个因素的作用（或某几个因素的交互作用）引起。通过...

星空网络

试验设计的那些事——费希尔的试验逻辑

相关热门