如一百次来的准确,而抛掷无穷多次后,得到的结果也就愈发趋近于50%,不过这是在结果只有两种可能的前提下。
假设硬币变为骰子,那么即使抛掷一百次后也不见得能得出一个误差在可接受范围内的值——也许一百次里,两点只出现了5次,而四点却出现了30次,与概率所代表的16.67次相差甚远,说到底是样本基数太小而造成的。
如今,他们要计算的是高级变异人血液的阴阳性转换概率——红细胞的数量千千万万,每一个细胞都是一枚硬币,所有变量叠加起来的可能性是相当可观也相当可怕的。所以就连坚信血液变化绝对有一定规律可言的医生,也保守表示这一万五千小时的观察数据,可能只是一个起点。
幸运的是,在计算开始的当天下午,他们就得到了第一条公式。
得到公式后冯伊安没有太早高兴,他随手节选了几份血样变化数据对公式进行了验证——只有一条通过,其他都失败了。于是他又仔细查看了验算过程,夜愿又复查了一次——的确是由三条数据链条的共性推导出来的没错。
“医生,我想会不会是这样……”夜愿说,“高级变异人的血样变化规律并不是一条宏观的真理规律,而是多个规律组合而成的复合公式,也就是说,咱们现在推导出来的这个‘公式A’是正确的,但它不是一个充分必要、亦或是唯一的公式,而只是大公式的一个部分。”
安息露出呆滞的样子,半张着嘴瞧他。
冯伊安却听懂了,问:“那我们要怎么知道这条‘公式A’作用于什么条件、和什么范围之上呢?”
夜愿几乎没有多做犹豫,便说出了答案:“分区。”
这一万多小时的原始数据从根源上来自二十五名高级变异人,这对于数据查找和计算来说是一个自然分区,有了这一层分区后,查找效率会得到显著的提升。
这好比你有一栋一百层高的楼和两个小球,已知小球在楼层X处下落会正好摔碎,而在楼层X-1下落则不会摔碎。为了找出这个X值,最笨的方法自然是从一楼起一层一层地试上来。但是,如果有了分区的概念在前,对这个命题的第一层优化便可以是——从五十楼高处丢下一个球,如果球碎掉,说明所需区间在0至50层之内。这样一步简单的分区,效率便已经提升了一倍。
夜愿说:“以前帮主人汇总数据的时候经常用到这个优化概念,每个月全虚摩提各地反馈回来的财务数据庞大,经常需要在千万级的数据库里进行检索,挨个查找验算是不现实的,就像咱们现在。目前只有一万多个小时的记录,以后血样变化的原始数据库更加庞大,我们还要做更加细致的分区。”
这下子不只安息两眼转圈圈,来找他玩的米奥更是听了两分钟后果断逃走了。
搜索的提交是按输入法界面上的确定/提交/前进键的