生态水文分区方法

如题所述

3.4.1 主要分区方法概述

分区的方法包括很多种,包括定性方法、定量方法以及两种相结合的方法。定性方法是根据社会现象或事物所具有的属性和在运动中的矛盾变化,从事物的内在规定性来研究事物的一种方法或角度。它以普遍承认的公理、一套演绎逻辑和大量的历史事实为分析基础,从事物的矛盾性出发,描述、阐释所研究的事物。进行定性研究,要依据一定的理论与经验,直接抓住事物特征的主要方面,将同质性在数量上的差异暂时略去。定性分区的方法主要包括传统的主导因子法、顺序法、合并法等。定量分析指分析一个被研究对象所包含成分的数量关系或所具备性质间的数量关系;也可以对几个对象的某些性质、特征、相互关系从数量上进行分析比较,研究的结果也用“数量”加以描述。近年来,随着统计科学、遥感和地理信息系统等技术的发展,出现了大量的定量区划方法,主要包括系统聚类方法、模糊聚类方法、人工神经网络方法、GIS法、综合集成法等。其中,聚类分析法对于生物学、医学、气象学、地质学以及其他一切涉及分类的学科都是适用的,经比较,本研究选取聚类分析法,并利用SP SS软件来实现。

3.4.2 聚类分析法

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

聚类分析(Cluster analysis),也称为群分析、点群分析、簇群分析等,是研究多要素事物分类问题的数量方法。聚类分析的基本原理是,根据变量(或指标)的属性或特征的相似性、亲密程度,用数学方法定量地确定样本之间的亲疏关系,并按这种亲疏关系的程度用数学的方法把它们逐步地分型划类,关系密切的归类聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有样本或变量都聚集完毕,形成一个完整的分类系统图,又称谱系图,用以更自然地和直观地显示分类对象(个体或指标)的差异(郭志刚,2001)。

聚类分析能客观地反映这些变量或区域之间的内在组合关系。它的基本特点是事先无须知道分类对象的分类结构,只需要一批地理数据,然后选好分类统计量或指标,并按一定的方法步骤进行计算,最后便能自然、客观地得出一张完整的分类系统图。其实分区过程实质上就是一个聚类的过程。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类法、有重叠聚类法和模糊聚类法等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SP SS、SAS等。下面仅就最常用的系统聚类法和模糊聚类法进行简要描述。

系统聚类分析法是目前国内外使用最多的一种方法,也称作分层聚类分析法。系统聚类的基本思想为:首先,先将n个样本各自看成一类,规定样本之间的距离和类与类之间的距离;其次,选择距离最小的一对并成一个新类,计算新类和其他类的距离;然后,将距离最小的两类合并,这样每次减少一类,直至所有的样本都成为一类为止(袁清珂等,1995)。其原则是同一类中的个体有较大的相似性,不同类中的个体差异则很大。系统聚类符合区划的基本原则,是区划工作中最常用的定量分析方法。常见的距离有绝对值距离、欧氏距离、闵可夫距离、切比雪夫距离、马氏距离、兰氏距离。类与类之间的距离有很多定义的方法,主要有:类平均法、重心法、中间距离法、最长距离法、最短距离法、离差平方法、密度估计法。

模糊聚类分析法是采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法,模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属性的中介性,即建立起了样本对于类别的不确定性描述,更能客观地反映实际事物,从而成为聚类分析研究的主流。模糊聚类分析所讨论的对象,事先没有给定任何模式供分类参考,要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别尽可能大,类内之间的数据差别尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。模糊聚类分析的基本过程:①计算样本或变量间的相似系数,建立模糊相似矩阵;②利用模糊运算对相似矩阵进行一系列的合成改造,生成模糊等价矩阵;③最后根据不同的截取水平λ对模糊等价矩阵进行截取分类。

从分析方法上来说,本书采用系统聚类分析法(Hierachical cluster analysis)。系统聚类有两种形式:一是对研究对象本身进行分类,对样品进行聚类,称为Q型聚类;另一种是对研究对象的观察指标进行聚类,称为R型聚类。根据生态水文区划的特点,本书中应用的为Q型聚类。利用SP SS软件可以很方便地进行聚类分析,其聚类步骤如下:

3.4.2.1 指标选择

聚类分析的对象是样本,样本由能反映出其特征的若干指标来表征。聚类分析的效果很大程度上取决于样本与聚类指标的选择。指标指的是根据研究的对象和目的,能确切地反映研究对象某一方面的特征依据。所选取的指标应具有代表性、适应性、可测性和独立性,且指标间应具有明显的差异性(曲永玲等,2005)。

3.4.2.2 数据标准化

区划指标选定后,由于指标的量纲、数量级和数量变化幅度的差异,就会将不同性质、不同量纲、不同数量变化幅度的数值统计在一起,将有可能突出某些数量级特别大的指标对分类的作用,而压低甚至排除了某些数量级较小的指标对分类的作用,从而使各指标以不等权参加运算分析。为了避免这些弊病,常对数据进行适当和必要的处理以及变换,从而消除量纲的不同,并使每一指标都统一在某种共同的、相对均匀化的数值范围内,即对数据进行标准化处理。

数据的标准化也叫数据的无量纲化、规格化,是通过简单的数学变换来消除各指标量纲影响的方法。SP SS软件聚类分析菜单中提供了以下四大类指标无量纲化的处理方法(韩胜娟,2008):

一是极值化方法。在SPSS软件中提供了式(3.1)~式(3.3)三种极值化方法:

南水北调中线工程河南受水区生态环境效益评估

即每一个变量值除以该变量取值的全距。标准化后将各变量的取值范围限于-1~1之间。

南水北调中线工程河南受水区生态环境效益评估

即每一个变量值与最小值之差除以该变量取值的全距。标准化后将各变量的取值范围限于0~1之间。

南水北调中线工程河南受水区生态环境效益评估

即每一个变量值除以该变量的最大值。标准化后使各变量的最大值为1。

极值化方法对变量数据无量纲化是通过利用变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,通过改变变量在分析中的权重来解决不同度量的问题。此方法在对变量无量纲化过程中仅与该变量的最大、最小值有关,这使得此方法在改变各变量权重时过分依赖2个极端值。在使用时应谨慎对待该数据中的极端值。

二是标准化方法,也就是每一个变量值与其平均值之差除以该变量的标准差。无量纲化后,各变量的平均值为0,标准差为1,从而消除了量纲和数量级的影响,可详细表示为:

南水北调中线工程河南受水区生态环境效益评估

式中:X′ij——第i个样本的j变量标准化以后的值;

Xij——第i个样本的j变量的值;

Xj——第j个变量的算术平均值,

Sj——第j个变量的标准差,

经过标准差标准化变换后即变为:

南水北调中线工程河南受水区生态环境效益评估

第二类方法,即标准化法是目前使用最多的一种方法。在原始数据呈现正态分布的情况下,利用该方法进行数据无量纲处理是比较合理的。

三是均值化方法,即每一个变量除以该变量的平均值。标准化后各个变量的平均值都是1,标准差为原始变量的变异系数。

南水北调中线工程河南受水区生态环境效益评估

该方法在消除量纲和数量级影响的同时,保留了各变量取值差异程度上的信息,差异程度越大的变量对综合分析的影响也越大。

四是标准差化方法,即每一个变量除以该变量的标准差。无量纲化后各个变量的标准差都为1。

南水北调中线工程河南受水区生态环境效益评估

它与标准化方法的差别仅在无量纲化后各变量的均值上,标准化方法处理后各变量均值为0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值,即变异系数的倒数,这将会对分析产生一些错误信息。

由于本研究选取的生态水文区划指标来源不同,量纲和数量大小不一致,变化幅度也不一样,所以不具有可比性。如果直接用指标值进行计算,就会突出绝对值大的变量的作用而减弱绝对值小的变量的作用。在进行统计分析计算前,必须对数据进行标准化变换,用以消除它们之间的差异,平衡各指标的作用。由于生态水文区划时需要尽量保留实际值中的数值关系,则通过以上研究,SP SS软件可用的指标标准化方法中最适合本研究的就是第二种——标准化方法,所以本研究选用此方法来进行数据标准化。

3.4.2.3 距离的计算

通常使用距离来衡量2个对象之间的相异度,即定义单元间的距离。常用的距离度量方法如表3.1所示。

表3.1 常用的距离度量方法表

选择不同的距离,聚类结果会有所差异。目前,并没有明确的原则或理论为基础来选择标准化方法和相似性度量的方法。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类。经比较分析,本书选择欧氏距离平方法。

3.4.2.4 聚类方法选择

聚类结果的好坏取决于该聚类方法采用的相似性比较方法,选择的聚类方法应能再现内在的分类组,且对一个数据组内的错误或异常值比较敏感。

系统聚类的相似性(类与类之间的距离)比较方法有许多种,例如最长距离法(两类之间的距离用两类间最远样本的距离来表示,它是空间扩张的)、最短距离法(两类之间的距离以两类间的最近样本的距离来表示,它是空间压缩的)、重心距离法(两类间的距离以重心之间的距离表示,具有非单调性)、类平均法(两类间的距离平方以各类元素两两之间的平均平方距离来表示,具有空间保持及单调性)和离差平方和法(两类之间的平方距离用两类归类后所增加的离差平方和表示,聚类过程中使类内各指标的方差最小,类间的方差尽可能大,也具有单调性)等。

据研究,类平均法和离差平方和法能充分利用各样本的信息,是类型合并和区划中较好的方法,因而作为分区的主要方法。通过比较分析,本研究采用离差平方和法。

3.4.2.5 聚类数目确定

根据聚类要求,选择聚类数目。根据一定的阈值可以把研究对象分为若干区域,研究区域对象不同,区域大小不同,阈值必定有所不同,所以阈值的确定需要结合研究对象和目的加以确定。

3.4.2.6 聚类结果解析

根据聚类分析得到的谱系图,需要人为的加以解析和调整。聚类分析是把不同的分区单元组合到一起,但这种分析是一种类型合并,结果可能并不符合区域共轭原则。这就需要研究人员根据区划的原则和研究对象的特征进行调整,进而得到需要的结果。计算机只是辅助区划研究的重要工具,研究者必须结合研究对象对计算机运行结果加以辨别、调整和筛选。

3.4.3 建立指标体系

科学合理地建立指标体系是划分生态水文区的理论依据,是进行聚类分析的基础。指标体系的确定和各个指标的选取应以尽可能地反映出不同区域生态水文系统的分异性规律为原则。生态水文系统的结构、功能及其形成过程是极其复杂的,它受多种因素的影响,是各个因素综合作用的结果。因此,研究过程中在选取生态水文区划分的指标时,应在综合分析各要素的基础上,综合考虑,抓住其主导因素,这样既可以把握住不同区域生态水文系统的本质,又不会使指标体系过于繁杂或重复。

根据生态水文区划的理论基础和原则要求,建立南水北调中线一期工程河南受水区生态水文分区指标体系。确定其生态水文分区的要素主要包括自然要素、土地利用要素、社会经济要素和水土流失要素,并将生态水文区划指标体系分为4 个层次,分别为目标层(A)、要素层(B)、因子层(C)和指标层(D),各层次的因素分析如下:

1)目标层(A)。建立生态水文区划指标体系是生态水文区划的基础工作和关键步骤,体系综合了影响生态水文的各项主要因素和因子,系统反映了自然、土地和水土流失对生态水文的作用。

2)要素层(B)。要素层是生态水文各影响因素的综合体现,其包括自然要素(B1)、土地利用要素(B2)、水土流失要素(B3)。

3)因子层(C)。因子层包括地形因子(C1)、气候水文因子(C2)、各类用地比例因子(C3)、水土流失强度因子(C4)。

4)指标层(D)。指标层是生态水文系统各影响因素的具体体现,根据区域具体情况进行选择确定。地形因子主要包括平均海拔等指标;气候水文因子主要包括年地下水埋深、多年平均降水深等指标;各类用地比例因子指各种土地利用类型的面积比例,包括水域占土地总面积比例、耕地占土地总面积比例等指标;水土流失强度因子主要包括轻度以上土壤水蚀面积比例等指标。

表3.2列出了生态水文区划体系前3个层次的结构组成。

表3.2 生态水文区划指标体系结构表

3.4.4 生态水文分区过程

本书采用系统聚类方法进行生态水文分区。系统聚类利用SPSS(Statistical Program for Social Science)的聚类分析功能来实现。生态水文分区的方法步骤为:首先按区划单元收集数据,运用统计分析软件对各项指标进行数据标准化并进行系统聚类分析,生成各要素的聚类树状图,并对聚类结果加以合理的调整,最后生成生态水文区划图,分区过程如图3.1所示。

图3.1 生态水文区划方法步骤图

Fig.3.1 Step chart of eco-hydrological regionalization

温馨提示:答案为网友推荐,仅供参考

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网