基于语义距离的K-最近邻分类方法

产业集聚度的测算

一产业集聚度概念和测度方法产业集中度的概念：产业集中度也叫市场集中度，是指市场上的某种行业内少数企业的生产量、销售量、资产总额等方面对某一行业的支配程度，它一般是用这几家企业的某一指标（大多数情况下用销售额指标）占该行业总量的百分比来表示。产业集聚测度方法 1、集中度（Concentrion ration of industry ）行业集中度是用规模最大的几个地区有关数值(销售额、就业人数、生产额等) 占整个行业的份额来度量。计算公式为： 11n i i n N i i X CR X ===∑∑ 其中n CR 代表X 产业的集聚度，1n i i X =∑代表规模最大几个地区X 产业的销售额或者生产额、就业人数等，1N i i X =∑代表全部地区X 产业的销售额或者生产额、就业人数等。优点：计算方法简单，采用最常用的指标，能够形象的反应产业集聚水平。缺点：一是集聚度的测算季节容易受到n 值选取的影响，二是忽略了规模最大地区之外其它地区的规模分布情况，三是不能反映规模最大地区内部之间产业结构与分布的差别。 2、区位熵（Entropy index ）所谓熵, 就是比率的比率，它由哈盖特（P ·Haggett ）首先提出并用于区位分析中。区位熵，又称专门化率，用以衡量某一区域要素的空间分布情况，反映某一产业部门的专业化程度，以及某一区域在高层次区域的地位和作用等方面。在产业结构研究中，通常用于分析区域主导专业化部门的状况。计算公式为： 11E /i i ij n n i i i i q Q q Q === ∑∑ 其中E ij 表示某区域i 部门对于高层次区域的区域熵；i q 为某区域部门的有关

球面上的K 最近邻查询算法

球面上的K 最近邻查询算法张丽平a ，李松a ，郝晓红b (哈尔滨理工大学a. 计算机科学与技术学院；b. 计算中心，哈尔滨 150080) 摘要：针对球面上数据对象点集的特征和K 最近邻查询的需求，提出2种处理球面上K 最近邻查询的算法：基于查询轴的K 最近邻查询算法(PAM 方法)和基于查询圆面的K 最近邻查询算法(PCM 方法)。对2种算法进行实验比较，结果表明，PAM 方法和PCM 方法都适合处理球面上的最近邻查询问题，PAM 方法在存储量和查询复杂度方面相对于PCM 方法具有一定优势，但PAM 方法的可扩展性远低于 PCM 方法，尤其不适合处理受限查询和带方向的查询。关键词：最近邻；球面；查询轴；查询圆面；索引结构 Algorithms for K-Nearest Neighbor Query on Sphere ZHANG Li-ping a , LI Song a , HAO Xiao-hong b (a. School of Computer Science and Technology; b. Computation Center, Harbin University of Science and Technology, Harbin 150080, China) 【Abstract 】According to the characteristics of the datasets on the sphere, the algorithm of the K -Nearest Neighbor query based on the query axis (PAM) and the algorithm of the K-Nearest Neighbor query based on the query circular planar(PCM) are presented. Theoretical research and experimental results show that both the two methods can handle the problem of the K -Nearest Neighbor query on the sphere, compared with the PCM, PAM has advantages on the memory capacitance and the query efficiency, but the expansibility of PAM is poor and PCM has high scalability. 【Key words 】nearest neighbor; sphere; query axis; query circular planar; index structure DOI: 10.3969/j.issn.1000-3428.2011.02.018 计算机工程 Computer Engineering 第37卷第2期 V ol.37 No.2 2011年1月 January 2011 ·软件技术与数据库· 文章编号：1000—3428(2011)02—0052—02文献标识码：A 中图分类号：TP391 1 概述随着空间定位技术、地理信息系统和智能查询技术的发展，对空间对象的近邻查询及其变种的研究成为空间数据库领域研究的热点和难点。近年来，国内外对空间对象的近邻关系查询问题进行了大量的工作，取得了一定的研究成果[1-5]，但其主要是对二维平面中的近邻查询问题进行分析，没有进一步给出球面上的数据对象集的最近邻查询的算法，研究成果在具体应用中具有一定的局限性。本文着重对球面上数据对象点的K 最近邻查询算法进行研究。 2 球面上的K 最近邻查询算法根据球面上数据对象点的特征和K 最近邻查询的要求，本节给出基于查询轴的K 最近邻查询算法(PAM 方法)和基于查询圆面的K 最近邻查询算法(PCM 方法)。 2.1 基于查询轴的K 最近邻查询算法(PAM 方法) 定义1 设P ={p 1, p 2,…, p n }(2≤n ≤∞)为球面S 2上的对象点集，X i 和X j 分别为点p i ∈S 和p j ∈S 的位置矢量，点p i 和p j 之间的最短距离定义为通过点p i 和p j 的大圆(其中心点即为球的中心)中较小弧段的长度。这个距离用公式表达为： d (p i , p j )=arcos(T i j X X )≤π 称此距离为点p i 和p j 之间的球面距离。定义2 过查询点q 和球心o 的直线称之为q 的查询轴， q 的查询轴具有唯一性。q 的查询轴与球面相交的另一点q ’称为q 的球面对称点。以查询轴作为一维刻度轴，查询轴上的数据点到查询点q 的距离称为轴查询距离。球面上的数据点在查询轴上的投影称之为轴投影点。查询轴及查询圆面如图1所示，直线qq ’是查询轴，查询轴上的点o 3是球面上的点p 12的轴投影点。由球的性质可知，判断球面上点集之间的弧的长短可以转化为判断欧式空间内的直线段的大小。且球面上的数据对象点到查询点 q 之间的球面距离大小关系在q 的查询轴上投影后保持不变。若查询点q 的位置固定，球面上其他数据点在球面上移动，移动点到查询点q 的距离关系在查询轴上因数据点的移动而做相应变化，其变化情况与球面上的一致。球面上数据点到q 的距离大小关系及其动态距离关系的变化在q 的查询轴上可得到较好的保持。由此，可将查询点q 在球面数据集中的K 最近邻问题降维到q 的查询轴上进行处理，从而降低了查询的难度。基于查询轴的方法主要适用于球面上的数据对象点是静态或动态、查询点q 的更新频率较低的情况。图1 查询轴及查询圆面若球面S 2上数据集中的数据点是静态的，数据集的动态变化主要限于增加或删除数据点，此时可用二叉树或B 树来处理一维查询轴空间内的查询点q 的K 最近邻查询问题。当球面数据集中增加点或删除点时，相应的树索引结构可进行局部的插入或删除更新。具体算法如算法1所示。基金项目：黑龙江省教育厅科学技术研究基金资助项目(11551084) 作者简介：张丽平(1976－)，女，讲师、硕士，主研方向：数据结构，数据库理论；李松，讲师、博士；郝晓红，高级实验师收稿日期：2010-07-02 E-mail ：zhanglptg@https://www.360docs.net/doc/f7954561.html,

(完整版)产业集聚测量方法

摘要：本文介绍了目前常用的产业集聚测量方法，主要包括：行业集中度、赫芬达尔指数、熵指数、空间基尼系数、E－G指数。通过对比分析，阐述了各种测量方法的优缺点。分析认为，E－G指数是测量产业集聚比较适合的方法，但受制于数据的可获取性。关键词：产业集聚测量一、前言区域经济理论认为，产业集聚对一个地区整体产业竞争力及区域经济增长具有重要影响。因此推动产业集聚成为了许多地方政府发展区域经济的重要手段。制定产业集聚相关政策必须以实证研究为基本前提，而对于产业集聚的实证研究，一个最根本的问题是如何测度产业的集聚度水平，因为无论是单纯进行产业集聚的研究还是探讨产业集聚对经济增长、经济稳定以及其他方面的影响，它都直接影响到最终研究结论的可信程度。二、产业集聚常用的测量方法目前比较常用的产业集聚测量方法主要有：行业集中度、赫芬达尔指数、熵指数、空间基尼系数、E－G集聚指数。 1、行业集中度行业集中度是一种比较简单的指标，用来衡量某产业规模最大的前几个地区在全国所占的份额。其计算公式如下：其中IC代表行业集中度；A i代表产业A中排名第i位区域的产值或者销售额、从业人员等；N代表产业A中的地区数目。上式表明行业集中度等于产业A中规模排名前n位 (n一般取4或8)的区域企业规模之和占产业A 全国总规模的比例。由于IC主要反映行业在几个区域的集中程度，没有涉及到行业的企业数目与行业总规模之间的差异，行业集中系数就是为了弥补这个缺陷。以P表示计算的企业占行业企业总数的比例：

那么，行业集中系数 CC可表示为：行业集中度与集中系数能够形象地反映产业区域集中水平以及行业中企业数量的影响，测算方法便捷直观。然而，行业集中度指标存在一些缺点:第一，仅说明了产业分布规模最大的几个地区的情况，而忽略了其余地区的规模分布情况；第二，不能反映最大几个地区的个别情况；第三，存在选取规模最大的区域数目不同集中度结果不同的问题。因此，一般较少单独用来测度产业集聚的情况，更多的是把它作为一个辅助指标。 2、赫芬达尔指数赫芬达尔指数 (HHI)是产业经济学中衡量市场结构的一个主要指标，也可以用来衡量产业集聚程度，其计算公式为：其中A代表产业总规模，A i代表区域i的产业规模，N代表产业中的地区数目。HHI实质上是给产业中每个地区的市场份额赋予一个权重，此权重又以市场份额来代替。HHI的取值范围是[1/N，l]，取值越大表示产业地理集聚程度越高。极端情况下，如果一个产业所有的经济活动都集中在一个地区，那么该产业的HHI为最大值l；而如果该产业的经济活动均匀分布在N个地区，那么这时HHI为最小值1/N。赫芬达尔的优点是能够比较准确地反映产业地区集中程度，因为它考虑了地区数目和地区产业规模两个因素的影响；计算上比较简便，容易理解。但是赫芬达尔指数的不足在于它没有考虑其他产业的空间分布，使得不同产业之间难以进行比较。此外，这一指数没有考虑不同地区的地域面积差异，因此难以反映产业分布的实际情况。 3、熵指数熵指数的计算公式为：

产业集聚测度方法的研究综述

2008/11　总第379期商业研究　COMM ERC I AL R ES EARCH 文章编号:1001-148X (2008)11-0064-03 产业集聚测度方法的研究综述刘斯敖 (河海大学商学院,江苏南京210098) 摘要:产业集聚测度方法是产业集聚研究重要的工具,一直倍受经济学家关注。随着产业集聚理论的演变与发展,其测度方法也在不断演变与发展。对产业集聚测度方法进行输理与比较分析,以供更好地选择与运用。关键词:产业集聚;测度方法;研究中图分类号:F22419 文献标识码:B 收稿日期:2007-12-13 作者简介:刘斯敖(1975-),男,河海大学商学院博士研究生,浙江工业大学之江学院讲师,研究方向: 区域经济与产业。产业集聚作为一种重要的产业空间分布,一直以来备受经济学家的关注。从早期马歇尔的外部性和韦伯的区域经济理论开始,产业集聚的外部规模经济、溢出效应得到了广泛的研究和探讨(胡佛,1990; Fujita&Thisse,2004);以克鲁格曼、藤田昌久等为代表的新经济地理理论(Krug man,1991;Fujita etal, 1999)又提出了集聚经济的内部规模经济。中间投入品和劳动力的共享、知识的溢出(马歇尔,1890)、运输费用的节约(韦伯,1909)以及专业化分工与协作所带来的各种交易成本的降低,使产业集群成为许多国家和地区获取竞争优势的源泉(M ichael Por 2 ter,1990)。早期的研究侧重于对产业集聚定性的观察与描述,随着研究地深入,产业集聚程度与影响集聚的关键因素的定量测度开始成为区域经济学家们关注的课题。随着产业集聚理论的发展,有关产业集聚程度的测度方法不断发展与完善,经历了有集中率、区位熵、赫芬达尔指数、空间基尼系数、EG 指数等的发展过程。一、集中度(Concentri on ration of industry )行业集中度是用规模最大的几个地区有关数值 (销售额、就业人数、生产额等)占整个行业的份额来度量。计算公式为:CR n = ∑n i =1X i ∑N i =1 X i 其中,CR n 代表X 产业的市场集中度, ∑n i =1 X i 代表规模最大的几个地区X 产业的销售额或生产额、就业人数等, ∑N i =1 X i 代表全部地区X 产业的销售额或生产额、就业人数等。徐康宁、冯春虎(2003)运用指标计算了中国制造业28个行业1997年的地理集中度。在研究产业地理集聚中,CR n 也经常作为一个辅助的指标加以使用,如罗勇、曹丽莉(2005)和王子龙等 (2006)在测算制造业集聚程度和中国高科技产业集聚程度时使用了集中度作为集聚程度测算一个辅助指标进行分析。在各种测度产业集聚水平的方法中,集中度是最简单、最常用的计算指标,能够形象地反映产业市场集中水平。但是,集中度也存在不少缺陷:一是CR n 的值易受n 的影响,n 越大即选择地区越多,CR n 就会越大,二是忽略了规模最大地区之外其它地区的规模分布情况,三是不能反映规模最大地区内部之间产业结构与分布的差别。二、区位熵(Entr opy index ) 所谓熵,就是比率的比率,它由哈盖特(P ? Haggett )首先提出并用于区位分析中。区位熵,又称专门化率,用以衡量某一区域要素的空间分布情况,反映某一产业部门的专业化程度,以及某一区域在高层次区域的地位和作用等方面。在产业结构研究中,通常用于分析区域主导专业化部门的状况(崔功豪等,2003)。区位熵的计算公式为:E ij = q i ∑n i =1 q i / Q i ∑n i =1 Q i 式中,E ij 表示某区域i 部门对于高层次区域的区域熵;q i 为某区域部门的有关指标(通常可用产值、产

31.ENVI 最小距离分类阈值

徐老师：您好！我周六日休息了所以今天才看到您的邮件，抱歉没有及时答复您。您的问题: 我不明白，如果您的row total不是理解成相加的含义，改如何理解？我想知道它是由哪些数值得到的100％? 我支持您的观点，row total是应该理解成相加的含义，但是这个地方横向相加确实不得100,也不可能都是100，具体什么原因我找了好久也没有找出来，我确实不是很清楚，我需要向美国ITT公司确认一下，非常抱歉。最小距离分类的时候要设定两个阈值，这两个阈值是必须设定的，那么范围是否在0～255之间？书上写的以DN值的方式输入一个值是否是这个意思？您知道，您选择了一类感兴趣区，就有了这类感兴趣区影像DN值在各波段的均值，最小距离分类时，影像中每一个像素归为哪一类就是由像元DN值与该均值的距离来确定的。如果您不设定任何阈值也是可以的（选择NONE），系统将默认将所有的像元全部按最小距离分类。如果要对所有的类别使用同一个阈值（选择Single Value），在“Max stdev from Mean”文本框中您可以输入一个标准差。这个标准差是可以按照像元DN值和类别在各波段的均值来计算的，并不是DN值，范围也不是在0~255之间。或者在“Max Distance Error”文本框中输入一个值。这个值就是待分类像元与类别在各波段的均值之间的欧式距离，也不是DN 值，范围也不是在0~255之间，同样是需要计算的。如果在“Set Max Stdev From Mean”和“Set Max Distance Error”文本框中都设定了阈值，分类就用两者中较小的一个来判定哪些像元将被分类。一般来说最小距离法误差还是比较大的，这个方法在实际应用中不是很好，建议使用其他方法，如最大似然法、支持向量机分类法等。 best wishes! 仰满荣(Miss Yang )

南通市现代服务业集聚水平测度实证研究

南通市现代服务业集聚水平测度实证研究服务业集群化发展已经成为现代城市发展的重要现象。南通应致力于打造现代服务业产业集聚区，更好的发挥集聚效应，促进经济快速健康发展。运用改进的区位熵和空间基尼系数对南通2013年现代服务业的集聚程度进行测度，得出南通现代服务业产业间集聚水平极不均衡，行业内部各指标间协调性较差等结论，由此提出优化布局、健全机制、创新驱动以及建设服务平台等产业集聚措施。标签：南通市；现代服务业；集聚测度；空间基尼系数；改进区位熵 1研究背景现代服务业是依托信息技术和现代管理理念而发展起来的知识密集型服务业。我国经济正由“服务经济”主导进入向“现代服务业”为主导转变。现代服务业相比较传统服务业、制造业等产业有着更低的资源消耗和更高的产业关联带动性，发展现代服务业已经成为各地产业调整、提升经济发展质量的重要战略任务。参照中华人民共和国国民经济行业分类标准及经济合作与发展组织的分类标准，本文将交通运输、仓储和邮政业、信息传输、计算机服务和软件业、金融业、房地产业、租赁和商务服务业、科学研究、技术服务和地址勘查业以及文化、体育和娱乐业划归为现代服务业范畴。近年来，服务业集群化发展已经成为城市发展的重要现象。集群化，是指某个特定产业中相互关联的若干企业和机构，在地理位置上的相对集中。产业集聚能够提高生产效率、降低交易和信息成本、增强企业竞争力，促进区域经济的发展。为了追求规模经济和外部效应，更有效的满足需求，现代服务业需要更接近生产企业和消费者的需求地，另外现代服务业对信息和知识的依赖性较高，信息和知识往往形成一定空间范围的集聚，从而导致服务业相关资源、要素和企业在地理空间上的集中化。我国学者对现代服务业集聚的研究相对比较晚，随着现代服务业的不断发展，学者的研究成果日渐丰富。研究领域主要涉及形成机制、动力机制、功能作用、发展演变机制、影響因素以及集聚水平测量等。笔者通过中国知网的中国全文期刊数据库，对产业聚集度研究进行检索。以“篇名=服务业+集聚+测度（测量）”为检索词进行精确搜索，我国学者对服务业集聚水平测量的研究始于“九五”末期，利用测度模型对相关地区及产业的产业集聚度、影响因素、动力机制、区域差异分析以及与制造业集聚比较等问题进行研究。南通在“十二五”规划中明确提出建设“长三角北翼经济中心”的城市战略发展定位。南通应致力于加快发展现代服务业，推动区域协调发展，打造现代服务业产业集聚区，更好的发挥集聚效应，促进经济快速健康发展。因此有必要对南通目前服务业产业集聚水平和发展途径进行研究。 2南通服务业聚集水平测度实证研究

K-最近邻是分类器

K-最近邻是分类器算法中最通俗易懂的一种，计算测试样本到各训练样本的距离，取其中最小的K个，并根据这K个训练样本的标记进行投票得到测试样本的标记。算法的思路清晰简单，然而对于海量数据计算量过大，每个训练样本都有一个距离必须度量，耗费大量时间。 function test_knn % 二维平面两类分类问题： k应该取奇数，避免投票时正负两类的得票数相同 clear; k=10; % 最近邻居的数目 kk=zeros(k,1); % k个最近邻的标记初始值为0； num_po=100; % 正类样本：横坐标（0，1）；纵坐标（0，1） x11=rand(num_po,1); x12=rand(num_po,1); x1=[x11 x12]; y1=ones(num_po,1); % 正类标记 num_ne=100; % 负类样本：横坐标（1，2）；纵坐标（0，1） x21=rand(num_ne,1)+1; x22=rand(num_ne,1); x2=[x21 x22]; y2=-1*ones(num_ne,1); % 负类标记 x=[x1;x2]; y=[y1;y2]; num_t=20; % 测试样本 test1=rand(num_t,1)+0.5; test2=rand(num_t,1); test=[test1 test2]; for num=1:num_t for i=1:(num_po+num_ne) dis(i)=(test(num,1)-x(i,1))^2+(test(num,2)-x(i,2))^2; end for j=1:k % 赋初值 near(j)=10^5; end for i=1:(num_po+num_ne) % 求最近的K个距离并记录其标记 for j=1:k

最近邻法和k-近邻法

最近邻法和k-近邻法一.基本概念：最近邻法：对于未知样本x，比较x与N个已知类别的样本之间的欧式距离，并决策x 与距离它最近的样本同类。 K近邻法：取未知样本x的k个近邻，看这k个近邻中多数属于哪一类，就把x归为哪一类。K取奇数，为了是避免k1=k2的情况。二.问题分析：要判别x属于哪一类，关键要求得与x最近的k个样本（当k=1时，即是最近邻法），然后判别这k个样本的多数属于哪一类。可采用欧式距离公式求得两个样本间的距离s=sqrt（（x1-x2）^2+(y1-y2)^2）三.算法分析：该算法中任取每类样本的一半作为训练样本，其余作为测试样本。例如iris中取每类样本的25组作为训练样本，剩余25组作为测试样本，依次求得与一测试样本x距离最近的k 个样本，并判断k个样本多数属于哪一类，则x就属于哪类。测试10次，取10次分类正确率的平均值来检验算法的性能。四.MATLAB代码：最近邻算实现对Iris分类 clc; totalsum=0; for ii=1:10 data=load('iris.txt'); data1=data(1:50,1:4);%任取Iris-setosa数据的25组 rbow1=randperm(50); trainsample1=data1(rbow1(:,1:25),1:4); rbow1(:,26:50)=sort(rbow1(:,26:50));%剩余的25组按行下标大小顺序排列 testsample1=data1(rbow1(:,26:50),1:4); data2=data(51:100,1:4);%任取Iris-versicolor数据的25组 rbow2=randperm(50); trainsample2=data2(rbow2(:,1:25),1:4); rbow2(:,26:50)=sort(rbow2(:,26:50)); testsample2=data2(rbow2(:,26:50),1:4); data3=data(101:150,1:4);%任取Iris-virginica数据的25组 rbow3=randperm(50); trainsample3=data3(rbow3(:,1:25),1:4); rbow3(:,26:50)=sort(rbow3(:,26:50)); testsample3=data3(rbow3(:,26:50),1:4); trainsample=cat(1,trainsample1,trainsample2,trainsample3);%包含75组数据的样本集testsample=cat(1,testsample1,testsample2,testsample3); newchar=zeros(1,75);sum=0; [i,j]=size(trainsample);%i=60,j=4 [u,v]=size(testsample);%u=90,v=4 for x=1:u for y=1:i

城市化水平测度方法研究综述

基金项目石河子大学校级项目:新疆城市化水平综合评价研究(RWSK 2006-Y22)。作者简介徐秋艳(1972-),女,河南省兰考人,硕士,讲师,从事统计学及经济学的教学与研究。收稿日期2007-07-30 城市化,是当今世界上重要的社会、经济现象之一。在其各种各样的定义中,较为主要的提法是“人口向城市集中的过程”,这一过程包含了社会、人口、空间及经济转换等多方面的内容。城市化水平即指城市化发展的程度,对它的测度一般采用城市地区人口占地区人口的比重。目前国内外学者对城市化水平的测度方法主要有两种:单一指标法和复合指标法。笔者对目前国内外学者城市化水平的测定作一回顾与总结,并简要地对各种方法作一评论,使读者对这一方面的研究情况有所了解,以便明确进一步深入研究的方向。1 国外研究综述对单一指标法研究具有代表性学者如诺瑟姆把一个国家或地区的城镇人口占总人口的比重作为衡量一国或一个地区的城镇化水平。国外对于复合指标法来衡量城市化水平的系统研究的著述并不多见,大多分散于各种社会、经济发展理论中。由于发达国家已经基本完成城市化的过程,近年来甚至出现了逆城市化现象,因此对于复合指标法的研究,比较成熟的有以下几种:第一,联合国和社会事务部统计处建立的指标系统采用19个社会经济指标来考察各发达国家和发展中国家与经济、社会、人口统计变化之间的关系。第二,英国地理学家克劳克从人口、职业、居住及距离城市中心距离远近等16个指标进行分析,建立城市化的指标系统。第三,美国斯坦福大学社会学教授因克尔斯提出的现代化指标体系。该标准作为现代化的标准体系在国际上较为通行。尽管该指标体系并非直接描述城市化,但是它可以反映城市化中相当大的一部分内涵。此外,1980年经济合作与发展组织提出的社会指标体系15项,1982年英国制定的社会指标体系10项,1982年印度提出的社会指标体系7项,1986年欧洲的33个世界卫生组织成员国联合发起建立“健康城市”,提出38项目标等,也是对现代化评价指标体系的有益探索,可供借鉴。 2国内研究综述单一指标法最常用的是人口指标法,即城市人口占总人口的比重。但这种方法却存在以下问题:一是市镇的建制标准多次发生变动。由于市镇人口的多少与市镇的设置标准密切相关,不断地调整市镇的设制标准必然会导致同一地区设市(镇)前后城镇人口的统计出现差异,从而不能如实地反映出该地区城市化水平的变化。二是城镇人口统计的地域范围与城镇实体的地理界线不一致。我国城镇人口的统计是按市镇的辖区范围为单元进行的,而中国市镇的行政辖区要远比城镇的实体范围大。1980年实行的撤县建市、撤乡建镇以及市带县的体制,使统计出的城镇人口中包含了大量的农业人口,导致测出的城市化水平不真实。另外国民经济统计资料及人口普查都是以各级行政区为基本单元统计的,一旦行政区划改变,本来在实体上并没有很大变化的城市人口,在统计资料上却有了很大的变化。三是城镇人口的统计对象没有形成统一的标准。1963年以前,我国把市镇辖区内的全部常住人口都统计为城镇人口。1964年以后,规定只限于市镇辖区内的非农业人口为城镇人口。1982年以后,又把区内农业人口统计在内。1980年以后,有大量流动人口涌入城市,对城市的发展起很大作用,但是他们却不被公安部门登记为城镇非农业人口,而这部分人口无论是从事的职业上,还是在生活和集聚性上,都具有相当大程度的城市特性。有的学者曾对城市人口占总人口的比重这一指标的计算方法做出相应的修正,用以消除与实际的偏离,试图能反映一个地区比较真实的城市化水平。李文博等利用国民经济中从业人员的就业比重推算总人口中城市化人口比重。还有采用非农业人口比重指标,即某一地区的非农业人口占总人口的比重作为城市化水平评价指标。这一指标体现了人口在经济活动上的结构关系,较准确把握了城市化的经济意义和内在动因。但由于存在大量在城市从事各种各样工作的非农业人口,使该指标与实际也有很大偏离。此外,还有采用城市用地指标等进行衡量。赵燕菁将城市化看作对社会分工水平和规模的度量。在这个新的理论看来,将职业和居住的空间位置作为分析的基础本身就是不牢靠的。真正的城市化指标应当建立在分工的基础上,这种分工无论发生在什么地方都一定会推动城市化的进程。他在参与一项关于中国城市化道路的中美合作研城市化水平测度方法研究综述徐秋艳 (石河子大学商学院商务信息系,新疆五家渠831300) 摘要对国内外学者有关城市化水平的测定作了回顾与总结,并简要地对各种方法作一评论,使读者对目前在这一方面的研究情况有所了解,以便明确进一步深入研究的方向。关键词城市化;城市化水平;测度法中图分类号F291文献标识码A 文章编号0517-6611(2007)29-09407-02Summarization of Researches on Measuring Method of Urbanization Level XU Qiu 蛳yan (College of Business,Shihezi University,Wujiaqu,Xingjiang 831300) Abstract Measuring methods of urbanization level of some scholars at home and abroad were reviewed and https://www.360docs.net/doc/f7954561.html,mentary on each method was briefly conducted,which helped readers to understand the current research situation in this aspect and nail down the direction of further study. Key words Urbanization;Urbanization level;Measuring method 安徽农业科学,Journal of Anhui Agri.Sci.2007,35(29):9407-9408责任编辑曹淑华责任校对王淼

2017年中考地理试题归类及解析：“我们邻近的地区和国家”类

2017年中考地理试题归类及解析：“我们邻近的地区和国家”类 5．＜2017,绥化＞俄罗斯的首都是（） A．圣彼得堡B．摩尔曼斯克C．莫斯科D．萨马拉【考点】DD：俄罗斯的主要山脉、河流、湖泊、平原和城市．【分析】俄罗斯领土1707万平方千米，是世界上面积最大的国家，俄罗斯地跨亚欧两大洲，其工业和城市主要分布在欧洲部分．首都莫斯科位于东欧平原，既是全国最大的城市和综合性工业中心，也是俄罗斯的政治、文化和交通中心．全国第二大城市圣彼得堡是波罗的海沿岸的重要海港，符拉迪沃斯托克（海参崴）是太平洋沿岸的主要海港，摩尔曼斯克是北冰洋沿岸的主要海港．【解答】解：俄罗斯的首都是莫斯科，位于东欧平原上．故选：C．＜2017,保定＞图为俄罗斯主要河流与l月平均气温分布图，读图完成5～6题． 5．受气温影响，俄罗斯主要河流中结冰期最短的是（） A．①B．②C．③D．④ 【考点】C2：欧洲西部的主要半岛、临海、山脉和河流．【分析】俄罗斯领土1707万平方千米，是世界上面积最大的国家，俄罗斯地跨亚欧两大洲，俄罗斯的北部被北极圈穿过，俄罗斯气温较低．【解答】解：俄罗斯的北部被北极圈穿过，气温较低，俄罗斯东部有许多河流．但航运价值不高．最主要的原因是河流的结冰期长，与西伯利亚地区相比，东欧平原气候相对温和，河流的结冰期较短，图中①为伏尔加河，是选项河流中结冰期最短，航运价值最高的河流．故选：A．

6．圣彼得堡的高新技术产业发达，主要有利条件是（） A．劳动力廉价B．海运发达C．矿产资源丰富D．知识技术密集【考点】DJ：俄罗斯主要工业区和工业部分及其分布；DD：俄罗斯的主要山脉、河流、湖泊、平原和城市．【分析】俄罗斯地跨亚欧两大洲，由于俄罗斯的人口、经济、文化、政治中心主要分布在欧洲，所以说俄罗斯是一个传统的欧洲国家．【解答】解：圣彼得堡的高新技术产业发达，主要有利条件是知识技术密集即科技力量雄厚．故选：D． 7．＜2017,东营＞日本汽车制造企业到我国投资办厂，主要是因为我国（） A．劳动力丰富，人才密集B．资金雄厚，技术先进 C．煤、铁资源丰富D．拥有庞大的汽车消费人群 7.D 解析：产业转移就地域来看，在国内由发达地区到欠发达地区，在国际由发达国家到发展中国家；就产业类型来看，先转移劳动密集型产业和轻工业，进而转移资金密集型产业和技术密集型产业．我国是世界上人口最多的国家，拥有庞大的汽车消费人群，这是吸引日本汽车制造企业到我国投资办厂的主要原因。 11．＜2017,威海＞印度有“世界办公室”之称，服务外包产业发展迅速，该产业的特点是 ①信息技术含量高②利润高③资源消耗小④不需要劳动力． A．①②③B．②③④C．①③④D．①②④ 11. A 解析：服务外包产业具有信息技术含量高、利润大、资源消耗低、环境污染少、吸纳就业（特别是大学生就业）能力强、国际化水平高等特点．故选项A符合题意．故选：A． 12．＜2017,邵阳＞印度是南亚唯一掌握一箭十星卫星发射技术的国家。下列有关印度软件外包产业说法错误的是（） A．最近20 多年来，印度软件服务外包产业发展迅速 B．印度被称作“世界办公室” C．印度软件外包产业的发源地是加尔各答 D．印度发展软件外包产业的优势有英语普及、信息技术发展早、劳动力资源丰富等 12.C 解析：最近20 多年来，印度的电脑软件产业在世界上占有重要的地位，软件服务外包产业发展迅速，印度被称作“世界办公室”；印度软件外包产业的发源地是班加罗尔，印度发展软件外包产业的优势有英语普及、信息技术发展早、劳动力资源丰富等；选项ABD

产业集聚测度方法

1．赫芬代尔系数和赫希曼-赫芬代尔系数赫芬代尔系数是各区域某产业产值或就业比重的平方和，即 ∑=i i s H 2 如果所有经济活动都集中在一个区域，那么H=1最大，如果经济活动平均分布在各个区域，H=1/n 。这个系数实际上仅衡量了产业的空间分布，并没有与其他经济活动相对比较，衡量的是产业绝对集中程度。为了衡量产业的相对集中程度，赫希曼改善课赫芬代尔系数， ()2 1∑=-=m j j ij i x s HH 其中s ij 表示产业i 在区域j 中的就业或产值比重，x j 区域j 中的总就业或者产值占全国的比重。如果某产业的就业或产值的空间分布与总体经济活动是一致的，那么HH 值为零。 2．信息熵和锡尔系数信息熵原本用来测量一个系统的复杂程度。一个产业的空间分布越分散，表明这个系统越复杂；反之，产业在空间上越集中，则该系统越简单。产业空间分布的信息熵如下 ()()i ij j i ij i x x x x E /ln /∑-= 其中x ij 表示产业i 在区域j 中的就业人数或产值，x i 产业i 的总就业人数或总产值。如果某个产业全部集中在一个区域，E 值为零。锡尔系数经常用来测量收入的区域差异，也可以衡量产业的地理集中程度，计算如下： ???? ??-=∑=J x x x x T i ij J r i ij i 1log log 1 其中x ij 产业i 在区域j 总的就业或产值，x i 产业i 的总就业或总产值，J 为总区域数。 3．基尼系数基尼系数将某产业分布于其他产业对比，是使用最广泛的系数之一，计算公式如下： ik ij k j i s s n G -=∑∑μ221 其中s ij 和s ik 事产业i 在区域j 和k 的比重，μ是产业在各个区域比重的平均值，n 为区域个数。基尼系数等于洛伦兹曲线与45°线之间面积的两倍，洛伦兹曲线是基于s ij 递增排序，并将累计s ij 置于纵轴，而累计的区域数置于横轴绘制而成的。如果产业在个区域平均分布，基尼系数为0，如果产业集中在一个区域，基尼系数为1。区位基尼系数，是基于产业区位商排序计算得来， i i i x s LQ = ???? ? ?+-=∑∑+=m i j i i m i i s s x G 121 其中s i 和s j 表示某产业就业再区域i 和j 的比重，x i 区域i 内总就业的比重。 4．区位商法（LQ ）与标准化区位商法区域i 产业j 的区位商计算如下：

MATLAB中聚类分类算法中距离计算方法

样本之间的距离计算方法：给定m*n阶数据矩阵X，xs和xt之间的各种距离定义如下： 1、欧氏距离（euclidean）： 2、标准欧氏距离（seuclidean）：其中，V是n*n阶对角矩阵，第j个元素是2 S j,S是标准偏差向量。 () 3、马氏距离（mahalanobis）：其中，C是X中样品的协方差 4、绝对值距离（cityblock）： 5、闵科夫斯基距离（minkowski）： P=1时，是绝对值距离；p=2时，是欧氏距离，p=∞时是契比雪夫距离。 6、契比雪夫距离（chebychev）： 7、余弦距离（cosine）：

8、相关性距离（correlation）：其中， 9、海明距离（hamming）： 10、Jaccard距离（jaccard）： 11、斯皮尔曼距离（spearman）：其中， MATLAB中通过pdist函数计算样本点两两之间的距离，在该函数中可指定距离的计算方法类之间距离的计算方法：

注：类r是由类p和类q合并而来，r n是类r中样品的个数，ri x是类r中的第i个样品 1、单链（single）：也叫最短距离法，定义类与类之间的距离为两类最近样品的距离，即 2、全链(complete)：也叫最长距离法，类与类之间的距离为两类最远样本间的距离，即 3、组平均（average）：定义为两类中所有样品对的平均距离，即 4、重心法(centroid)：定义为两类重心之间的欧氏距离，即其中， 5、中间距离（median）：定义为两类加权重心之间的欧氏距离，即

其中，其中， r x ， s x 分别是类r 和类s 之间的加权重心，如果类r 是由类p 和类q 合并而来，那么定义为 6、离差法(ward)：定义为两类合并时导致的类内平方和的增量，类内平方和定义为类内所有样本点与类重心之间的距离的平方和，平方和的测量等价于下边的距离公式：其中，是欧氏距离， r x ， s x 是类r 和类s 的重心，r n ，s n 是类r 和类s 的元素个数。在一些参考书中，离差法没有用到r s n n 的2倍，在以上距离中用到使得两个单独的类之间的距离等于欧氏距离。 7、加权平均法(weighted average)：在两类之间应用递归定义，如果类r 是由类p 和类q 合并得到的，那么类r 与另一个类s 的距离定义为类p 与类s 距离和类q 和类s 的距离的平均以上七种距离中，使用重心距离和中间距离产生的聚类树可能不具有单调性，这种情况发生在类r 和类s 合并后与第三个类的距离小于类r 与类s 的距离。为了避免这种情况，可以使用其他方法。

k-最近邻算法在分类和预测中的应用

第一讲 k-最近邻算法在分类和预测中的应用 1 k-最近邻分类在k-最近邻算法背后的思想是建立一种对函数形式没有假设的分类方法，方程，把因变量（或回应）和自变量联系起来。我们所做的唯一的假设是，认为它是一个光滑的函数。这是一个非参数的方法，因为它不涉及在一个假设了函数形式的方程中进行参数估计，这和我们在线性回归中碰到的线性假设和系数求解完全不同。 ),...,,(21p x x x f y =y p x x x ,...,21我们的训练数据中，每个观测点（observation ）都含有y 值，这个值刚好是该观测点的类别。例如，如果我们有两个类，那么是一个二元的变量。k-最近相邻的方法是在训练数据集中动态的确定和一个新的观测点相近的k 个观测点，比如，对于点，我们希望用k 个观测点去把一个特定的观测点分到某一类中。如果我们知道函数，那就简单地计算。如果我们所有的假设是：是一个光滑函数，那么一个合理的想法就是在观测点集中寻找和它（根据自变量）相近的观测点，并从值计算出。这是一个类似于插值的思想，如同我们常用的正态分布表。当我们谈到邻居时，通常隐含着我们能够计算观测点间的距离或相异的度量，这些度量能够根据自变量得出。目前，我们局限于最常见的距离度量方法中：欧几里德距离。点和之间的欧式距离为： y ),...,,(21p u u u ^ v f ),...,,(21^ p u u u f v =f y ^ v ),...,(21p x x x ),...,(21p u u u 2222211)(...)()(p p u x u x u x ?++?+? 当讨论聚类方法的时候，我们会考虑在预测变量空间中点的距离的其它定义。最简单的情况是当k=1的情况，这时我们发现观测点就是最近的（最近邻），并且，这里是最近邻的观测点的类别。一个显著的事实是：这是简单的、直观的、有力的分类想法，尤其当我们的训练集中观测点的数目很大的时候。可以证明1-NN 的误分的概率不劣于我们知道每个类的精确的概率密度函数时误分概率的2倍。换句话说，如果有大量的数据及充分复杂的分类规则，我们最多能减少划分错误到用简单的1-NN 规则时的一半。 y v =^ y 下面我们延伸1-NN 的想法为k-NN 。首先，发现最近k 邻居然后用大量的决策规则去分类一个新的观测点。由于在训练数据中存在噪声，高一点的k 值的优点是提供平滑的分类，以便减少过拟和的风险。在典型的应用中，k 是几个或十几个单元，而不是成百上千。注意到如果k=n ，在整个观测数据训练集中的数据数目，我们仅仅预测在训练数据集中大多数训练数据的所属类别，而不管的值如何。这显然是一个过平滑的例子，除非根本就没有关于因变量的自变量的信息。 ),...,(21p u u u

铁路信号定义、分类、设置位置及显示距离

铁路信号定义、分类、设置位置及显示距离一、信号的定义信号是指示列车运行及调车作业的命令，有关行车人员必须严格执行。为此必须做到： 1．严肃、认真、及时、准确地执行信号指示的要求； 2．准确、及时地办理显示信号； 3．熟悉信号设备的性能，动作原理并熟练掌握有关信号的使用方法及显示方式。二、信号的分类 (一)铁路信号分为视觉信号和听觉信号。视觉信号的基本颜色红色――停车；黄色――注意或减低速度绿色－－按规定速度运行。 1．视觉信号：通过各种信号的颜色，形状、灯光及数目作用于人的视觉器官而传达的信号。如用信号机、信号旗、信号灯、信号牌、信号表示器，信号标志及火炬等显示的信号都属于视觉信号。 (1)按接受信号的感觉分： ①昼间信号：(从日出至日落) ②夜间信号：(从日落至日出)

③昼夜通用信号：(昼夜显示一致) 在昼间遇降雾，暴风雨雪及其他情况，致使停车信号显示距离不足1000m，注意或减速信号显示距离不足400m，调车信号及调车手信号显示距离不足200m时，应使用夜间信号。 (2)按机具可移动与否分为： ①固定信号：固定安装在规定位置的信号。 ②移动信号：在地面上临时设置的信号。 ③手信号：手拿信号旗(灯)或用手臂直接发出的信号。 2．听觉信号：通过不同的信号器具发出的各种不同音响符号，作用于人的听觉器官而传达的信号。如用号角、口笛、响墩发出的音响及机车、轨道车的鸣笛声。 (二)铁路信号按装置一般分为信号机和信号表示器两大类。信号机和信号表示器都属于视觉信号中的固定信号。信号表示器是表示信号机显示的某一信号的附加含义或表示行车人员的某种意图而设的一种装置。 1．信号机按类型分为： (1)色灯信号机：不分昼夜均以灯光、颜色和数目表示信号意义的机具。 (2)臂板信号机：昼间以臂板的位置和数目；夜间以灯