2014年全国统计建模大赛获奖论文一等奖1-7 一种基于网络爬虫技术的价格指数计算模型
基于R语言爬取电商数据的价格销售分析

目录1 绪论 (3)1.1 研究背景及意义 (3)1.2 国内外研究现状 (3)1.3 本文研究内容 (4)2 相关技术简介 (6)2.1 网络爬虫定义 (6)2.2 R语言简介 (6)2.3 Scrapy框架 (8)2.4 数据挖掘技术介绍 (8)2.4.1 日志挖掘 (8)2.4.2 数据挖掘分析的过程 (10)2.5 Heritrix简介 (11)3 系统分析 (12)3.1 系统可行性分析 (12)3.2 功能需求分析 (12)3.3 系统流程分析 (13)3.4 性能需求 (14)4 系统设计 (16)4.1网络爬虫的模型分析 (16)4.2网络爬虫的搜索策略 (16)4.3网络爬虫的主题相关度判断 (18)4.4 网络爬虫设计 (20)4.5 功能实现 (22)5 总结与展望 (29)参考文献 (30)致谢 (32)1 绪论1.1 研究背景及意义随着网络的发展,越来越多的资源出现在人们面前,这时候人们就需要一种查询这些资源的方法,一种可以方便快捷获取自己想要的东西的方法。
这时候搜索引擎这种搜索工具就出现了。
网站拥有了较多内容后,首先考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心。
这时,搜索引擎的优势就体现出来了:可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户;和基于目录/分类的树形结构不同,基于关键词检索还可以让内容之间实现网状的关联结构,已经出现了许多类似的搜索引擎。
针对搜索引擎广阔的应用前景以及分析国内外搜索引擎的发展现状,根据全文检索系统的工作原理设计一种基于Internet的全文搜索引擎模型,它可以从互联网上获取网页,建立索引数据库,并采用数据库管理作业和多线程技术以提高全文搜索的性能和效率,从技术上可以适用于任何有搜索需求的应用。
1.2 国内外研究现状网络爬虫,又称为Robots或Spiders,几乎与网络同时出现。
2014第七届认证杯数学中国数学建模网络挑战赛第一阶段成绩初稿(5.11)

队号所选题目成绩获奖等级简短评语参赛组别队员甲队员乙队员丙本科组方沛吴梦茹张肖1439A题60优秀奖模型表述完善本科组张莞玲年华徐梦伟1492A题81一等奖主要基于层次本科组朱翰希尚运动刘殷成1513C题60优秀奖模型未完成,1517C题75二等奖模型对于问题本科组邓扬罗翔燕刘帆本科组栾伟东潘鹏程代伟1520A题79二等奖单一考虑层次本科组张玉何娜宋雯1521A题77二等奖对轮胎滑水性本科组刘梦婷胡璨郝诗红1539A题81一等奖建立一元回归本科组付帅孙永威张咪咪1540B题75三等奖该文思路比较本科组徐宇轩周超陈挚1541C题75二等奖聚类分析用的本科组束云霞许梦宇程鹏1545C题62优秀奖层次分析中考本科组陈梦珂蔡雪飞周晓苏1552A题60优秀奖噪声模型和排1553A题50优秀奖似乎全文来自本科组郭文伟刘越王昌海本科组陈雨安胜男张玲平1554C题60优秀奖评价因素的权1555A题72二等奖总体表述尚可本科组许莉萍宋艺旋洪粼本科组周健王玲凤吕丹妮1556A题60优秀奖问题一的分析1561A题60优秀奖P5图1无实质本科组朱运良张雨农吴安琪本科组邓路黄国荣李晓琳1562C题75二等奖运用机理分析本科组缪灵均魏惠敏王晨睿1563C题75二等奖使用模糊综合本科组魏光辉侍冰雪汪永1571C题75二等奖风险中影响的本科组马洋洋李婷李丹1572C题75二等奖利用综合分析1573C题80一等奖模型分析部分本科组程倩倩徐俊杰房勇本科组张童莲罗和静张芮1574C题65优秀奖摘要抓不住重本科组王恒张大江王文利1577C题60优秀奖风险变异的得本科组万燕周王玉坤孔志伟1578A题78二等奖利用层次分析本科组张沛文刘一鸣何亚男1579A题79二等奖建立噪音排水本科组许铭刘芸瑾朱芸芸1580C题80一等奖综合评价体系1585A题75二等奖数据分析较全本科组武莹唐慧何焦焦本科组周冠宇章春芳李瑞丽1592C题60优秀奖问题分析过程本科组陈怡静熊忆嘉高维静1605C题78二等奖层次分析时,1683C题60优秀奖文中对模型的本科组陈鑫张晨琛王正宏本科组储彬姜聪陈徐明2040C题80一等奖在原始数据处本科组颜博董丽姚志2249C题60优秀奖问题二中定义本科组曾知文王艳贾晨曦2285C题70三等奖文中建立了对本科组李瑞雪刘思玢赵晶晶2368A题70三等奖文中针对轮胎本科组许文祥施婷宋凯艺2487C题60优秀奖在计算盈亏平2487A题55优秀奖本文建立了本科组许文祥施婷宋凯艺本科组陈钰孙婉悦韩井芳1461C题73三等奖文中建立综合本科组宋紫君王芳马盼盼1462C题74二等奖构建层次分析本科组贾立红李梦茜张琤1471C题75二等奖对几个重要因本科组秦新龙王苒方佩1474A题71二等奖数据选取较全本科组董梦瑶吴思杰万云璐1479C题72三等奖使用多元统计本科组洪光昊王洪飞黄怿晟1069B题84一等奖模型结构合理本科组常世元张少伟朱定刚2675B题72三等奖对图形边缘的本科组周国林司文静苏春雷3951A题52优秀奖本文模型不够本科组李安然余欢欢周涛3952C题50优秀奖模型不够清晰本科组王若陶军军秦少生3953C题55优秀奖论文不够完整本科组姜盼盼徐自涵张千3954C题62优秀奖模型不够清晰本科组王楠徐进李保震3955C题60优秀奖论文的格式达本科组杨裴兵杜运兵祝现礼3956C题60优秀奖模型不够清晰本科组黄栋才孙绪绪许冠军3957C题70三等奖利润率肯定是本科组邵冬贵康瑞华朱明明3958C题60优秀奖模型评估时,3959C题60优秀奖建模工作做的本科组杨杨薛敏范冬冬本科组王似江董玉凤郭辉铭3960C题60优秀奖回归分析中,本科组储海龙高梦萍张强3961B题75三等奖本文给出了简3962D题74优秀奖对于题意理本科组耿婷婷方涛涛盛夏3963D题72优秀奖对于题意理本科组张文力陈晚前赵双红本科组薛敏孙孝于邢明明3964D题75三等奖对于题意理解本科组胡孟君李萌张家伟3965B题60优秀奖这是一个只对本科组涂友丽张通李文静3966A题50优秀奖基本描述了花本科组刁杰举杨宁宁孔德礼3967C题70三等奖文中对处理本本科组张雪梅张成辉高宏专3968B题68优秀奖本文给出了简本科组孙玉龙赵月然芮圣超3969B题57优秀奖本文只是给出本科组章蕾蔡忠雅李孟芳3970B题70三等奖本文中给出了本科组胡亮亮王亭杨东锦3971B题56优秀奖本文模型不够本科组潘传辉郎年何迎春3972B题70三等奖本文中给出了本科组金婷李斌刘应3973A题52优秀奖本文模型不够本科组杜冰洁王艺腾朱斌3974A题50优秀奖文中生硬的列本科组刘欢张鼎佩任义3975A题52优秀奖本文模型不够3976A题56优秀奖本文建立了本科组丁绍军司继申杨刘本科组梅芳占海军周红剑3977A题57优秀奖本文建立了轮本科组黄庆柏淑婷程小益3979B题72三等奖本文给出了简本科组盛晨王伟夏雅娟3980A题80一等奖讨论不同花纹3981A题60优秀奖本文简要分本科组周慰邓迪郑新军3982A题60优秀奖本文简要分本科组姚晓军宋春雷王子康本科组欧阳阿林王春峰张月洋3983C题72三等奖采用了单级模本科组凌燕袁梦徐建于3984B题75三等奖该文思路较好本科组宋丽舒生茂陈伟宁3985B题78二等奖图像边界模型本科组马德张磊潘婷3986B题70三等奖分治的思路是本科组郑汉陆伟丰惯珉3987B题79二等奖模型推广中提本科组戈梦琦高龙席爽爽3988C题75二等奖用spss将主要本科组韩佳佳孙亮马志远3989B题79二等奖思路是正确的本科组徐兰李红左晓彤3990C题73三等奖分别建立了模本科组黄莹莹李虎张学友3991A题75二等奖模型假设合理本科组刘霄曹俊荣梦雨3992C题70三等奖使用敏感性分3993A题62三等奖本文简要分本科组高雅陈超罗杰本科组肖联波郜雪洁张新3994B题65优秀奖本文中给出了3995A题45优秀奖主体5.1部分本科组张岑岑肖雄马宏雷3996C题75二等奖回归分析部分本科组岳占伟刘恪张莉3997A题60优秀奖本文简要分本科组李晶晶刘晶晶林傲本科组李懂钱钢龙贺3998A题68三等奖虽然讨论了花本科组谢实海李岩松王慧3999A题72二等奖文中能够概括本科组路安心周国林司文静4000A题60优秀奖文中大量引用本科组苏春雷李安然余欢欢4001A题70三等奖轮胎花纹的设4002A题60优秀奖平均流量模型本科组周涛王若陶军军本科组秦少生姜盼盼徐自涵4003C题65优秀奖建模方法有些本科组张千王楠徐进4004A题61三等奖粗略的对模型本科组李保震杨裴兵杜运兵4005A题64三等奖本文建立了轮本科组祝现礼黄栋才孙绪绪4006A题70三等奖噪声中的数据本科组许冠军邵冬贵康瑞华4007A题60优秀奖模型一做的很本科组朱明明杨杨薛敏4008A题70三等奖平均流量模型本科组范冬冬王似江董玉凤4009A题73二等奖论文主要考虑本科组郭辉铭储海龙高梦萍4010A题72二等奖全文写作相对本科组张强耿婷婷方涛涛4011C题60优秀奖模型结果分析本科组盛夏张文力陈晚前4012A题75二等奖文中建立三种本科组赵双红薛敏孙孝于4013A题78二等奖主要从单一噪本科组邢明明胡孟君李萌4014A题72二等奖对抓地力和轮4015A题61三等奖关于轮胎花纹本科组张家伟涂友丽张通本科组李文静刁杰举杨宁宁4016C题70三等奖与模糊综合评本科组孔德礼张雪梅张成辉4017C题70三等奖分开评估对模本科组高宏专孙玉龙赵月然4018A题73二等奖文中虽然讨论4019A题75二等奖抓地力,耐磨本科组芮圣超章蕾蔡忠雅本科组李孟芳胡亮亮王亭4020A题72二等奖考虑轮胎滑水4021A题70三等奖本文建立了本科组杨东锦潘传辉郎年4022C题60优秀奖文中结构条理本科组何迎春金婷李斌本科组刘应杜冰洁王艺腾4023A题79二等奖讨论附着力等本科组朱斌刘欢张鼎佩4024C题60优秀奖效益成本等指4025C题60优秀奖回归模型应对本科组任义丁绍军司继申本科组杨刘梅芳占海军4026C题80一等奖文中对数据的本科组周红剑王美娟王康4027C题68优秀奖以预期收益为本科组张小燕柯兴隆佘培亮4079C题71三等奖运用了层次分本科组邵叱风张凤竹金玲玲4283C题60优秀奖模型的风险评本科组王士纯周寰章健2891B题70三等奖该文思路比较本科组祖祎婷宛艺胡劼1472C题74二等奖主要建立了模本科组廖梦雨刘春英陆红丽1145C题76二等奖文中对模型二本科组夏松林杨傲王苗1455C题66优秀奖判定各个变量1457C题60优秀奖灵敏度分析做本科组孔雪雪罗兴晨方来丽本科组谢瑞瑞施春红毛卓1468A题80一等奖整体模型建立本科组陈洁苗晴陈龙1469C题75二等奖采用无量纲化1470A题70三等奖误差分析只是本科组陈蓓蕾宋灿灿王乐本科组齐瑾吴君茹刘小钰1473C题73三等奖利用多元线性本科组孙文康吴丹丹朱慧君1484B题76二等奖该文思路比较本科组张浩宇卢详远张晓静1485C题65优秀奖模型一需要用本科组张兴皖黄婷婷王雪琪1486A题80一等奖采用了类比分1487C题60优秀奖文中提取的4本科组张衍林叶龙生甄瑶瑶本科组伍淑惠李慧玲沈龙泉1488A题75二等奖摘要过于简单1489C题79二等奖文中图例分析本科组许冬梅周杰李学成本科组施展汪思铭陈媛媛1490A题80一等奖利用层次分析本科组郑宇强洪文姗徐义青1491C题60优秀奖构造矩阵时应本科组周小伟李哲陈莹1493B题86特等奖该文分析细致本科组焦雅婷夏蓉尹伊群1494A题81一等奖文中将资料中本科组蒋婷李坤星徐霞明1495A题68三等奖数据来源无任1496A题77二等奖考虑回归拟合本科组杨劲松石正新王忆曼本科组刘鑫高媛媛尹世超1497A题76二等奖选取花纹面积本科组赵晶晶王立凤吴飞1498A题79二等奖前两个利用常1499C题73三等奖使用AHP等方本科组宋辞章启明黄雅楠本科组解晶晶马明坤楚兴元1500B题75三等奖使用软件来提本科组汤忠玲汪晓黄伟业1501A题77二等奖采用曲线拟合本科组李峻山尹彤李祥宇1503C题80一等奖文中由模型为本科组刘茉莉蔡钰程瑶瑶1504B题75三等奖方法比较简单本科组吴诗行段智中朱浩东1505C题60优秀奖模型对数据的1506C题70三等奖确立6个相关本科组王海林王方元武海殷本科组王海林王方元武海殷1506C题77二等奖模型分析和数本科组李娜肖聪刘浩1507C题60优秀奖模型对接风险1508C题82一等奖模型建立过程本科组张翔徐露露董玉林本科组马馨悦葛辉凡甲甲1510B题78二等奖文中对于一般本科组李昕程若吴涛1511A题84一等奖文中很好利用1512C题70三等奖借助因子分析本科组张瑶熊梦瑶周秒1514A题65三等奖问题1引用过本科组卞恒良李琼王振杰本科组陈天骄汪良晨徐贤丽1516A题76二等奖研究不同花纹本科组宋慧茹屈静朱思雨1518C题60优秀奖多元回归分析本科组朱勇胡学峰刘雅倩1519B题86特等奖该文思路清晰本科组张岗岗刘泽华徐静1522C题80一等奖在建立模型初本科组林超丹辜齐杨睿智1523C题66优秀奖收益性风险引本科组黄奇秦维国童昊1525C题60优秀奖建模过程需要本科组周越付家田张涛1526C题60优秀奖未对模型进行1527A题60优秀奖问题三的模型本科组赵婉茹童易成朱晓煜本科组冯传朋束祖忠刘红杉1528A题70三等奖问题1利用C程1530C题65优秀奖模型一的建立本科组徐重栋李诗远陈聪本科组纪元昕王茜瑶赵美中1531C题81一等奖文中数据处理1532C题74二等奖以八大指标进本科组刘雅洁陶世红徐孝琳1533C题80一等奖后半部分的讨本科组朱韶东詹洪敏石舍玉本科组方昌芳金颖颖董莹莹1534A题60优秀奖讨论尚佳,模1535A题76二等奖模型I中数据本科组胡柱斌金满娟胡嘉嵘本科组汪亚楠曾淑娴朱国燕1537A题77二等奖使用层次分析本科组周苑苑乔玲王虎1538C题60优秀奖问题二中求解本科组魏慧茹陈媛刘亚楠1543A题80一等奖研究数据拟合本科组丁书敏焦瑶彭壮壮1546C题79二等奖文中数据处理本科组葛玉峰刘思繁赵店1547A题78二等奖利用类比法等1548C题81一等奖使用均值方差本科组王浩豫罗赧李孟莹本科组江涛张腾飞宋阳琴1549C题60优秀奖文中对误差和1550C题72三等奖利用层次分析本科组吴秀盟张岩如汪胜本科组许明功蔡文辉汪毅1551C题70三等奖对主成分分析本科组方一伟徐振强陈嘉睿1557C题60优秀奖对问题的检验本科组翁新新杨露王伟1558A题55优秀奖考虑问题单一1559C题60优秀奖文中对问题二本科组虞玥朱缓缓方园园本科组夏梦云杨华玉谢羽纶1560C题60优秀奖模型二是单一本科组吴晗林健范雨雨1564A题50优秀奖摘要内容太少本科组陈伟强陈森森李俐芸1565A题82一等奖论文利用层次本科组唐健张雪段海漪1566C题70三等奖模型汇总定义本科组李露平许冬梅周立敏1567A题40优秀奖全文无任何实本科组胡超群张倩倩李剑锋1568B题77二等奖边缘提取的效本科组黄瑞瑞欧凯丽徐一帆1569A题60优秀奖虽然有参考文1570C题74二等奖建立风险评估本科组郭子豪杨乐鹏崔健本科组余剑秋曹喆赖秋平1575A题80一等奖给出多种模型1576C题76二等奖文中对模型其本科组张雪周卉支援援本科组夏凤艳缪萍萍徐王忠1581C题62优秀奖模型在确定指本科组江晓露李子贤翟浩1582C题79二等奖综合评价不应本科组高莽陈家欣莫双1584C题79二等奖文中图例清晰本科组潘维宁胡婧昀吕婕1586C题79二等奖文中对问题二本科组王彦玲张俊赵雪利1587C题60优秀奖在整理各个影1588C题74二等奖似乎没有做出本科组赵思怡黄泽华梁轶本科组刘敏张元钰周思敏1589C题60优秀奖文中流程图清1590A题60优秀奖文中一共5篇本科组邵笑孙丹孙嫦婷本科组余珊珊吕晨王天琛1591A题78二等奖以轮胎特性为本科组侯丽朱一凡朱妍1594C题60优秀奖文中对模型结1595C题68优秀奖对层次分析和本科组陈星明韩越叶宇昊1596C题50优秀奖摘要过于简单本科组刘紫瑜管弦余道伟1597B题80二等奖该文对问题理本科组施文君邢亚楠汪宁丽本科组曹燕韩情汪敏龙1599C题60优秀奖计算临界点需1600C题60优秀奖问题一定 综本科组王青青时韩荣方一婷本科组张俊杰梁宪飞陈超1601A题40优秀奖仿章鱼模型完1602A题50优秀奖有很多雷同的本科组程龙陈伟健雷德志本科组潘恒孙远李敏1604A题62三等奖文中采用所谓本科组刘润泽汪攀攀卢楠楠1606A题70三等奖文中主要围绕1607C题73三等奖采用灵敏度等本科组陈雨佳汪诚赵孙龙本科组关玉婷李松宇张海峰1617A题58优秀奖全文模型来自本科组石大伟郭明珠凌中萍1658B题79二等奖该文考虑问题1716C题86特等奖文中模型准备本科组马可许亚东刘元志本科组黄异芳范芹芹孙礼科1811C题65优秀奖模型一的讨论中学组张皖君汝林陈城城1814C题60优秀奖相关系数在计本科组魏冰茹李煜郭阳2026B题75三等奖该文思路比较本科组王悦秦瑞李琴琴1456A题80一等奖参考的数据较本科组叶陈王靓王娜1458C题79二等奖模型前期对数1459C题60优秀奖模型建立过程本科组童淑娟方姚袁玮1460C题73三等奖以一个城市为本科组朱杰戚功平崔爽爽本科组曹婷娟余姗姗吴泉垚1463A题65三等奖问题分析较多1464C题84一等奖首先剔除了原本科组吕娴雅褚诗成杨鑫1465C题78二等奖使用多元回归本科组汪懿然殷健陈国庆本科组徐瑶瑶赵丹丹姜雅静1466C题60优秀奖对问题二结果本科组李艳春甘晶晶王佳玉1467A题70三等奖全文分析表述本科组唐密陈园园项岚1476A题70三等奖虽然给出了一1478A题55优秀奖没有恰当参考本科组郑瑶丁芳丽王婷婷1480C题71三等奖利用综合评价本科组任洁李仕佳周雨婷1481C题75二等奖研究指数近似本科组彭伟刚张恒刁辰辰本科组倪强徐琳陈伟1544C题60优秀奖误差分析不够本科组孙姝周佳程浩冉1502A题79二等奖基于轮胎制动2308C题68优秀奖在对土地储备本科组李肖强李凤梅汪瑛琪1640A题55优秀奖本文建立了本科组夏爱玲胡丽云王欣1675B题72三等奖主要是运用二本科组陈杰梁园园赵敬侠本科组任新悦张秀玲张翔2012B题68优秀奖在进行模型建2085C题67优秀奖考虑是风险指本科组侯梦婷黄超男张海斌2359B题60优秀奖用坐标的手法本科组陈文强苏鑫森范翔3126B题67优秀奖利用canny算研究生组林园胜郝玲玲吴益红1941B题64优秀奖首先以数字曲本科组肖升徐昌韩文峰4029A题65三等奖本文建立了模本科组刘钰媛孟倩程婧4030C题60优秀奖文章对数据预本科组晋珊黄丙耀杨文建本科组陈伟余静王琪4031C题60优秀奖对数据的归一本科组李雨容高世飞廖凯4032C题73三等奖模型二需要给4033B题65优秀奖该文使用了m本科组杨颖刘振宝郭睿4034A题60优秀奖本文建立了模本科组李思睿丁甘婷刘佳艺4035A题58优秀奖本文建立了本科组蒋亚丽干明瑞郑翔本科组尹巧一吴越陶涛4036B题65优秀奖图像处理部分4037A题55优秀奖本文建立了本科组姚春王伟峰曹旭4038C题80一等奖该文思路比较本科组左芸芸俞露露袁蕊本科组潘诗卉马海涛徐婷婷4039C题60优秀奖缺少模型优缺4040A题50优秀奖本文模型不本科组周鸣涧张雪张若南本科组方亚兰任丹丹刘洁4041C题68优秀奖该文使用了层4042B题78二等奖本来建立了贝本科组王镇羽牛中超郑合庆本科组吴欣舟邓志伟张鹏4043C题65优秀奖该文使用了层4044B题72三等奖本文给出了简本科组杨玎玲郑晨张玉珍4045B题70三等奖本文给出了简本科组陈筱朱付秀王正东4046A题40优秀奖无轮胎花纹和本科组陈铮强萍萍李娜娜本科组张磊吴倩徐静4047C题70三等奖该文使用了权4049A题63三等奖本文建立了本科组杨晓琪尹强汪酉申本科组黄帅何育昆刘圣杰4050C题60优秀奖该文对于问题4051B题78二等奖本来建立了贝本科组韩文锴唐益剑黄成3428D题71优秀奖模型不够完中学组薛兆恩张伯臣刘临祺3447D题70优秀奖模型不够完中学组李榕吴丹妮崔朔4235D题70优秀奖模型不够完中学组张浦淇刘兆华葛庆元4240D题60优秀奖没有给出有中学组高媛陈立奇张冉昀本科组吴涛岳海洋崔洪辉1918B题75三等奖文中用工程范本科组吴涛岳海洋崔洪辉1918B题79二等奖前半部分的处1807C题66优秀奖从土地储备项本科组王隆隆许松岭李甫尧2120A题60优秀奖本文建立了本科组崔少飞侯月赵航本科组彭滔何泽鹏张成2121A题78二等奖文中主要考虑本科组张雄雄唐慧娟赵静2122C题60优秀奖模型在条理和2123B题70三等奖该文的亮点是本科组张泽贤李双杨鹏松本科组吴东昱张海超李哲2124C题65优秀奖在后续得到风2125B题64优秀奖本文中给出了本科组郭向鑫高新郭兴欣本科组李少华张小鹏龚雪2126C题75二等奖模型方法比较2127A题60优秀奖本文建立了本科组杨旭张境娱马坤颖本科组万梦茹杜丹丹杨锦铎2128C题65优秀奖在讨论风险评2129B题65优秀奖文中主要是基本科组叶贵伦吴忠德刘子扬本科组邓云蛟商迎秋张冰妍2130C题79二等奖使用敏感性分2131A题65三等奖本文建立了本科组阴丹凤杨艳丰李凡2132C题73三等奖建立了模糊综本科组刘建新秦帅姜钰2133A题62三等奖本文建立了本科组刘宝程刘青谷振杰2134C题75二等奖运用模糊数学本科组徐建壮陈银和吕若飞本科组姜斌黄殿云李运吉2136A题65三等奖论文的排版效2137A题62三等奖本文建立了本科组王啸黄铭秋何飞帆本科组李钊赵宝爱任利荣2138A题78二等奖文中围绕不同2139B题53优秀奖本文模型不够本科组何神君李敬权杨高峰2141D题74优秀奖对于题意理专科组贾凯路王凯贾亚男2251A题58优秀奖本文建立了本科组刘新武王金龙赵杰超本科组张晓宇陈洋王云霄2358A题79二等奖文中主要抓住本科组范朋森詹欣孟帅2574C题80一等奖把一些指标转3050A题60优秀奖本文建立了本科组展朝飞王道林宋嘉贞4222D题74优秀奖对于题意理专科组段梦瑶杜宝山刘洋2292A题40优秀奖本文模型严重本科组王正茂王坤寿徐炳锋2697B题64优秀奖本文中给出了本科组付博徐加伟巫佳佳本科组杨佳鑫张紫祺李开意1196B题65优秀奖在文中边界提本科组田庭忠刘晨宇肖惟4275B题60优秀奖单一的曲线拟研究生组张梦姿罗欢郭美荣1039B题79二等奖文章在拟合时1913C题67优秀奖从拆迁补偿人研究生组翟璐张亚琴刘杰本科组徐培健郭鸿金王彬1179A题72二等奖较详细给出不本科组蔡志强郭杭熙陈桂清3358C题79二等奖数据处理上下2075A题50优秀奖摘要过于简单本科组张弛慕霖何飞本科组孙莉萍杭婕李莹华1789C题60优秀奖未对原始数据2309C题60优秀奖模型的建立过本科组许可邱方舟张振邦本科组冯培培李典娜苏梦玮2407C题70三等奖文中对综合评本科组王丹苏智伟张雪静2044B题65优秀奖该文对建模前2408C题70三等奖模型中有7个本科组李琦程显琨魏静毅4119C题71三等奖虽然使用改进本科组邱世毅付瑶王子田1165B题70三等奖用四种算法对本科组谢文强吴方舟吴杨本科组范开李亚光张宇欣1349C题60优秀奖模型缺少对结2155A题58优秀奖本文建立了本科组董晓静孙晟程鸣2156C题73三等奖用递阶层次分本科组高雨黄涛邹岱秀本科组蒋明丰邱诚炜刘丹阳2157B题65优秀奖在图像处理上2158A题53优秀奖本文建立了本科组肖健吴昊李少杰2159A题62三等奖本文建立了本科组邓思诗陈泽宇郎珊2160C题69三等奖整个模型并没本科组范中兴杨帆杨景月本科组谭宁赵煜照高有为2162B题80二等奖文中结构合理2163B题65优秀奖用图像灰度值本科组王炜王滔铭詹新成2164B题68优秀奖用扫描曲线图本科组陈明金丹陈思达2165A题67三等奖本文建立了轮本科组官中尉姚永鑫王忠康2166A题62三等奖本文建立了轮本科组曾莞婷徐寄烈陈昌华2167A题53优秀奖本文摘要过于本科组刘绍毅程逸凡刘壮志2168A题62三等奖本文建立了轮本科组李凯世李珍李朝2169A题60优秀奖本文模型考虑本科组史肖阳李宇双方赈民2170A题60优秀奖本文模型摘要本科组张哲珺张钿李立2173A题69三等奖本文建立了轮本科组王晓桐张文燕梁爽3688D题80二等奖文章给出了逐中学组唐寅李宇杰朱以待1004D题78二等奖对于题意理解专科组郑彦骏李容丽刘森林2006A题56优秀奖本文建立了本科组姜鸿宇陈星朋龚婷2007B题70三等奖模型一中寻找本科组李浩刘佳胡元川专科组何长枭魏鑫曾小倩2009B题60优秀奖文中思想清晰本科组何健张东言王彦博3462B题72三等奖图像检测工作本科组周倩倩黄叶邵明3463B题78二等奖matlab图像处3464A题64三等奖本文建立了本科组苏明明谭佳谭佳3465C题60优秀奖单独几个因素本科组赵策张慧民刘军本科组罗强赵静陈晋荣1371C题71三等奖本文应先对数1769C题60优秀奖关联度分析应本科组张阳周璟瑜常福霞本科组汪杨成张磊陈兆婷1770A题75二等奖文中作者虽然本科组赵庆伟王茂均肖风凯1771B题80二等奖本文对尖点的3103B题79二等奖在提取特殊点本科组陈姝荞肖玉何家玉2650A题62三等奖本文建立了本科组胡琼芳苟娜马飞本科组陈振荣王利华陈树立1116C题75二等奖回归分析中,本科组赵亚平胡倩倩刘翠萍1147B题60优秀奖在提取过程中本科组张宁李敏韩胡日都呼2105C题60优秀奖摘要达不到要2106B题66优秀奖模型只是对简本科组王雪滕晓杰焦慧然本科组孟娇刘依菲陈彤2107C题60优秀奖只是介绍了一本科组徐丽红王露魏瑶2108C题60优秀奖总体评价并非2109A题50优秀奖本文模型不本科组郗晓利陈健张和雅2110A题58优秀奖本文建立了本科组宋显珍宋艳蕊王鑫2111A题56优秀奖本文建立了本科组张娜谢云婧于素培本科组菅旭王宏鹏俞婧2112C题60优秀奖该文使用了层2113A题50优秀奖本文模型不本科组何山袁丽娜刘慧静本科组张超张园园刘德超2114C题60优秀奖文中模型二未本科组西宇吕树琴乔佳佳2115B题70三等奖文中对前半部2116B题65优秀奖文章对模型的本科组马晓璐高荣华黄苏琴2117A题50优秀奖本文模型不本科组刘欢余潇王贝贝4246C题70三等奖主要运用了层本科组杨奇特李莎杨伊国1609C题65优秀奖利用层次分析本科组江俊杰李运志张迪1610C题68优秀奖使用综合风险本科组毛竞争郝珏熊泽儒本科组张新利刘一鸣徐巍1611A题60优秀奖本文只讨论了1726B题80二等奖边界检测相当本科组罗宁奇王晗程昊本科组李圣君相尚志劳亮2102A题65三等奖建立了花纹特。
2014高顿杯全国大学生数学建模竞赛优秀文章

2014高顿杯全国大学生数学建模竞赛优秀文章近数学教育在经历了几个世纪的发展变革后,在21世纪之初呈现了国际化、大众化、技术化和理论化的四大发展趋势.首先,各国的数学教育已经不再是以前的闭门造车.与此同时,各国的数学家和教育家也在为能找到最为适合本国国情的数学教育方法而互相借鉴、互相探讨.一个共识就是数学建模有利于数学教育发展,因而对一个国家的科技发展和人才素质培养的作用和地位是十分重要的.本文重点研究了数学建模教育对于学生素质的作用.首先,我们介绍了教育的起源以及中西方思想家和教育家对其所下的定义,对数学这一学科的教育及伴随它产生的数学教育研究进行了简要的分析.由于我国数学教育研究是在近代才开始经历巨大的变革,在这些变革过程中我国的数学教育的研究范围、研究目的、研究特点和研究手段方法等都有了根本性的变化,各种学科的不断融入使数学教育成为这些学科与数学交叉的综合性的学科,使它的研究力量得到了不断的壮大和加强.其次,我们论述了数学建模教育的含义,从以下几个方面对数学建模教育进行了分析:1、对数学教育及数学建模教育的认识,2、数学建模活动教育意义的理论分析,3、数学建模活动的实证分析,4、数学建模活动的开展以及对策.第三,我们以大学生就业为主线,分析了数学建模教育对学生综合素质的影响,通过对素质、素质教育、数学素质和数学文化的理论分析,体现了数学建模教育的四大功效:培养品质、启迪心智、磨练意志、提升素质,进而阐述数学建模教育对于学生素质的影响.第四,针对高中数学教育的历史和现状,结合新课标的实施,对高中数学课程新标准全面解读和理解的基础上,建立数学-生活之间的联系,通过数学建模,体现数学的文化内涵,反映数学与其他学科领域间联系.提出了中学数学教育改革的重点应该是提升学生素质、培养动手能力、激发创新意识、提高教学质量.第二篇全国大学生数学建模竞赛论文样文:基于素质模型的高校创新型科技人才培养研究创新,是一个历久弥新的话题.一部人类社会的文明史,即是一部不断创新和创造的历史.尤其是进入21世纪以后,科技创新更是成为知识经济发展的灵魂深刻地改变着人类文明的基本构成和核心理念,作为科技创新活动主体的创新型科技人才的培养亦因此而成为当今时代世界诸国人力资源开发活动中普遍关注的焦点.自1990年代中期以来,我国先后提出了“可持续发展战略”、“科教兴国战略”、“人才强国战略”以及“国家创新体系建设”等一系列事关中华民族长远发展的国家战略,对于这些战略的实现而言,创新型科技人才的培养无疑是其中一项基础性工程.目前,我国的国家综合创新能力在世界主要国家中依然处于比较落后的地位,加紧创新型科技人才的培养是改变这一状况的基础性条件之一.高等教育作为创新型国家建设重要主体,承担着人才培养、科学研究和社会服务三大基本职能.其中,人才培养是高等学校的根本职能.近十几年来,我国高等教育发展持续进行了量的扩张而进入大众化发展阶段,但与此同时,人才培养质量却日益成为一个饱受社会各界诟病的热点论题,发人深省的“钱学森之问”即是对这一问题的集中反映.在《国家中长期教育改革和发展规划纲要(2010-2020年)》制定过程的意见征询阶段亦将“如何培养创新人才”作为面向社会各界公开征询意见的二十个基本问题之一,充分体现了这一艰深命题的极度重要性和现实紧迫性.由于包括创新型科技人才在内的创新型人才的培养是一项复杂的系统工程,其中涉及诸多复杂的因素.但对于这一问题的研究无论采取何种视角,其最终回归点都将指向对培养对象的某种与创新相关的素质或能力的培育方面.由此而引发出另一个与此直接相关且更为基础性的问题:创新型科技人才应该具备什么样的素质结构其中又包括哪些具体素质要素对这一问题的研究探索不仅有利于从理论层面科学地认识和把握创新型科技人才这一特定人才群体的共同素质特征.同时,也有利于为在科技人才的培养实践中有针对性地加强那些关键素质要素的开发培育提供更为客观的和具体的逻辑依据.而从国内目前的研究现状来看,对这一问题的研究却未能得到应有的关注.为此,本论文试图通过借助人力资源管理学中素质模型这一研究工具来构建创新型科技人才的素质模型,以系统地勾勒创新型科技人才的共性素质特征,明晰创新型科技人才培养的素质开发取向,并以该素质模型所提供的素质要素体系作为参照,着重从高等教育本科阶段人才培养实践中学生创新素质建构的角度来探讨未来潜在创新型科技人才的培养问题,以求为“如何培养创新型人才”这一现实难题提供可资参考的路径.论文研究是以素质模型理论、创造力理论和创新教育理论为主要理论依托,采用理论研究与实证研究相结合、定性分析与定量分析相结合的方法,沿着三个在逻辑上相互关联的问题脉络而展开,即(1)什么是创新型科技人才(2)为什么我国高校培养的创新型科技人才严重不足(3)如何培养创新型科技人才在进行文献回顾、关键概念解说和相关理论阐释之后,围绕以上三个问题,论文分别进行了较为集中的研究.。
2014第七届“认证杯”数学建模网络挑战赛论文

第七届“认证杯”数学中国数学建模网络挑战赛承诺书我们仔细阅读了第七届“认证杯”数学中国数学建模网络挑战赛的竞赛规则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括、电子、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们接受相应处理结果。
我们允许数学中国()公布论文,以供网友之间学习交流,数学中国以非商业目的的论文交流不需要提前取得我们的同意。
我们的参赛队号为:2666参赛队员 (签名) :队员1:队员2:队员3:参赛队教练员 (签名):参赛队伍组别:本科组第七届“认证杯”数学中国数学建模网络挑战赛编号专用页参赛队伍的参赛队号:(请各个参赛队提前填写好):竞赛统一编号(由竞赛组委会送至评委团前编号):竞赛评阅编号(由竞赛评委团评阅前进行编号):2014年第七届“认证杯”数学中国数学建模网络挑战赛第一阶段论文题目土地储备方案风险评估关键词风险评估摘要:本文讨论了当今土地储备方案的风险评估问题。
运用统计学的概念与方法,根据给出的数据,对土地储备的风险进行了综合的评估。
并且通过现有的数据,对土地储备的风险的发展趋势,通过统计数据的方式,建立了概率统计模型。
首先,通过近几年的数据进行统计分析,得到了土地储备风险的大体情况。
然后由统计的方法,得出了近几年每年的土地储备风险的综合评价。
在进行每年的评价时,运用了图形和列表做了更详细的评估。
在做风险评估的时候,先把土地储存面积、财务净现值、财务部收益率、动态回收周期进行大量的数据分析与数据处理,进而通过概率统计模型,线性函数模型,得出了土地储备风险的盈亏平衡点,把这些数据建立函数关系,从而得出进行了最优解,从而对此进行评估。
2014高教社杯数学建模A题国赛一等奖论文

2014高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A我们的报名参赛队号为(8位数字组成的编号):所属学校(请填写完整的全名):参赛队员(打印并签名) :1.2.3.指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 2014 年 9 月日2014高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进嫦娥三号软着陆轨道设计与控制策略摘要登月对我国整体战略发展具有重要意义,因此实现月球着陆尤为重要。
本文针对嫦娥三号软着陆轨道的问题进行了递进式的设计,建立了多个数学模型来描述和设计嫦娥登月的轨道及过程。
针对问题一,首先以月球球心作为原点,嫦娥环绕轨道所在平面作为X-O-Y面,垂直X-O-Y的过球心直线作为Z轴,按照右手螺旋法则建立空间直角坐标系,在此基础之上,建立空间解析几何模型,然后利用Kepler定律,来计算出嫦娥三号绕月轨道参数以及近地点和远地点的速度及方向,以及近月点和远月点的位置坐标。
第六届研究生数学建模A优秀论文(城镇登记失业率的研究与预测 )一等奖

全国第六届研究生数学建模竞赛题目城镇登记失业率的研究与预测摘要:本文研究的是我国城镇登记失业率问题。
根据建模需要,定义了相关度系数,运用数据插值、高斯数据拟合、层次分析与神经网络等方法,完整地解决了问题一至问题五。
问题一建立了指标选取的4条原则,确定了5个关键经济指标(见第5~6页);考虑指标影响的时效性,选取了金融危机前后10个季度(2007年~2009上半年) 内各指标的统计数据。
问题二考虑指标影响的滞后性,确定了失业率与各指标统计数据之间的时间对应关系,建立了多因素AHP加权模型和BP神经网络模型。
模型一多因素AHP加权模型。
分别利用高斯拟合得出失业率与各个指标之间的函数关系;依据定义的相关度系数,运用层次分析法,得出各个指标对失业率的影响因子,建立了描述失业率与5个指标之间关系的数学模型。
具体模型见第12页,与实际失业率的比较结果见第13页表4与图7。
模型二BP神经网络模型。
建立了3层BP神经网络,突破了模型一中指标个数和指标间相关性的限制。
采用样条插值法补充了一些因政府未公布而无法得到的数据,解10 精度(见第20~21决了不完全数据的问题,使训练集和检验集与真实数据相比均达到4页)。
与实际失业率的比较结果见第21页图13。
问题三以电子信息产业、湖南省和25-44岁人群为例,从分行业、分地区、分就业人群角度更有针对性地确定了各自的关键经济指标,利用模型一与模型二分别建立了较精确的数学模型(见第22~25页)。
问题四分析了国家相关决策和规划,并将其体现在预测期的指标数据上;利用模型一和模型二作出预测,分别得到了2009年下半年失业率为4.17%、4.19%,2010年上半年失业率为4.08%、4.12%(见第28~30页);与任由经济恶化所预测的失业率的比较结果表明,国家所实施的政策具有显著的促进就业的作用(见30~32页)。
问题五分析了失业成因,根据所建立的数学模型和仿真结果,提出9条建议,以促进就业,降低失业率(见第33~35页)。
2014高教社杯全国大学生数学建模竞赛D题获奖论文解读

2014高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。
如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): D我们的报名参赛队号为(8位数字组成的编号):所属学校(请填写完整的全名):参赛队员(打印并签名) :1. (隐去论文作者相关信息等)2.3.指导教师或指导教师组负责人(打印并签名):(论文纸质版与电子版中的以上信息必须一致,只是电子版中无需签名。
以上内容请仔细核对,提交后将不再允许做任何修改。
如填写错误,论文可能被取消评奖资格。
)日期: 2014年月日赛区评阅编号(由赛区组委会评阅前进行编号):2014高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):储药柜的设计摘要面向消费者的药品零售药房,日常运行中需要执行大量的药品存储和分拣工作,目前自动化药房的研发及逐渐应用提高了药品存储和分拣效率,为医疗工作提供了极大地便利。
储药通道即为自动化药房的重要部分,合理的储药槽设计可以减少储药槽的设计成本、合理的利用储存处空间、提高药品的存储率和分拣效率。
2014年数学建模A题-省一等奖

关键词:软着陆、SQP算法、轨道优化、景象匹配
1
一
1.1 问题的背景
问题重述
中国是继美国、前苏联之后的第三个能使卫星登上月球实现软着陆的国家。因此, 嫦娥三号如何实现软着陆以及能否成功成为外界关注的焦点。北京时间 12 月 10 日晚, 嫦娥三号已经成功降轨进入预定的月面着陆准备轨道,这是嫦娥三号“落月”前最后一 次轨道调整。在实施软着陆之前,嫦娥三号还将在这条近月点高度约 15 公里、远月点 高度约 100 公里的椭圆轨道上继续飞行。 嫦娥三号着陆地点选在较为平坦的虹湾区。但由于月球地形的不确定性,最终“落 月”地点的选择仍存在一定难度。但嫦娥三号的预定着陆点为 19.51W,44.12N,海拔为 -2641m。在大约距离月球 15 公里时,反推发动机就要点火工作;到离月球 100 米时, 卫星将暂时处于悬停状态,此时它已不受地球上工程人员的控制,因卫星上携带的着陆 器具有很高智能,它会自动选择一块平整的地方降下去,并在离月球表面 4 米的时候关 闭推进器,卫星呈自由落体降落,确保软着陆成功。为了确保探测器能够成功在月球表 面实现软着陆,需要认真设计降落过程中探测器的发动机的控制方案,使“嫦娥 3 号” 能够顺利完成科研任务,得到最大化的应用。由于月球上没有大气,嫦娥三号无法依靠 降落伞着陆,只能靠变推力发动机,才能完成中途修正、近月制动、动力下降、悬停段 等软着陆任务。 这将是中国航天器首次在地外天体的软着陆和巡视勘探, 同时也是 1976 年后人类探测器首次的落月探测。 嫦娥三号在着陆准备轨道上的运行质量为 2.4t, 其安装在下部的主减速发动机能够 产生 1500N 到 7500N 的可调节推力。在给定主减速发动机的推力方向后,能够自动通过 多个发动机的脉冲组合实现各种姿态的调整控制。 要保证准确地在月球预定区域内实现 软着陆,关键问题是着陆轨道与控制策略的设计。其着陆轨道设计的基本要求:着陆准 备轨道为近月点 15km,远月点 100km 的椭圆形轨道;着陆轨道为从近月点至着陆点,其 软着陆过程共分为 6 个阶段,要求满足每个阶段在关键点所处的状态;尽量减少软着陆 过程的燃料消耗。 1.2 提出问题 根据上述的叙述以及基本要求,提出以下三个问题: (1)确定着陆准备轨道近月点和远月点的位置,以及嫦娥三号相应速度的大小与 方向。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于网络爬虫技术的价格指数计算模型国家统计局城市社会经济调查司孙易冰、赵子东、刘洪波内容摘要:近年来国内外机构已经开展基于大数据的网络购物价格指数分析研究。
本文参照官方CPI的制度方法,设计了一种基于网络爬虫技术的价格指数计算模型。
通过模型试算值与官方数据的比较,以及对原始数据的特征挖掘,我们发现该种模型具有时效性强和灵敏度高的优点。
关键词:价格指数;网络爬虫;聚类分析;幂律分布;季节调整A Model of Compiling Price Index Based on the‘Web Scraping’ TechnologyAbstract:In recent years,some domestic and foreign institutions have been taking researches on using big data in compiling online price indexes. This paper refers to the official CPI methodology,designing a model of compiling price index based on the ‘web scraping’technology. By comparing results of this model with official CPI data,and analyzing characteristics of raw data,we find out that our model has the advantages of strong timeliness and high-sensitivity.Keywords:Price Index;Web scraping;Cluster Analysis;Power-Law Distribution ;Seasonal Adjustment一、问题的提出近年来大数据技术已经深刻影响着统计工作的具体实践,也要求统计部门积极应用大数据技术,更好地为有关部门决策提供依据。
其中,价格统计部门当前的首要任务就是处理好网络购物等经济生活中的新动态,并利用大数据技术完善价格指数编制工作。
国外官方统计部门通常将网络零售商认为是价格调查点并纳入居民消费价格指数(Consumer Price Index,以下简称CPI)调查中。
其中,美国CPI调查统计中9%的原始数据是通过互联网采集的。
学术界和网络零售商则基于不同考虑,针对各自获取数据的特点,设计出不同的网络价格指数,在价格方面的大数据实践中领先于官方统计部门。
本文通过分析爬虫获取的数据,在传统CPI基本分类商品指数计算模型基础上,设计了一种基于网络爬虫技术的日度价格指数计算模型,并进行了数据实证。
本文后续安排如下:第二部分介绍并比较了三种实际应用中的价格指数;第三部分给出了基于爬虫技术的价格指数编制模型,并初步分析了数据特征;第四部分从工程角度利用K-means聚类算法处理海量数据中的异常值,并深入分析了数据特征;第五部分设计了一种基本分类商品的日度价格指数计算模型,并进行了实证分析和与官方数据的比较;第六部分为结论和下步工作打算。
二、CPI指数和几种网络价格指数的比较从一般意义来说,价格指数是指两个不同时期价格水平变动的相对数,即报告期价格水平与基期价格水平变动的比例关系。
通过建立时间序列,用来分析研究一个较长时期相关商品或者生产要素价格与供求关系变化的规律,同时还可以用来预测未来一个时期市场发展变化的趋势。
价格指数中影响最大的就是消费者价格指数。
(一)消费者价格指数根据2003年国际劳工组织理事会第十七届国际统计学家大会上的定义,消费者价格指数用来衡量家庭为消费目的所获取、使用或支付的商品和服务的总体价格水平的变化,其目的是衡量消费价格随时间而发生的变动情况。
该指数是度量一定时期内居民消费商品和服务价格水平变动的相对数,综合反映居民消费商品和服务价格水平的变动趋势和变动程度,也是宏观经济分析和决策、价格总水平监测和调控以及国民经济核算的重要指标。
编制CPI指数的流程是先编制基本分类商品(例如大米、手机等商品)的价格指数,在此基础上按照权数资料进行逐层汇总,生成各分类指数和CPI总指数。
包括我国在内的国内外官方统计机构普遍采用拉氏公式进行指数汇总。
(二)网络价格指数近年来,网络销售和大数据技术的兴起,国外学术界和网络零售商也开始从事网络价格指数编制工作。
总体上,这些机构在编制过程中均以CPI编制方法为基础,结合自身数据特征设计出不同的网络价格指数。
2008年,阿里巴巴公司推出网购核心商品价格指数(aSPI-core),数据基于淘宝网、天猫网、支付宝等网络平台,权重基于淘宝网支付宝成交金额的比重,分成11个大类,每年调整一次。
由于我国网络销售中含有大量批发业务,所以该指数并不是纯正的消费者物价指数,而是一个结合了生产、批发、零售和消费等多种市场行为的综合类价格指数。
麻省理工学院开发的十亿价格项目(Billion Price Project,以下简称BPP)是通过爬虫技术计算价格指数的成功典范。
该项目每天从网上抓取不少于50万笔的商品价格信息,计算出20多个国家的每日网上价格指数。
从实践中看,该指数和美国官方CPI指数具有高度相关性。
(三)CPI指数和网络价格指数的比较价格指数的编制方法和统计制度、抽样方法、数据来源、权数资料高度相关。
下表是我国官方CPI指数和两种网络价格指数的具体情况对照表。
从上表可以看出,三种指数均是基于拉氏公式进行汇总,仅原始价格数据和权数资料的获取方式不同。
由于官方统计部门处于第三方角色,无法像淘宝、京东商城等网络零售商一样从内部数据库获取详细的原始价格和销售量,只能参考麻省理工学院的BPP项目,基于网络爬虫技术获取数据并进行价格指数计算。
三、基于网络爬虫技术的价格指数计算系统架构及实践(一)基于网络爬虫技术的价格指数计算系统架构网络爬虫技术已经在Google、百度为代表的网络搜索业中取得广泛应用,获得了巨大成功。
网络爬虫从指定的网页出发,通过分析网页内的标记结构,获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。
理论上,如果指定适当的初始页面集和网络搜索策略,网络爬虫就可以遍历整个网络。
图1是网络爬虫处理流程。
图1 网络爬虫处理流程各国官方统计部门在价格采集实际工作中以人工采集为主。
参照传统的采价流程和BPP 的系统架构,设计了基于网络爬虫技术的价格指数计算系统架构,如图2所示。
图2系统架构 我国CPI 价格调查中采价工作遵循“三定一直”(定人、定时、定点,直接调查)原则。
由于程序具有客观性,隐含着定人、定点和直接调查的原则,并可通过定时抓取网络数据,保证定时的要求。
(二)从非结构化文本中提取数据大数据实践中,遇到的半结构化(网页、非结构化文本)和非结构化数据(视频、音频等多媒体数据)占绝大多数。
由于关系型数据库的广泛应用,结构化数据的处理基本已无障碍,而半结构化和非结构化数据则需要根据具体的数据结构编写程序。
考虑到网络电商通过HTML类型的网页文件发布信息,可通过正则表达式处理原始数据。
正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
例如表达式^\d{n}$用来匹配n位数字,即可以匹配108、44455等数字。
通过合理设计语法处理程序和正则表达式,可以从抓取的文件中批量提取出有用信息。
提取的典型数据条目如下:2014年7月1日,苹果iPhone4S (8GB版,白色),有货,价格2448.00元,好评数54243,中评数2453,差评数1822。
(三)实践及相关数据特征在Linux环境下采用Perl编写网络爬虫程序,设定为每天上午8:30定时运行,5月12日-8月14日从某大型B2C电子商务网站(以下简称为A电商)手机分类中共计抓取数据累计20GB,提取出数据35万条左右。
我们发现通过网络爬虫技术获取的数据具有以下特点:1、商品数量丰富。
该段时间内A电商销售手机共计4500款左右,基本涵盖市场上出现的各种手机型号,然而由于库存管理、促销推广、新品上市、旧品下架等情况,日均销售款式在3000款左右。
2、价格波动剧烈。
和消费者感受一致,电商销售价格波动极为剧烈,绝对价格长期走低,部分手机单品价格波动更加剧烈,图3是5月13日-8月14日A电商手机算术平均价。
图3 5月13日-8月14日A电商手机算术平均价3、缺货现象严重。
电商普遍采用供应链管理和预售模式等策略,库存管理极为灵活,经常出现缺货现象。
例如A电商2014年7月1日当天在售手机3655款,上午有2424款手机有货,而下午则变成2399款手机有货。
(四)网络爬虫技术的局限性尽管网络爬虫技术具有技术领先性,但通过实践我们也发现网络爬虫技术存在以下局限性。
1、页面解析复杂。
电商通过设计复杂版面吸引顾客,所以相关的页面信息高度冗余。
例如A电商的商品页面平均在4.5MB左右,有用信息却仅几百个字节,编写程序提取出精确数据极为困难。
同时,由于部分电商采用价格标签图片防止第三方机构轻松获取数据,甚至需要采用图像识别技术。
2、网站频繁改版。
网络电商经常举办专项销售活动吸引顾客,网页版面也经常改版。
由于文本解析策略与页面版式高度相关,所以开发人员必须长期跟踪目标网站,根据变动情况改写程序。
实践中,A电商在今年5月下旬上线了新的商品推荐系统,导致重新设计了文本解析策略。
3、信息不完整。
爬虫程序无法获得电商的完整数据集合(例如精确销售量),并且仅能获得某一时间点的数据,所以相比电商自身数据,基于爬虫程序获取的数据比例较小。
此外,由于网络阻塞、网站安全策略、技术屏蔽等原因,实践中也会出现数据丢失的情况。
四、数据的预处理和挖掘做好网络价格指数的前提就是从工程实践中处理海量数据中出现的异常值,同时挖掘出电商区别于传统零售商所特有的销售策略,并研究相应的价格处理办法。
(一)聚类分析和数据预处理1、异常值的处理K-means是基于划分的经典聚类方法,原始版算法清晰简单。
基本思想是以空间中k个点为中心进行聚类,对最靠近的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
考虑到K-means算法属于无监督学习,具有复杂度线性增长、对异常数据的高敏感性、以及结果不稳定性三大特征,恰好可以用于从海量数据中随机分类出异常值。
表2周手机单品日度环比价格指数表(前一天=100,#表示无比较结果)为去除手机单品绝对价格对数据挖掘带来的干扰,我们将35万条原始数据按照表2格式处理(如A手机周三价格200.00元,周四价格为250.00元,则周四的环比值为125.0),生成32万条数据。