一、国家高性能计算中心(合肥)—大数据挖掘与计算研究室二、研究方向

合集下载

高性能计算(HPC)概况及应用介绍

【一】高性能计算概述
计算机发展时间线：
➢ 第二代计算机，1959-1964，大量采用晶体管和印刷电路板，体积不断减小，功能不断增强，并出现大量应用软件；
➢ 第三代计算机，1964-1972，大量使用集成电路，以IBM360系列为代表；
【一】高性能计算概述
计算机发展时间线：
➢ 第四代计算机，1972-至今，基于大规模集成电路及超大规模集成电路。1976年， Cray-1，第一台商用高性能计算机问世，集成了20万个晶体管，每秒可进行1.5 亿次浮点运算。
1、能耗分析相同节点浸没液冷服务器方案功耗比风冷服务器方案低80%，其节能效果明显。通过计算，其PUE值也明显低于风冷服务器方案。浸没式液冷服务器PUE=1.046 风冷服务器PUE=1.361 2、占地面积分析以上表格所指面积为投影面积，由此可见，同等节点服务器部署，浸没液冷服务器方案比风冷服务器方案节约用地约85%。
2013年5月14日，安吉丽娜·朱莉在自己写的文章《我的医疗选择》中称自己通过基因检测确定带遗传缺陷基因BRCA1，医生估测她患乳腺癌和卵巢癌的几率颇高，分别为87%和50%，朱莉选择双侧乳腺切除术保留乳房，降低患癌风险。2015年3月24 日，安吉丽娜·朱莉宣布，由于担心罹患卵巢癌，她已经切除了卵巢和输卵管。
【三】高性能计算应用与展望
高性能计算之气象学研究：
气候环境研究是高性能计算领域的传统应用，世界上第一台电子计算机 ENIAC就曾被用来进行天气预报，由于气象相关预报往往关系到农业、工业、军事、交通等众多核心关键业务，同时预报天气所需要的计算能力非常高，因此世界上最先进的高性能计算机通常都被用来运行大规模的数值计算与气候模拟应用。

大数据背景下数据挖掘技术的应用研究

大数据背景下数据挖掘技术的应用研究摘要：随着科技的发展，数据信息大量出现，越来越多的人想要从许多混杂的资源中找出最具有价值的信息。

本文将从数据挖掘技术的基本概念入手，并结合当下现实来分析大数据的出现给数据挖掘技术应用带来的变化。

在数据挖掘技术应用中主要从数据分析的利用和数据聚类的利用两大方面进行阐释，总体研究大数据背景下数据挖掘技术的应用。

关键词：大数据时代;数据挖掘技术;数据挖掘技术的应用大数据的发展会带来大量的信息资源，人们的思维方式也会随之发生改变。

于此同时信息发展也逐渐成为了开启信息时代的钥匙。

全球各国普遍认识到数据的重要性及其对国家的发展发挥的许多重要意义，许多国家以此为基点制定适合自己国家发展的战略性计划，由此占领数据的高地，实现国家创新性发展。

因此，大数据在当今时代具有极强的研究价值和应用价值。

笔者将主要从大数据可视化给数据挖掘技术带来的影响为着眼点，进而进一步分析高性能计算（HPC）给数据挖掘技术带来的一定程度的影响，且通过这些变化研究大数据背景下数据挖掘技术的具体应用。

正文：当今的数据挖掘技术的理论已经成熟，数据挖掘技术的应用愈加广泛。

受众趋向了解更多的数据挖掘技术，从而利用起大量的信息资源。

我们对于大数据背景下的数据挖掘技术的具体应用，将会获得信息的有效运用和资源的科学整合。

同时，掌握和了解到有关于数据挖掘技术的知识对普通受众来说不仅可以掌握到大量的数据资源，从而更好地利用这些资源为我们的生活实践服务，而且对于专业技术人员来说，广泛被大众所接受的数据挖掘知识前景将更加开阔，理论弹性增大，这将促进数据挖掘技术的进一步发展。

一、数据挖掘技术的概述数据挖掘技术主要是一个搜索的过程，它主要利用算法进行搜索，并通过一定媒介，从大量的信息中提取对搜索者有用的信息资源。

这个过程的原始数据被分成建模样本和分析样本两部分。

建模样本将会经过数据预处理后变成预处理后的专家样本。

而分析样本则会经过特征选择后变成预处理后的分析样本。

20所重点高等学校优势研发领域和研究方向

附件5：20所重点高等学校优势研发领域和研究方向一．中国科技大学1、电子信息教育大数据挖掘技术及应用，基于内存计算的高性能大数据处理系统，基于微纳加工的新型光电子技术研究与应用。

2、资源与环境面向巢湖和淮河流域的新一代城市污水处理技术，酸碱废液处理及回用技术研发，农作物秸秆综合利用。

3、人口与健康现代医学技术，慢性疾病机制研究，安徽地道药材的标准化与国际化，化学生物学与新药创制。

二．合肥工业大学1、材料与机械智能制造技术，新能源汽车及汽车关键零部件，节能环保技术与装备, 高性能金属材料, 新型能源材料与器件, 材料先进成形技术。

2、电气与电子信息可再生能源分布式发电与储能新型电力电子逆变控制关键技术，信息家电核心芯片及IP核培育，基于物联网的工业设备、环境与能源安全监控系统，工业现场安全监测技术与系统，包含光伏与电动汽车与飞轮储能的多微电网的主动配网能量管理技术及其软件开发，智能建筑电气安装技术与监控产品，面向高密度计算的异构多核系统，视联网公共安全监控示范系统，新能源汽车用高电压电机及其控制。

3、医学工程与食品加工医疗仪器与设备，功能性医用材料，中药材及食品品质无损检测与精确分级，大宗农产品资源增值加工技术，特色农林产品现代加工技术，农产品安全与质量控制。

三．安徽大学1、新能源与新材料新型生物材料，新能源应用技术，环境友好（绿色）材料，敏感材料与器件集成。

2、信息技术视觉信息技术，传感与物联网技术，智能与嵌入式技术，网络与信息安全技术。

3、资源环境与生物技术生物资源保护与利用，矿山环境修复与湿地生态安全，新型生物催化剂研制与生物活性物质制备，资源与环境的数字化管理。

四．安徽师范大学1、新材料新能源汽车电极材料开发，光伏材料制备，环境材料开发，半导体照明材料开发。

2、工业物联网关键技术及其应用汽车电子和工业生产设备联网，嵌入式工业服务器平台及其智能化控制，扰动抑制控制技术，工业安全生产管理技术，光纤传感智能电网技术，光纤传感智能工业安防技术，汽车智能物联网技术，基于物联网的配电柜健康评估系统，基于物联网的电力设备运行状态在线监控关键技术研究，基于物联网的社区健康服务站。

回顾中国超级计算机研发历程美国人总是震惊

“天河二号”获全球超级计算机500强三连冠2014年06月24日09:51:47 新华信息化新华网华盛顿６月２３日电（记者林小春）国际ＴＯＰ５００组织２３日公布了最新的全球超级计算机５００强排行榜，中国的“天河二号”超级计算机以比第二名美国“泰坦”超级计算机快近一倍的速度，连续第三次获得冠军。

ＴＯＰ５００榜单每半年发布一次。

自去年６月以来，“天河二号”就以每秒３３．８６千万亿次的浮点运算速度稳居榜首。

除了芯片技术外，这一系统大多由中国自主研发。

美国能源部下属橡树岭国家实验室的“泰坦”则连续３次屈居亚军，其浮点运算速度为每秒１７．５９千万亿次。

第三名至第五名分别是美国劳伦斯－利弗莫尔国家实验室的“红杉”、日本理化研究所的“京”和美国阿尔贡国家实验室的“米拉”，这一排名与上一期榜单无异。

与上一期相比，前十名的唯一变化是第十名，新入选的是隶属于美国政府的“克雷”ＸＣ３０超级计算机，其运算速度不到“天河二号”的十分之一。

国际ＴＯＰ５００组织在一份声明中说，从榜单看，“超级计算机的整体性能提升速度已降至历史最低点”。

例如，在１９９４年至２００８年间，榜单最后一名的计算性能平均每年提升９０％，而过去５年每年只提升了５５％。

从整个榜单来看，美国进入前５００强的超级计算机从上一期的２６５个下降至本期的２３３个，但优势依然明显。

第二名中国大陆则从６３个增至７６个。

日本和英国分别以３０台并列第三。

超级计算机是国家科研的重要基础工具，在地质、气象、石油勘探等领域的研究中发挥关键作用，也是汽车、航空、化工、制药等行业的重要科研工具。

ＴＯＰ５００榜是对全球已安装的超级计算机“排座次”的最知名排行榜。

从１９９３年起，由国际ＴＯＰ５００组织以实测计算速度为基准每年发布两次。

广州跻身国家级超级计算中心行列天河二号超级计算机在穗全面运行2014年06月29日19:52:28 新华网新华网广州６月２９日电（记者陈冀）国家超级计算广州中心应用推广大会６月２９日在广州召开，科学技术部副部长曹健林向广州超级计算中心授予了“国家超级计算广州中心”和“中国（广州）计算科学服务中心”牌匾，这标志着广州跻身国家级超级计算中心行列。

大数据分析与高性能计算技术研究

大数据分析与高性能计算技术研究当今时代，互联网已经无处不在，各种数据在不断产生，而大数据分析和高性能计算技术的研究和应用已经成为数据科学领域的重要课题。

大数据分析和高性能计算技术可以帮助企业、政府和科学研究机构更好地利用和处理海量数据，从而获取更多的信息和洞察力。

本文将探讨大数据分析和高性能计算技术的发展和应用。

一、大数据分析技术的发展随着互联网技术的发展，数据也变得越来越庞大和复杂。

但是，这些数据中含有大量有价值的信息，可以帮助企业和政府做出更好的战略决策。

在数据处理中，大数据分析技术不断地发展和完善，目前已经成为企业和政府获取数据价值的关键技术之一。

大数据分析技术主要包括数据采集、数据清洗、数据建模、数据分析和数据可视化等环节。

在这些环节中，数据分析是最重要的一环，它可以通过数据可视化、模型建立和数据挖掘等方法，发现数据背后的规律和趋势。

通过大数据分析技术，企业和政府可以及时获取信息，对相关业务进行优化。

二、高性能计算技术的应用高性能计算技术的应用范围十分广泛，不仅仅是在大型企业和科研机构中得到了广泛应用，还在普通用户中得到了普及。

高性能计算技术可以帮助我们更好地处理计算量大、计算复杂的问题，提高计算效率，为我们带来更多的计算能力支持。

高性能计算技术的发展离不开硬件和软件的发展，比如GPU、FPGA等多样化的硬件设备的出现，以及高性能计算软件的不断加强和优化。

在各个领域的应用中，高性能计算技术也得到了广泛认可和应用。

在气象预报、石油勘探、生物科学和金融领域等，高性能计算技术已经发挥了巨大的作用。

三、大数据分析与高性能计算技术的结合大数据分析与高性能计算技术一起应用，可以帮助用户更好地分析数据，更好地解决实际问题。

在许多企业和政府中，这种技术应用已经得到了广泛应用。

例如，在金融领域中，大数据分析和高性能计算技术可以帮助银行准确判断贷款风险，优化信用卡发放策略等；在医疗领域中，大数据分析和高性能计算技术可以帮助医生进行精准诊断，提高医疗效率等；在物流领域中，大数据分析和高性能计算技术可以帮助物流企业加强管理，提高效率。

合肥综合性国家科学中心数据空间研究院

机构领导
创院院长：王小谟副院长：洪日昌
谢谢观看
科研成就
合肥综合性国家科学中心数据空间研究院建设了一个集数据创新平台、产业创新平台、智能算力平台三位一体的“数字时代的国家大科学装置”——国家数据创新平台。
合肥综合性国家科学中心数据空间研究院与粤港澳大湾区大数据研究院联合研发了数据资产登记存证平台。该平台集“产权界定、交易监管、仲裁存证、资质认定”于一体，明确了数据要素登记业务主体和登记标的，并实现数据资源和数据产品的基本信息和权利归属登记，为数据资源和产品提供交易准入依据。
发展历史
2022年5月6日，合肥综合性国家科学中心数据空间研究院成立。 2023年5月14日，合肥综合性国家科学中心数据空间研究院正式揭牌。
科研条件
截至2023年5月14日，研究院已汇聚多支全球顶尖科技力量，包括算法安全团队、隐私计算团队、卫生健康大数据团队、感知与交互团队等，率先在公共安全、数据要素创新、医疗、智能汽车、教育等多领。
合肥综合性国家科学中心数据空间研究院
安徽省人民政府发起成立的事业单位
01 发展历史
03 科研成就
目录
02 科研条件 04 机构领导
合肥综合性国家科学中心数据空间研究院是由安型新型研发机构，致力于引领络空间安全和数据要素创新技术前沿和创新方向，凝聚一批海内外领军科学家团队，汇聚相关行业大数据，开展数据空间基础理论、体系架构、关键技术研究以及相关能力建设，打造大数据发展新高地，推进“数字江淮”建设，为数字中国建设贡献“安徽智慧”“合肥智慧”。

研发领域和研究方向

2、资源与环境面向巢湖和淮河流域的新一代城市污水处理技术，酸碱废液处理及回用技术研发，农作物秸秆综合利用。

3、人口与健康现代医学技术，慢性疾病机制研究，安徽地道药材的标准化与国际化，化学生物学与新药创制。

三．安徽大学1、新能源与新材料新型生物材料，新能源应用技术，环境友好（绿色）材料，敏感材料与器件集成。

2、信息技术视觉信息技术，传感与物联网技术，智能与嵌入式技术，网络与信息安全技术。

3、资源环境与生物技术生物资源保护与利用，矿山环境修复与湿地生态安全，新型生物催化剂研制与生物活性物质制备，资源与环境的数字化管理。

四．安徽师范大学1、新材料新能源汽车电极材料开发，光伏材料制备，环境材料开发，半导体照明材料开发。

研究院年度科研成果总结与创新发展方向

研究院年度科研成果总结与创新发展方向在过去的一年里，本研究院在科研领域取得了令人瞩目的成果。

通过团队的不懈努力和持续创新，我们取得了一系列令人骄傲的科研成果，为推动科学的发展和社会的进步作出了积极的贡献。

本文将对研究院过去一年的科研成果进行总结，并探讨未来的创新发展方向。

一、成果总结1.项目研究：在项目研究方面，研究院开展了多个重点项目，涵盖了各个领域。

以“高性能计算平台研究与优化”项目为例，通过深入研究和技术创新，我们开发出了一套高性能计算平台，极大地提高了计算效率和精度，受到了业界的广泛认可和好评。

2.学术论文：在学术研究方面，研究院的学术论文在同行评议的国内外学术期刊上发表了多篇高水平的论文。

我们的研究涉及多个前沿领域，如人工智能、大数据分析等，为学术界提供了新的思路和方法。

同时，我们的研究也得到了产业界的关注，在实践应用中取得了明显的成果。

3.科研团队建设：研究院注重科研团队的建设和培养。

我们引进了一批高水平的科研人才，建立了一支学术素质过硬且富有创新力的团队。

在过去的一年里，我们的科研团队充分发挥自身优势，开展了一系列有影响力的研究项目，形成了一批具有自主知识产权的技术和产品。

二、创新发展方向1.加强基础研究：在未来的科研工作中，研究院将继续加强基础研究的力度。

作为科学研究的基石，基础研究对于实现科学的突破和革新至关重要。

我们将深入研究学科的基础理论和前沿技术，突破传统思维的束缚，推动学科的发展和突破。

2.跨学科合作：未来的科研需要跨学科的合作。

研究院将积极与其他学科进行合作，促进知识的交叉和融合。

通过与其他领域的专家和学者进行合作，我们可以共同研究和解决一些复杂的科学问题，创造更大的科研价值。

3.产学研结合：研究院将继续深化产学研结合，加强与产业界的合作。

通过与企业和产业界的合作，我们可以更好地将科研成果转化为实际生产力。

同时，也可以从产业界的实践中获得新的问题和挑战，推动科研的深入发展。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

欢迎希望成为我的学生们阅读，包括本科生毕业设计、推免硕士研究生、统招硕士研究生和直博研究生。

下面先介绍我们的情况，然后提出对新学生的要求和期望。

本材料共4页，成稿于2018年8月14日。

一、国家高性能计算中心（合肥）—大数据挖掘与计算研究室
本实验室隶属于安徽省重点实验室—国家高性能计算中心（合肥），从事高性能计算与应用方向，是计算机学院的重点方向。

实验室由陈国良院士创建并领衔负责，现有100多名博士后、博士生和硕士生。

上图为实验室位于东区科研楼五楼一角。

现在本实验室共有1名博士后（与讯飞联合培养）、5名博士生、11名硕士生。

二、研究方向
1.文本序列异同分析：开源程序集，DNA和蛋白质序列，学术文献挖掘；
2.软件分析：代码克隆，代码推荐和生成，软件架构改良；
3.并行计算及性能优化：自适应并行编程框架，并行算法及系统性能优化；
4.区块链技术及应用。

三、研究成果
本研究室早期得到985工程“信息科技前沿理论与应用”创新平台、教育部“大规模科学工程计算”长江学者和创新团队、教育部和外专局“计算科学及其应用基础”111引智计划等重大项目支持，目前得到教育部“高性能计算协同创新”2011计划、科技部“大数据分析及应用创新团队”、“面向大规模序列同源问题的并行分布式算法及其关键技术研究”基金委面上项目等新近支持。

程序集和基因组中原版片段或祖先片段搜寻和分析称之为序列同源分析，是软件源码补全、代码自动生成和推荐等新一代软件开发技术中的理论基础和关键技术，也是文本异同分析共性技术和关键。

我们发展的Large Gap克隆工具CCAligner 和序列比对算法BitMapper，分别在软件工程顶会ICSE2018和Bioinformatics2018上发表，其他研究成果有发表在数据挖掘顶刊TKDE和并行计算顶刊TPDS上。

四、研究意义
左图说明并行计算需要学习和训练，右图说明并行计算是大数据和人工智能的核心技术和支撑。

我们开展的大数据挖掘与计算，主要是进行大规模序列数据的异同分析和挖掘，依靠的是并行算法和并行计算技术。

五、研究工作
1. 软件源码分析及应用
1)主要研究内容：
a)大差异的软件源码克隆算法研究
面向较小差异的源代码克隆算法SourcererCC取得了较好的进展，对于软件迭代开发中的大差异代码克隆一直是业界的挑战问题和应用，我们提出CCAligner1&2工具该需求问题的研究突破，其中CCAligner1发表在国际软件工程学术会议ICSE2018上。

学生受同行研究者的邀请到加拿大访问，此项工作已有企业意向合作。

b)基于克隆的软件分析和代码补全推荐
软件代码的智能生成一直软件工程界的追求和期望，我们已在基于CCAligner工具上的API序列推荐和代码补全推荐上展开工作和研究，目前已取得好于同类工具的初步研究结果。

2)合作研究
a)国外：Roy教授（University of Saskatchewan, Canada）等；
b)国内：华为公司、浙江大学等多位国内同行；
3)毕业学生：张弘硕士（美国弗吉尼亚理工读博），张鑫鑫硕士（杭州阿里），汪
敏硕士（上海华为）等。

4)重要项目：
a)面向大规模序列同源问题的并行分布式算法及其关键技术研究，国家自然
基金面上项目；
b)大数据分析及应用创新团队，科技部项目；
5)重要论文：1篇软件工程顶会ICSE论文，及其他多篇论文。

2. 并行编程框架和并行算法设计
6)主要研究内容：
c)面向信号处理的跨平台并行编程框架研究
设计了一种渐进、非颠覆式的并行编程模型，并在华为项目、南京十四所项目中得到应用。

面对复杂计算环境和资源调度，提出的自动性能寻优技术是我们的创新和贡献。

d)新一代并行机及其体系结构上的并行算法设计
在新一代CMP和GPU上的设计和开发重要并行算法和工具环境，一类动态规划矩阵的并行化和LCS与MLCS算法的高效实现，以及图论算法并行化（BFS），其中并行BFS取得性能两倍好于Graph 500中算法。

7)合作研究
a)研究者：尚奕教授（University of Missouri, Columbia）等；
b)单位：华为公司，中电集团十四所、三十八所；
8)毕业学生：张坤鹏硕士（美国西北大学读，美国高校任教），余林彬硕士（美
国读博，Facebook工作），胡自林硕士（上海HP）、邱鹏飞硕士（百度搜索研发部），吴彦钊学士（美国佐治亚理工读博）等。

9)重要项目：
a)并行计算模型和性能优化，国家863重大项目子课题；
b)BWDSP100 C编译器实现，“核高基”科技重大专项；
c)基于龙芯3号的通信与数学库的研制，“核高基”科技重大专项。

10)重要论文：国内科学通报、软件学报、计算机学报论文多篇，并行计算领域顶
级期刊TPDS上1篇，数据挖掘领域顶级期刊TKDE上1篇。

3. 生物信息学算法及文献挖掘应用
1)主要研究内容：
a)生物测序序列比对算法和索引技术
BLAST软件优化和并行化，BitMapper测序序列找全比对算法，BitMapperBS甲基化比对算法，BWT索引技术改造和优化等。

b)大规模的生物文献挖掘研究
实体命名识别，蛋白质相互作用关系提取，以及与疾病关系提取。

2)合作研究
a)国外：尚奕教授（University of Missouri, Columbia），姜涛教授（University
of California, Riverside Riverside）。

b)国内：张强峰研究员（清华大学），薛宇教授（华中科大生命学院）。

3)毕业的学生：张强峰博士（美国读博，青千，清华任教），宋彬硕士（美国Oracle），
张弘硕士（美国弗吉尼亚大学读博），刘娟学士（美国读博，google工作）等。

4)重要项目：2项国家自然基金面上项目和1项国家863项目。

5)重要论文：多篇Bioinformation（影响因子5.0以上），多篇BMC Bioinformatics
（影响因子3.49左右），数篇TCBB。

六、对未来学生的要求
1.具备
良好的专业和英语基础，进取的学习和研究精神，正直的人生和生活态度；
2.期望
成为德才兼备的社会和国家有用之才。

欢迎本科生、推免硕士研究生、硕士研究生和直博研究生的加入！。