证券行业投资者服务数据集市-建设方案
证券公司数据中心解决方案27.doc

证券公司数据中心解决方案27 证券公司数据中心解决方案○市场需求近两年来,在各行各业的大型企业的IT 规划中,广泛探讨的主题是数据中心大集中。
同样在证券行业,“集中交易”也成为证券公司广泛探讨的一个热门话题。
在证券行业IT 建设的不断发展过程中,为了加快对市场的响应速度,对IT 应用系统开发的速度提出了更快的要求,为适应这种变化,IT 的体系结构从原来单一集中式模式,走向分布式模式,并逐步演变成难以控制的分散式架构。
实践证明,在这种分散式架构给证券行业的业务开展带来了诸多负面效果:●资源利用率不足:设施闲置率高;●建设标准不统一:运维复杂、低效;●抵御风险能力差:信息资源分置,无法形成统一的容灾方案和业务永续计划;●安全策略不一致:安全需要整体部署,单个信息点的安全问题带来的是整网的安全隐患;●灾备复杂且昂贵:在众多的分散中心的条件下,实施相互灾难备份的费用是非常庞大的,其管理及运作是及其艰难的面对这些挑战:●如何更好的支持现有业务的运营以及新业务的开展?●怎样加强对公司众多分支机构、营业网点的管理?●怎样有效快速地分析业务数据?解决之道就是进行数据集中,建立数据中心,数据中心是放置关键业务的服务器资源、存储资源、网络资源的中心位置,实现了对计算、存储和网络资源的可控的、集中化的管理,并提供连续性、安全性和可扩展性保障。
数据集中有利于管理的集约化和精细化,也是证券公司优化业务流程和管理流程的必要手段。
H3C 的数据中心解决方案作为证券公司信息系统平台的重要组成部分,为集中交易系统、监控稽核系统、CRM 系统、资产管理系统等业务系统提供基础的IT 平台。
○解决方案●数据中心之标准化证券数据中心整体的建设包含了网络、安全、存储等一体化基础平台的建设,H3C 可以提供全线产品和一体化的基础平台;而对于证券数据中心的统一管理,H3C 的IMC 的智能管理中心可以实现对基础架构的一体化管理,可以说证券数据中心解决方案是IToIP的最佳实现解决方案。
证券行业大数据可视化平台建设方案

证券行业大数据解决方案前言随着互联网及移动互联网的高速发展,传统证券业也逐步走向市场化和网络化,行业在快速变化中也面临着激烈的竞争,一方面国家监管层面逐步放开管制,加强监督,鼓励创新。
另一方面,证券行业内部各公司也在不断的与时俱进,从经纪、资管业务的网络化,到证券版银联的发展,再到个性化、移动化、社交化的客户服务。
证券公司要在这样竞争激烈市场中保持领先地位,需要在满足监管层合规审计的要求下,以客户为中心,对内深化运营和服务,提高现有客户体验和单客户价值;对外实时了解市场和上市企业等信息,加强跨界合作,对潜在客户精准定位和营销。
在这样背景下,数据成为券商提供内外竞争力的关键,只有及时准确地获得客户在内部和外部的交易、行为,媒体偏好,社交内容的信息数据,才能更好的了解客户,做好营销和服务,并不断优化产品设计和运营。
证券行业大数据问题及解决方案1、哪些数据需要纳入到大数据平台上来?证券公司内部在经纪业务、资管业务、投行业务和自营业务中存在各个系统,例如股票交易系统、理财交易系统、用户开户系统、客服系统等。
同时,在各个业务中又存在各种角色,如用户,上市公司、融资方、出资方、托管行等。
这些角色在各个系统每时每刻都在产生着各种结构的数据,这些数据产生的不但数量大,类型多,速度快,而且可能会存在各个系统的不一致。
同时,在互联网高速发展的今天,和证券公司相关的各个角色也在无时无刻不在产生大量的网络数据,例如用户的购物行为、媒体资讯浏览等,上市公司的投融资、并购活动等。
各业务形态也都在大的市场环境下受到影响,例如政策法规、国内外金融形势、重大事件等。
这些数据中哪些应该被纳入大数据平台呢,是根据最终的业务场景来决定,还是将所有能获取的数据全部纳入,深入挖掘,以数据说话呢?本方案的大数据理念是数据标准化和分层接入。
对目前和将来可获取的数据类型、来源进行充分调研和理解,制定统一的数据接入标准、结构化标准、归一化标准、挖掘标准,以实现很好的系统扩展性。
中国证券业协会关于发布《证券公司营业部投资者教育工作业务规范》的通知

中国证券业协会关于发布《证券公司营业部投资者教育工作业务规范》的通知文章属性•【制定机关】中国证券业协会•【公布日期】2009.03.24•【文号】中证协发[2009]50号•【施行日期】2009.03.24•【效力等级】行业规定•【时效性】失效•【主题分类】证券正文中国证券业协会关于发布《证券公司营业部投资者教育工作业务规范》的通知(中证协发[2009]50号)各证券公司会员:为了进一步规范证券公司营业部投资者教育工作,我会制定了《证券公司营业部投资者教育工作业务规范》,并经理事会表决通过,现予发布,请遵照执行。
附件:证券公司营业部投资者教育工作业务规范二○○九年三月二十四日附件证券公司营业部投资者教育工作业务规范第一章总则第一条为了进一步规范证券公司营业部(以下称营业部)投资者教育工作,引导各类证券投资者树立正确的投资理念,增强风险防范意识,促进证券市场的健康稳定发展,根据《中国证券业协会会员投资者教育工作指引(试行)》和中国证监会(以下称证监会)的相关规定,制定本规范。
第二条营业部投资者教育工作的内容,主要包括普及证券基础知识、宣传金融证券方面的政策法规及市场规则、揭示证券投资风险、介绍各种证券投资产品和各项证券业务、公示相关信息、接受咨询与处理投诉等。
第三条营业部在开展投资者教育工作中应遵循长期性、实用性、有效性的原则,把投资者教育有机融入各项业务环节。
第四条营业部应当在公司指导下开展投资者教育工作。
第二章投资者教育工作组织制度建设第五条营业部负责人为投资者教育工作负责人和第一责任人。
营业部应当建立由客户服务、客户营销、合规管理、信息技术、财务管理等业务负责人组成的营业部投资者教育工作领导小组;客户服务和客户营销业务的负责人具体负责营业部投资者教育工作的推广和落实。
第六条营业部投资者教育工作领导小组的基本职责为:(一)按照证监会、中国证券业协会(以下称协会)、地方证券业协会(以下称地方协会)的相关要求和公司总部关于投资者教育的工作制度、工作计划,制定与本营业部相适应的投资者教育年度计划和实施方案;(二)统筹安排本营业部投资者教育工作专项经费;(三)策划、组织实施本营业部投资者教育工作计划中的各项内容;(四)调查和研究本营业部投资者教育工作中出现的问题;(五)检查、评价本营业部投资者教育工作的效果;(六)及时向公司总部反映投资者教育工作中的情况。
证券行业大数据应用方案

(高管) 判断、决策
为中层管理者提供精 细化的管控平台
从繁琐的数据统计中解 脱,参与数据的分析和 管控
(中层管理) 核查、分析
(业务人员) 及时录入 、保证质 量
26
数据价值流向
数据不可见 数据可见 数据可用 数据价值
业务系统 报表中心 指标体系
综合数据应用
传统数仓 大数据平台
报表集市
管理驾驶舱
固定报表查询 数据多终端展现—— PC、移动端、大屏
信用交易部:提供给部门内融资融券交易金额、融资融券余额、维持 担保比例、融资买入金额、融资卖出金额、信用证券账户情况、质押回 购业务等的查询
零售客户部:提供给部门内非现场交流量统计、手机交易量统计、手 机交易佣金统计、手机交易客户数、比手机交易客户比例等的查询
1 1
报表平台——业务固定报表
报表类别 按性质分
数据缓冲区
临时数据
财务主题
风控主题 DW层 ODS层
运营主题
零售主题
用户 展示层 数据分析
平台 数据集成
数据仓库
数据分析平台建设思路
ETL
ETL
数据分析平台建设思路
第一阶段
第二阶段
第三阶段
第四阶段
数据中心-数据集市指标 梳理
数据中心-财务数据集市 报表平台-计财部日常报
表
夯实基础
数据中心-各业务主题数据集市 报表平台-风控部、运营部等部
价值
IT成就业务目标
价值创造
“管理”——驾驶舱
企业经营决策
“主动”——BI平台(灵活数据分析) 业务主题分析
“被动”——报表平台(各业务部门日常报表) 收集展现各业务条线日常固定报表需求
证券行业智能化数据分析与决策支持方案

证券行业智能化数据分析与决策支持方案第1章引言 (3)1.1 背景与意义 (3)1.2 研究内容与方法 (3)第2章证券行业概述 (4)2.1 证券市场发展现状 (4)2.2 证券行业业务流程 (4)2.3 证券行业数据特点 (4)第3章智能化数据分析技术 (5)3.1 数据预处理技术 (5)3.1.1 数据清洗 (5)3.1.2 数据集成 (5)3.1.3 数据转换 (5)3.1.4 数据归一化 (6)3.2 数据挖掘与知识发觉 (6)3.2.1 关联分析 (6)3.2.2 分类 (6)3.2.3 聚类 (6)3.2.4 预测 (6)3.3 机器学习与深度学习 (6)3.3.1 机器学习 (6)3.3.2 深度学习 (7)第4章决策支持系统构建 (7)4.1 决策支持系统框架 (7)4.1.1 数据采集与预处理 (7)4.1.2 数据存储与管理 (7)4.1.3 数据分析与模型构建 (7)4.1.4 决策支持与可视化 (7)4.1.5 系统接口与集成 (8)4.2 数据仓库设计与实现 (8)4.2.1 数据仓库架构 (8)4.2.2 数据模型设计 (8)4.2.3 数据仓库实现 (8)4.3 数据分析与决策模型 (8)4.3.1 数据分析模型 (8)4.3.2 决策模型 (8)第5章证券市场趋势分析 (9)5.1 趋势分析概述 (9)5.2 趋势预测模型与方法 (9)5.3 趋势分析在证券市场的应用 (9)第6章证券投资组合优化 (10)6.1 投资组合理论概述 (10)6.3 智能化投资组合优化策略 (10)第7章风险管理与控制 (11)7.1 证券市场风险概述 (11)7.2 风险评估与度量方法 (11)7.2.1 市场风险度量 (11)7.2.2 信用风险度量 (11)7.2.3 流动性风险度量 (11)7.2.4 操作风险度量 (11)7.3 智能化风险管理与控制策略 (11)7.3.1 建立全面风险管理体系 (11)7.3.2 利用大数据分析技术 (12)7.3.3 构建风险预测模型 (12)7.3.4 优化风险控制策略 (12)7.3.5 加强内部控制与合规管理 (12)第8章证券行业监管科技 (12)8.1 监管科技概述 (12)8.2 证券行业监管需求与挑战 (12)8.2.1 监管需求 (12)8.2.2 监管挑战 (13)8.3 智能化监管科技应用与案例分析 (13)8.3.1 智能合规检查 (13)8.3.2 风险监测与预警 (13)8.3.3 信息披露智能审核 (13)8.3.4 数据挖掘与分析 (13)8.3.5 智能监管报告 (14)第9章证券行业客户服务与营销 (14)9.1 客户服务与营销概述 (14)9.2 智能客户关系管理 (14)9.2.1 客户画像构建 (14)9.2.2 客户分层与分类 (14)9.2.3 智能客户服务 (14)9.3 数据驱动的精准营销 (15)9.3.1 营销策略制定 (15)9.3.2 营销活动实施与监控 (15)9.3.3 营销优化与调整 (15)第十章案例分析与发展趋势 (16)10.1 国内外证券行业智能化案例分析 (16)10.1.1 国内证券行业智能化案例 (16)10.1.2 国外证券行业智能化案例 (16)10.2 证券行业智能化发展趋势与展望 (16)10.2.1 发展趋势 (16)10.2.2 展望 (16)10.3 面临的挑战与应对策略 (17)10.3.2 应对策略 (17)第1章引言1.1 背景与意义信息技术的飞速发展,大数据、人工智能等先进技术在金融领域的应用日益广泛。
证券行业智能投顾服务方案

证券行业智能投顾服务方案第1章智能投顾服务概述 (3)1.1 投顾服务发展背景 (3)1.2 智能投顾服务定义与价值 (3)1.3 智能投顾与传统投顾的对比 (4)第2章证券行业现状与挑战 (4)2.1 证券行业市场规模及发展趋势 (4)2.2 证券行业面临的主要挑战 (5)2.3 智能投顾在证券行业的应用前景 (5)第3章智能投顾技术架构 (5)3.1 大数据技术 (5)3.2 机器学习与人工智能算法 (6)3.3 云计算与分布式计算 (6)3.4 区块链技术 (6)第4章投顾服务流程设计 (7)4.1 投资者需求分析 (7)4.2 风险评估与资产配置 (7)4.3 投资组合构建与优化 (7)4.4 投顾服务执行与监控 (7)第5章投资者画像与风险评估 (8)5.1 投资者画像构建方法 (8)5.1.1 数据收集与预处理 (8)5.1.2 特征工程 (8)5.1.3 投资者分类 (8)5.1.4 投资者画像可视化 (8)5.2 风险评估体系设计 (8)5.2.1 风险指标体系构建 (8)5.2.2 风险评估模型 (8)5.2.3 风险预警机制 (9)5.3 投资者风险承受能力分析 (9)5.3.1 风险承受能力评估方法 (9)5.3.2 风险承受能力与投资策略匹配 (9)5.3.3 风险承受能力动态调整 (9)5.4 风险评估结果的应用 (9)5.4.1 投资建议 (9)5.4.2 风险控制 (9)5.4.3 投资者教育 (9)5.4.4 服务优化 (9)第6章智能投资组合策略 (9)6.1 资产配置策略 (9)6.1.1 风险收益最优化的资产配置 (10)6.1.2 动态资产配置策略 (10)6.2.1 马科维茨投资组合优化模型 (10)6.2.2 考虑流动性约束的投资组合优化 (10)6.3 智能选股与量化策略 (10)6.3.1 基于机器学习的智能选股策略 (10)6.3.2 量化投资策略 (10)6.4 投资组合调仓与再平衡 (10)6.4.1 投资组合调仓策略 (10)6.4.2 投资组合再平衡策略 (10)第7章智能投顾服务监管与合规 (10)7.1 监管政策概述 (11)7.1.1 监管部门对智能投顾的态度 (11)7.1.2 监管政策的主要内容 (11)7.2 合规性要求与风险控制 (11)7.2.1 合规性要求 (11)7.2.2 风险控制 (11)7.3 数据安全与隐私保护 (11)7.3.1 数据安全 (11)7.3.2 隐私保护 (12)7.4 智能投顾服务监管科技应用 (12)7.4.1 监管科技概述 (12)7.4.2 监管科技应用实例 (12)第8章投顾服务营销与推广 (12)8.1 市场定位与竞争分析 (12)8.1.1 市场定位 (12)8.1.2 竞争分析 (12)8.2 投顾服务产品设计与定价 (13)8.2.1 产品设计 (13)8.2.2 定价策略 (13)8.3 营销策略与渠道拓展 (13)8.3.1 营销策略 (13)8.3.2 渠道拓展 (13)8.4 客户服务与关系管理 (13)8.4.1 客户服务 (14)8.4.2 关系管理 (14)第9章智能投顾服务平台建设 (14)9.1 平台架构设计与功能模块 (14)9.1.1 架构设计 (14)9.1.2 功能模块 (14)9.2 技术选型与开发实施 (15)9.2.1 技术选型 (15)9.2.2 开发实施 (15)9.3 系统集成与测试 (15)9.3.1 系统集成 (15)9.4 持续优化与升级 (16)第十章案例分析与未来发展展望 (16)10.1 国内外智能投顾服务案例分析 (16)10.1.1 国内智能投顾服务案例 (16)10.1.2 国外智能投顾服务案例 (16)10.2 智能投顾服务发展趋势 (16)10.2.1 技术驱动 (16)10.2.2 服务模式创新 (16)10.2.3 监管政策支持 (17)10.3 未来挑战与机遇 (17)10.3.1 挑战 (17)10.3.2 机遇 (17)10.4 证券行业智能投顾服务发展建议 (17)10.4.1 加强技术研发 (17)10.4.2 完善服务体系建设 (17)10.4.3 强化合规意识 (17)10.4.4 培养专业人才 (17)10.4.5 拓展合作渠道 (17)第1章智能投顾服务概述1.1 投顾服务发展背景我国经济的持续增长,资本市场日益成熟,投资者对财富管理的需求不断提高。
证券集系统建设方案

WEB客户端 • 客户端的操作 与平台的无关 性 • 易用性、可维 护性
23
系统平台设计—主机平台 系统平台设计 主机平台
方案一:采用 方案一:采用IBM小型机系统 小型机系统
数据库主机:选用两台 系列660 6M1(4路 数据库主机:选用两台IBM p 系列 ( 路 750MHz CPU、4GB内存)主机组成一个计算机群集系统 内存) 、 内存 作为后台数据库平台
3
系统总体设计—分析 扩展性设计 系统总体设计 分析—扩展性设计 分析
基础功能单元设计, 基础功能单元设计,提供二次开发的基础构件 数据模型设计在保证已知业务灵活应用的基础上, 数据模型设计在保证已知业务灵活应用的基础上,采 用动态扩展的设计模式 开放式设计的中间件模块, 开放式设计的中间件模块,动态业务模块加载的方式 ,为不同业务系统的数据共享提供支撑平台 基于中间件的业务逻辑设计, 基于中间件的业务逻辑设计,业务应用对数据库平台 的依赖性降低,易于实现对数据库物理设备的扩展; 的依赖性降低,易于实现对数据库物理设备的扩展; 基于开放式标准规范的接口设计, 基于开放式标准规范的接口设计,可很方便地确保不 同接入方式的业务应用
5
系统总体设计—分析 高效性设计 系统总体设计 分析—高效性设计 分析
有效的业务处理流程 业务流程划分为处理业务与信息业务, 业务流程划分为处理业务与信息业务,所需要的信息提示 剥离于具体业务应用之外 中间件实现 请求-应答 应答” 订阅-出版 发行” 出版-发行 中间件实现 “请求 应答”、“订阅 出版 发行”、“信 息广播”等数据处理类型,减少客户不必要的请求, 息广播”等数据处理类型,减少客户不必要的请求,降低 对系统的性能影响 数据库部分数据的组织, 数据库部分数据的组织,减少业务的应用所需要的多个表 的关联;同时优化数据表的索引设计, 的关联;同时优化数据表的索引设计,对数据库的布局加 以合理的设计 业务应用的数据缓冲机制
XX证券公司客户服务体系建设规划项目建议书

XX证券公司客户服务体系建设规划项目书“十二五”期间乃至未来十年,是公司业务转型大有可为日勺.重要战略机遇期,也是公司客户服务体系建设日勺.关键时期。
为全面贯彻落实公司“十二五”发展战略与规划对客户服务工作日勺.要求,营销服务管理总部制定了《**证券客户服务体系建设规划》。
《客户服务体系建设规划》是公司建设业内一流客户服务品牌日勺.行动指南,旨在阐明经纪业务客户服务体系建设战略目标和行动次序,是未来五年公司经纪业务客户服务工作日勺.宏伟蓝图和客户服务线上全体员工共同日勺.行动纲领。
第一部分规划日勺.背景一、公司客户服务工作日勺.历史成就经过公司上下十余年日勺.不懈努力,在公司党委和管理层日勺.正确领导下,公司启动了各项业务日勺.战略转型,在经纪业务方面将营销和服务作为业务转型日勺.重点工作。
在这一战略日勺.指引下,公司客户服务工作取得重要进展:一是在业内表率性地完成了账户规范,建立了账户管理日勺.长效机制,为客户服务日勺.合规性奠定了基础;二是通过实施营业部前中后台分设日勺.经营管理模式,明确了中台服务日勺.管理架构,局部调整了总部部门设置,设立了总部层面日勺.理财中心;三是以适当性管理为主线,出台了一系列服务制度,制定了投顾管理制度,健全了客户投诉、建议、回访日勺.机制,完善了投资者教育工作方案,获得了监管部门肯定;四是从无到有建成了呼叫中心,在呼叫量、接通率、满意度等方面均取得优异日勺.成绩,完善了从公司总部到营业部日勺.业务咨询体系;五是理财类服务逐步完善,加大了产品研发力度,初步形成了包括资讯、咨询、短信提醒等在内日勺.产品体系;六是加强了服务支持系统建设,建成了数据中心和CRM系统,为实施客户关系管理提供了系统支持,对客户服务接触点系统进行了优化,建设、优化了网站和客户服务平台;七是服务团队建设初具成效,建立了近300人日勺.中台服务团队,探索建立中台服务日勺.服务规范、服务标准和服务流程,加快了营业部投顾人才引进。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
证券行业投资者服务数据集市建设方案目录1.背景介绍 (3)2.项目需求 (4)1.功能性需求 (4)2.非功能性需求 (5)3.安全性需求 (5)3.技术架构 (5)3.1.逻辑架构 (5)1.数据采集途径一:批量数据ETL (6)2.数据采集途径二:准实时数据同步 (6)3.数据存储 (7)4.数据服务 (7)3.2.数据架构 (7)3.3.物理架构 (9)1.批量数据ETL 服务器 (10)2.数据缓存队列服务器集群 (11)3.集市数据库及并行计算服务器集群 (11)4.应用服务器集群 (11)4.关键技术 (12)4.1.NoSQL 数据库:SequoiaDB (12)4.2.批量数据加工:Spark SQL (15)4.3.实时数据流处理:Kafka + Spark streaming (16)5.总结和展望 (17)5.1.项目成果 (17)5.2.未来规划 (18)1.批量数据ETL 流程优化 (18)2.数据生命周期管理 (18)3.元数据管理 (19)1.背景介绍我国股市约有 1.2 亿散户,直接关乎上亿家庭、数亿人切身利益,保护好投资者尤其是中小投资者的合法权益,是资本市场工作人民性的具体体现,也是服务实体经济的应有之义。
党的十九大明确提出“必须坚持以人民为中心的发展思想”。
中国证监会有关负责人表示,要认真贯彻落实十九大精神和党中央、国务院关于资本市场建设的一系列决策部署,加快推动形成融资功能完备、基础制度扎实、市场监管有效、投资者合法权益得到有效保护的多层次资本市场体系,切实做好投资者保护工作。
证监会主席刘士余先后多次强调“投资者保护重如泰山”、“保护投资者合法权益是证监会职责和使命所在”、“保护中小投资者合法权益是天大的事”。
目前,公司对投资者服务主要依赖人工柜台,柜员手工进行业务操作和数据查询,受限于服务网点数量和人工办理效率,不能很好满足投资者服务需求。
为更好地服务广大中小投资者,保护其合法权益,根据公司战略布局和技术规划,决定建设多渠道的投资者综合服务专区系统及相配套的面向投资者服务的数据集市,为其提供用户体验好、快速便捷、智能化的账户查询和证券质押等服务。
在数据集市建设之前,数据查询主要依赖于数据仓库。
数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持决策支持系统的功能。
在数据仓库里,每个数据单元都与特定的时间相关。
数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库是一个典型的OLAP 系统,在高并发、快速响应的场景下具有很大的局限性,无法满足海量投资者数据查询服务需求。
目前数据仓库使用TD 一体机设备,成本十分高昂。
数据集市(Data Mart) ,也叫数据市场,是企业级数据仓库的一个子集,是为满足特定的部门或者用户的需求,只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。
数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
为了保证投资者服务系统在低延时和高并发查询的情况下具备足够的支撑能力,可以7×24 对外提供数据服务,且不影响原有数据仓库统计分析应用的正常运行,最终决定建设面向投资者服务的专业数据集市。
2.项目需求投资者服务数据集市主要目标是以面向用户体验为基础,具有业务敏捷、分布式服务、高伸缩、高可用、易管理维护等特点,为多渠道的投资者综合服务专区服务。
先期开始建设的数据集市主要包括有新三板市场投资者服务数据集市、基金市场投资者投票服务数据集市、全市场在线业务查询数据集市。
其建设原则应包括:●抓住主线功能需求;●采用主流技术;●满足未来发展需求;●充分验证测试。
基于上述目标和原则,我们总结了如下需求。
1.功能性需求●存储现有数仓中沪深市场、新三板市场、基金市场等各类投资者数据;●支持结构化和非结构化数据;●数据库和其他服务组件具备动态扩容能力,以支撑数据集市阶段性发展的容量和计算能力需要;●支持T+1 批量数据的ETL 功能,能够从TeraData 数据仓库及其他数据库采集数据;●支持实时数据流处理能力,实现准实时数据同步;●支持数据加工,主要是多表关联和聚合运算;●数据库支持SQL 和API 访问接口,方便应用开发;●支持数据备份恢复;●具备完善的管理功能,例如监控、配置和任务调度等;2.非功能性需求●海量数据存储。
初期至少支撑100TB 存储容量,远期支撑PB 级;●高并发访问。
初期至少支撑1 万并发查询,远期支撑10 万并发查询;●低延时。
在高并发情况下,查询响应时间不超过100 毫秒;●7x24 持续稳定运行。
在高可用集群技术支撑下能够实现集群级别的不间断持续稳定运行,并能够在绝大部分场景下进行不停止集群的数据库维护工作。
3.安全性需求●数据高可用。
需要支持多副本冗余。
在部分副本数据损毁情况下,保障数据不丢失;●用户身份验证和权限管理。
用户不可越权访问数据;●完善的审计功能。
能够完全记录所有数据访问和数据操作。
3.技术架构3.1. 逻辑架构截止目前,三个数据集市的数据分别来源于数据仓库和基金投票系统。
所有数据需经过ETL 处理后存储到数据集市中,部分数据还需经过批量加工处理后,供下游数据使用者查询。
数据集市的逻辑架构如图一所示。
图一:逻辑架构如图一所示,从上游数据源到下游使用者,中间提供服务的数据集市内部包含数据采集、数据传输、数据处理、数据存储和平台服务这五大功能模块。
其中,数据采集、数据传输、数据处理可以类比为传统的ETL 功能模块。
但是,这个数据集市的ETL 功能模块包含了两种ETL 方式:批量数据ETL 和准实时数据同步。
1.数据采集途径一:批量数据ETL新三板市场和全市场在线业务数据集市要求数据每日更新。
因此这两个数据集市均采用传统的ETL 方式,即每日定时导出批量数据到文件(Extract),然后经过文件传输、数据转换(Transform)和数据加载(Load),最终将数据放入数据集市的数据库中存储,以供下游使用者查询。
我们称这个流程为批量数据ETL。
主要包含以下步骤:1)定时抽取:每天夜间,数据仓库里边的数据加工处理完毕之后,数据集市的抽取任务定时启动,将约定数据接口的新增数据或者全量数据抽取到数据文件中。
2)文件缓存:抽取环节生成的数据文件需要存放到文件系统中,以备后续数据处理之用。
另外,数据文件需要压缩缓存多天,作为数据备份使用。
3)批量处理:两个数据集市的大部分接口数据只需要数据转换和加载入库。
少量接口数据需要在数据入库之后进行加工处理。
加工的主要需求是预关联,即将两表或者多表数据关联形成更多字段的新表,以满足两个数据集市的数据查询需求。
2.数据采集途径二:准实时数据同步基金市场投资者投票服务数据集市对数据时效要求较高,要求数据准实时同步,以数据准实时查询。
具体而言,即要求上游系统(基金市场投资者投票服务系统)的数据发生变化(包含增删改)之后,数据集市内的数据也需在短时间之内(5 秒之内)实现相同的变化。
我们称这种ETL 方式为数据准实时同步,也可称为实时数据流处理。
主要包含以下步骤:1)实时采集:该步骤要求最短时间内发现源数据库的数据变化,包含对应库表的数据的增删改,并且不对源数据库产生明显的性能影响。
2)缓存队列:为了增加稳定性和吞吐量,在实时采集和实时数据加工处理环节中间使用数据缓存。
该缓存以队列的方式,保障数据先进先出的顺序关系。
该缓存队列要求具备优秀的响应性能、并发能力、高吞吐量、稳定性和高可用能力,以保障数据同步流程安全可用。
3)实时处理:该环节包括数据加载和实时统计两方面作业内容。
每条投票数据顺序进入缓存队列之后,由实时处理程序顺序的读出并加载入库,同时实时统计投票数等重要数据,用于基金投票状态的实时展示。
3.数据存储数据经过ETL 过程之后,被存入数据库,主要包括账户数据和交易明细数据。
4.数据服务数据查询是数据集市最核心的服务。
新三板市场投资者服务数据集市和全市场在线业务数据集市这两个数据集市主要提供账户数据、证券交易流水查询服务。
基金市场投资者投票服务数据集市主要提供投票详情及实时统计结果查询。
归结起来,这些主要是高并发的精准查询。
3.2. 数据架构数据进入数据仓库之后,将根据分析或者查询的需求,加工和汇总成相应主题。
因此,数据集市的数据也将按照查询主题进行组织和管理。
根据数据主题及数据处理加工流程,我们规划设计了数据架构如图二所示。
图二:数据架构图目前已经实施了如下三个数据集市:●新三板市场投资者服务数据集市;●全市场在线业务查询数据集市;基金市场投资者投票服务数据集市。
上述三个数据集市之间不共享数据、不需要关联查询、不存在交叉访问权限,是可以完全独立运行的。
但是,在数据库中不是分库管理的,而是通过权限控制形成逻辑层面的独立数据集市,这样可以共享软硬件资源。
新三板市场投资者服务数据集市和全市场在线业务查询数据集市的数据来源均为数据仓库。
数据接口形式为T+1 的批量数据文件,即每日证券市场收市清算交收批量处理产生的数据。
两个数据集市由不同的逻辑数据域存储,管理隔离。
同时,由于这两个数据集市的数据查询需求中存在表关联情况,而频繁的并发关联查询需要消耗大量磁盘I/O、内存和CPU 计算时间,所以要对多表关联进行预加工处理,即将多表关联到一张表中,以便于将多表关联查询转变为单表查询,从而提升查询效率。
基金市场投资者投票服务数据集市的数据来源于上游交易系统数据库的数据实时采集,即数据变化实时同步到数据集市中。
同时,由于基金投票场景中存在实时显示投票进展的需求,所以需要实时统计各投票选项的票数,对每条投票数据进行实时累加统计,并将结果更新入数据集市的统计表中。
下游各业务系统通过查询服务接口可以随时查询对应数据集市的数据。
查询服务提供身份验证、权限管理和查询接口,不允许修改数据。
3.3. 物理架构根据数据集市功能需求、逻辑架构和数据架构,我们规划的物理架构可以用图三来表述。
图三:物理架构图包括以下四个部分:1.批量数据ETL 服务器该服务器用于批量数据ETL 流程。
服务器中运转ETL 主控程序、数据转码程序和数据批量加载程序。
这些应用均为Java 语言开发。
ETL 主控程序使用统一调度监控系统(外部系统)的定时作业调起,完成指定数据接口的指定ETL 过程,例如检查数据文件到达情况,调用数据转码或者数据装载等动作。