人工智能在金融行业应用

人工智能分类技术视角

人工智能发展史

控制论与大脑模拟

Ai概念的建立

知识表示和常识知识库

机器学习

人工神经网络和深度学习

控制论与大脑模拟

AI概念的确立

1956年达特茅斯会议国际象棋上战胜人类机器翻译上战胜人类

知识表示和知识库构造

逻辑?

逻辑+知识

机器学习

1950, Alan Turing, The Turing test

1952, Arthur Samuel, “Machine Learning”1957, Rosenblatt, Perceptron

1967,The nearest neighbor algorithm 1969, Minsky, XOR problem

1981, Werbos, Multi-Layer Perceptron (MLP)1986, Quinlan, Decision Trees 1990, Schapire, Boosting

1995, Vapnik and Cortes, Support Vector Machines (SVM)

2001, Breiman, Random Forests(RF)

深度学习

2006, Hinton, Deep Learning

通过人工建设神经元,模拟人脑思维

深度学习已经在自然语言处理、机器视觉、语音识别、图像识别领域获得·巨大成功

算法基础

分类模式:

监督学习:回归分析,统计分类;

无监督学习:无监督学习(生成对抗网络、聚类);

半监督学习;

增强学习;

具体的机器学习算法:

构造间隔理论:聚类和模式识别,包括人工神经网络,决策树,感知器,支持

向量机,降纬,聚类,贝叶斯分类器;

构造条件概率:高斯过程回归,线性判别分析,最近近邻法,径向基函数核;

构造概率密度:期望最大算法(EM),概率图模型;

近似推断:马尔可夫链(包括HMM,隐马尔可夫模型),蒙特卡罗方法;

语音识别

输入数据处理

声音分桢,确定桢长和桢移;

声学特征提取,每一帧都转化为一个m纬向量,这样声音就被

转为一个m行,N列的矩阵,其中N为总帧数;

模型选取

每一帧对应一个状态,状态组成音素,音素组成词;使用HMM

模型,构建一个状态网络,其中网络的构建,需要使用大量的语

音材料和文本材料。

识别

识别过程相当于在这个网络中搜索一条最佳路径,是的声音对应

这条路径的概率最大。

文本处理

中文分词:

基于字符串匹配、基于理解、基于统计,其中基于统计的逐渐成为主流,主要

的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(HMM),最

大熵模型(ME),条件随机场模型(CRM)等。

文本特征提取:

一种是传统语义学的特征提取,比如pos-tagging,semantic parsing tree;

另一种是现代特征工程的特征提取,常用LSI,LDA以及word2vec等。

应用场景:

词性标注(3-gram HMM),文本分类(Naive Bayes),关键词和文本摘

要(TextRank),检索查询(TF-IDF),文本相似度(BM25)

计算机视觉

传统方法:

全局特征:颜色直方图、灰度共现矩阵(PCA分析)

局部特征:LBP特征、HOG特征、Haar特征

现代方法:

深度学习,大型卷积神经网络。

图论(Not AI but very important)

柯尼斯堡七桥问题戴克斯特拉算法(D.A)克鲁斯卡尔算法(K.A)普里姆算法(P.A)

拓扑排序算法(TSA)

关键路径算法(CPA)

广度优先搜索算法(BFS)深度优先搜索算法(DFS)

金融行业突破点业务视角

智能风控

信用风险:

市场风险:图计算中的关系传导算法;

运营风险:规则引擎;

欺诈风险:

欺诈环识别:图中的模式识别;

欺诈行为识别:统计分类的方法都可以尝试;

智能风控

16

网络行为数据企业服务范围内行为数据用户内容偏好数据用户交易数据授权数据第三方数据源合作方数据源公开数据源文本挖掘自然语言处理机器学习预测算法聚类算法大数据处理基本属性购买能力行为特性

兴趣爱好

心理特征

社交网络

反欺诈模型评级模型授信模型行为监控模型风险云图模型

数据收集

行为建模构建画像风险定价

清洗清洗脏数据转换数据格式转换集成集成不同数据NLP 其他处理

特征提取用户标签图谱构建.....

数据处理MySQL Oracle Cassandra Parquest CSV HBase

图片

文本文档

用户画像

用户画像结构化文档

非结构化文档

关系图谱

智能风控

四大方面的关联分析:

?企业与企业的连接

?企业与人的连接

?企业与事件的连接

?企业与行业的连接

智能风控

优势:

?数据采集手段多样:多方爬取、整合

?数据分析方式缜密:人工标注+知识图谱+非监督性学习

?数据来源多样且客观:行为数据=企业外部行为+关联方

行为

VS

劣势:

?数据采集手段原始:人工?数据分析方式粗暴:凭经验判断

?数据来源多经粉饰:财务数据=经营数据+纳税数据

智能营销

智能语音客服:

语音识别(语音、语义)

决策树

业务知识图谱搜索

语音合成

智能营销助手:

特征提取算法

协同过滤算法

智能场地应用

营业厅机器人:

语音识别,业务知识图谱搜索,机器人运动规划,机器视觉营业厅安防机器人:

机器视觉,危险行为模式识别

相关主题
相关文档
最新文档