基于模型的古画相关图像识别方法(IJEM-V7-N5-4)

I.J. Engineering and Manufacturing, 2017, 5, 39-47

Published Online September 2017 in MECS (https://www.360docs.net/doc/a115397592.html,)

DOI: 10.5815/ijem.2017.05.04

Available online at https://www.360docs.net/doc/a115397592.html,/ijem

Model Based Approach for Identification of Relevant Images from

Ancient Paintings

G.G.Naidu a, Y.Srinivas b*

a Dept of Computer Engg, Govt Polytechnic, Anakapalli, Visakhapatnam - 531001, India

b Dept of IT, GITAM University, Visakhapatnam -530045, India

Received: 12 January 2016; Accepted: 28 March 2017; Published: 08 September 2017

Abstract

In this paper an attempt is made to retrieve the relevant paintings based on the approach of the artist using Generalized Bivariate Laplacian Mixture Model (GBLMM). This article helps in understanding the outline of assorted artists and help as a means to categorize a scrupulous painting based on the style or the text ingrained within the images. To profile the artist style GBLMM is used. The projected model helps to discriminate the strokes of the artists and lend a hand in the classification of paintings. The proposed model is implemented using high resolution Chinese painting images.

Index Terms: GBLMM, classification, painting, retrieval, stroke.

? 2017 Published by MECS Publisher. Selection and/or peer review under responsibility of the Research Association of Modern Education and Computer Science.

1.Introduction

The area of image processing helps in better understanding the inherent details within the images. With the evolution of technologies, efforts are initiated to digitize the ancient arts and paintings [1]. Every artist holds his individual means of narration and depicts the same in the form of paintings. One can analyze the paintings that are digitized using the internet facility. Accordingly different algorithms have been developed to analyze the ancient digitized paintings [2]. Meaningful deductions can be made from the available literature, in better understanding the narrative styles of the artists. However, each painting has its own features, and each artist has his own way of drawing patterns, thereby the strokes applied among the artists differ. Several researchers have proposed methodologies to identify and classify the paintings based on features, digital signatures, frequency of application of a particular stroke etc. [3],[4],[5].

* Corresponding authors.

E-mail addresses: gagona.ggn@https://www.360docs.net/doc/a115397592.html,, sriteja.y@https://www.360docs.net/doc/a115397592.html,

Among these models, models based on parametric and non-parametric are focused. However, most of the presented works are totally based on the classification, and identifying the relevancy based on particular metrics [3]. Moreover, while classifying the images based on features, the variation among the pixels is not taken into account. Very little importance is highlighted towards the loss of connectivity among the pixels. Therefore effective classification of the relevant images based on either artistic styles or based on specific artist cannot be categorized effectively. In this proposed article an attempt is made to bridge these gaps in this direction.

To every image, a Meta tag is associated and each the images along with the tags are modelled using GBLMM. The classification process is carried out using the maximum likelihood estimate. The rest of the paper is organized as follows. In section II of the paper, the related work is presented. The section III highlights the major challenges with respect to the retrieval of relevant images. Section IV of the paper presents the GBLMM model along with the methodology. Section V highlights the feature extraction and the dataset considered together with experimentation is highlighted in section VI of the paper. The results derived together with evolution are highlighted in section VII and the final section VIII concludes the paper.

2.Related Work

Many authors have highlighted the methodologies for effective identification of the artistic images from the ancient paintings. C.C.Chen et al. (2002), have presented an idea of the ancient document together with the databases. Bouman, Liu (1991), have utilized the Markov model for segmenting the images. Choi and Baraniuk (1999), considered the hidden Markovian models for segmenting the images. The concept of gray scale document segmentation is utilized by Chaddha et al. (1994). The concept of thresh holding, VQ models, Bayes classification, segmentation of half toning are proposed by A.P.Dhawan et al. (1996), Sherbini (1995), Groes et al. (1995), Loum G et al. (1996), Mallet S.G (1989), F.Y.Shih (1996). In the article presented by Razvan George Condorovici et al (2013), the authors presented a model for automatic system that recognises Artistic genre identification. This is an integral part of the effective image processing systems aimed towards better understanding of artistic view. A relevance feedback mechanism was highlighted by Bogdan Boteanu et al (2014) in which the authors tried to retrieve the relevance images based on the query, it integrated the approaches of automation power of machines together support vector machine and relevance feedback mechanisms. Parag Dhonde et al (2015) have presented a model of image mining using the concepts of hierarchical K-Means algorithm and image vision tools to retrieve the images of interest. The concepts of parametric modelling were considered for classification of images and an elaborate study was presented by the authors Srinivas.Y (2007), Nagesh V (2010), Madhusudhan T (2013) and Anuradha P (2014).

3.Major Challenges

In spite of extensive works in this area, effective segmentation and classification is still a concern. This is due to fact that the features are extracted locally basing on which the segmentation is carried out, which results into core technical problems in case of similar images. The second challenge is with respect to the breaks in the images, in some of the images the variation among the inks cannot be identified exactly because of a low changes in the colour tones. Strokes of the artist also play vital role and very little attention is paid to identify the exactness of the strokes. To overcome this challenges, in this paper we have considered the GBLMM.

4.Generalized Bivariate Laplacian Mixture Model

The Probability Density Function (PDF) of GBLMM is given as

()√( ( ) ( ) ) ( ) ) (1)

Where

is the Bessel function, is scale parameter, 0 (2) The main consideration of GBLMM is that its ability to identify the variation among the regions with in the images. The image is divided into parts using discrete wavelet Harr transformation and the different regions LL, LH, HL, and HH are identified. The LL band helps to identify the low variations inside the images, variations along the horizontal direction can be attributed using HL bands, LH bands are considered for changes along the vertical direction and HH are utilized for identifying the high intensity image regions.

Each image is considered and the histograms are extracted using which the various bands such as LL, LH, HL and HH are identified. Each of the pixels within these bands is identified and is modelled using the GBLMM and the relevant PDF are identified. In order to minimize the space complexity, each of these bands are further subdivided and the highest frequency values are considered from each of these such bands and these values are given as inputs to the PDF of GBLMM given in section 3 of the paper. This is called the training phase. In the testing phase, the relevant images are extracted by comparing the similarity among the PDFs for which KL-divergence is considered. The derived images are subjected to quality metrics for identification of the similarities.

5.Feature Extraction

To extract the features the images divided into sub bands containing LL, LH, HL, and HH features. Each of these sub bands are further sub divided and a unique feature vector is identified from each of these sub bands. These unique vectors are given as input for modelling the images using GBLMM proposed section 3 of the paper.

6.Dataset Considered

In ordered to proposed methodology we have considered the ancient paintings of the Chinese artists from the internet and in particular we have considered the paintings of Van Gogh, Zhang daqian given in the report of C.C.Cheng et al. (1996).

Fig.1. Dataset Considered

6.1. Meta Tags

Every image considered is associated with a Meta tag. These Meta tags are given as another feature for the GBLMM as input. The various tags considered are presented in the following Table 1.

Table 1. Image with the Tags

7.Results

In order to present the methodology, we have considered the dataset as discussed in section 6, the dataset consists of the paintings of ancient Chinese artists. Along with these paintings a narration about the paintings or the name of the artist is also included. In our methodology we have considered these descriptions as the tags and retrieval is carried out using these tags as a feature. Each image with the tag as index is given as input to the model and the corresponding Probability Density Functions (PDFs) generated against each of these images are noted in a matrix. In general there is a possibility of repetition of tags and therefore the retrieval efficiency degrades in most of the cases. In order to overcome this challenge, in the present model we have considered more than one tag as the index. The images that are retrieved against each of these tags is presented in the following Fig 2.

Fig.2. Retrieved images, based on Tags

The above methodology is tested against quality metrics such as Mean Squared Error (MSE), Peak Signal to Noise Ratio (PSNR) The formulas for calculation of each these metrics is presented in the paper authored by Srinivas Y et al (2010), Nagesh V et al (2011), Madhusudhan et al (2013). Using the above heuristics, the results derived are presented in Table 2.

From the above table it can be clearly seen that the MSE of the retrieved image against the query image is nearing to zero. This implies that the retrieved image is very much nearer to the query image. The PSNR values highlight the same. From the values presented in the Table 2, it can be seen that the developed model helps in better retrieval of the images.

Table 2. Performance Evaluation

8.Conclusions

This paper highlights the methodology for the retrieval of ancient images based on the features which we have considered to be the tags. The proposed methodology helps for the better retrieval against the existing methods. This methodology is very much suited for the archaeologists for identifying the ancient paintings of a particular artist.

References

[1] C.-C. Chen, A. Del Bimbo, G. Amato, N. Boujemaa, P. outhemy, J.Kittler, I. Pitas, A. Smeulders, K.

Alexander, K. Kiernan, C.-S. Li, H.Wactlar, and J. Z. Wang, “Report of the DELOS-NSF Working Group on Digital Imagery for Significant Cultural and Historical Materials,” DELOS-NSF Rep., Dec. 2002

[2] C. Bouman and B. Liu, “Multiple resolution segmentation of textured images,” IEEE Trans. Pattern Anal.

Machine Intell., vol. 13, no. 2, pp.99–113, 1991

[3]S. Ravela and R. Manmatha, “Image retrieval by appearance,” in Proc.SIGIR, Philadelphia, PA, July 1997,

pp. 278–285.

[4] A. P. Dhawan, Y. Chitre, C. Kaiser-Bonasso, and M. oskowitz, “Analysis of mammographic

microcalcifications using gray-level image structure features,” IEEE Trans. Med. Imag., vol. 15, pp. 246–259, June 1996

[5]N. Chaddha, R. Sharma, A. Agrawal, and A. Gupta, “Text segmentation in mixed-mode images,” in Proc.

Asilomar Conf. Signals, Systems, Computers, vol. 2, Nov. 1994, pp. 1356–1361

[6]R.S. Arora, A. Elgammal, Towards automated classification of fine-art painting style: a comparative study,

in: ICPR, 2012, pp. 3541–3544.

[7]Y. Bengio, P. Lamblin, D. Popovici, H. Larochelle, Greedy layer-wise training of deep networks, in: NIPS,

2006, pp. 153–160.

[8]M. Bressan, C. Cifarelli, F. Perronnin, An analysis of the relationship between painters based on their

work, in: ICIP, 2008, pp. 113–116.

[9] C.C. Chang, C.J. Lin, LIBSVM: a library for support vector machines, ACM Trans. Intell. Syst. Technol.

2 (2011) 27:1–27:27.

[10]R. Condorovici, C. Florea, R. Vranceanu, C. Vertan, Perceptually-inspired artistic genre identification

system in digitized painting collections, Image Analysis, LNCS, vol. 7944, Springer, 2013. 687–696.

[11]T. Fawcett, An introduction to ROC analysis, Pattern Recogn. Lett. 27 (2006) 861–874.

[12]V. Ferrari, L. Fevrier, F. Jurie, C. Schmid, Groups of adjacent contour segments for object detection,

IEEE TPAMI 30 (2008) 36–51.

[13]D.J. Graham, J.M. Hughes, H. Leder, D.N. Rockmore, Statistics, vision, and the analysis of artistic style,

Wiley Interdisciplinary Rev. Comput. Stat. 4 (2012) 115–123.

[14]J. Li and J.Z. Wang, “Studying digital imagery of ancient paintings by mixtures of stochastic models,”

IEEE Trans. Image Processing, vol. 13, no. 3, pp. 340–353, Mar.2004.

[15]E.Hendriks and M. Geldof, “Van Gogh’s Antwerp and Paris picture supports (1885–1888):

Reconstructing choices,” Art Matters: Netherlands Technical Studies in Art History, vol. 2, pp. 39–75, 2005.

[16]E. Hendriks and L. van Tilborgh, “New views on Van Gogh’s development in Antwerp and Paris: An

integrated art historical and technical study of his paintings in the Van Gogh Museum,” Ph.D. dissertation, Faculty of Humanities, Univ. Amsterdam, vol. 1, p. 132, and vol. 2, p. 62, cat. 72, Nov.2006.

[17]C.R. Johnson, Jr., Ed., Proc. 1st Int. Workshop Image Processing for Artist Identification. Amsterdam,

The Netherlands, May 2007 [Online]. Available: https://www.360docs.net/doc/a115397592.html,/literature/ProceedingsIA4AI-1.pdf

[18]Thai V. Hoang, S. Tabbone(2010),“Text Extraction From Graphical Document Images Using Sparse

Representation “in Proc. Das, pp 143–150.

[19]Y. Zhan, W. Wang, W. Gao (2006), “A Robust Split-And-Merge Text Segmentation Approach For

Images”, International Conference On at tern Recognition,06(2): pp 1002-1005.

[20]M.M. Van Dantzig, Vincent A New Method of Identifying the Artist and His Work and of Unmasking the

Forger and His Products. Amsterdam, The Netherlands: Keesing, 1952, pp. 24–25.

[21]Zhang D, Lu G. A comparative study of curvature scale space and Fourier descriptors for shape-based

image retrieval. J Visual Common Image Representation 2003; 14:41–60.

[22]F.Cheng, H.Zhang, M.Sun, D.Yuan, “Cross-trees, edges and super-pixel priors-based cost aggregation for

stereo matching”, in Patte rn Recognition 48 (2015) 2269-2278.

[23]K. Andreas, M. Sormann, K. Karner, “Segment-based stereo matching using belief propagation and a self-

adapting dissimilarity measure”, in: International Conference on Pattern Recognition, vol. 3, 2006, pp.

15–18.

[24]F. Ch eng, H.Zhang, D.Yuan, M.Sun, “Stereo matching by using the global edge constraint”, in

Neurocomputing (2013).

[25]X.Wang, H.Wang, Y.Su, “Accurate belief propogation with parametric and non-parametric measures for

stereo-matching”, in Optik 126(2015) 545-550.

[26]F.Da, F.He, Z.Chen, “Stereo Matching based on dissimilar intensity support and belief propogation”, in J

Math Imaging Vis (2013) 47:27–34.

[27]F. Tombari, S. Mattoccia, L. Di Stefano, E. Addimanda, “Classification and evaluation of cost

aggregation methods for stereo correspondence”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2008, pp. 1-8.

[28]H.Han, X.Han, F.Yang, “An improved gradient-based dense stereo correspondence algorithm using

guided filter”,in Optik125 (2014) ,pp.115– 120.

[29]F.Tombari, S.Mattoccia, L.Stefano Di, “Segmentation-Based Adaptive Support for Accurate Stereo

Correspondence”, in PSIVT 2007, LNCS 4872, pp. 427–438, 2007.

[30]O. Veksler, “Stereo correspondence by dynamic programming on a tree”, in: IEEE International

Conference on Computer Vision and Pattern Recognition, 2005, pp. 384–390.

[31]R.Elias, “Sparse view Stereo Matching”, in Pattern Recognition Letters 28 (2007) 1667–1678.

[32]S.Yoon, S.K.Park, Y.K.Kwak, “Fast correlation-based stereo matching with the reduction of systematic

errors”, Pattern Recognition Letters 26(2005), pp.2221-2231.

[33]K.Yoon, I.So.Kweon, “Adaptive Support-weight approach for corre spondence search”, IEEE Transactions

on Pattern Analysis and Machine Intelligence(2006),vol.28,no.4.

[34]P.H.S.Torra, A.Criminisi, “Dense stereo using pivoted dynamic programming”,Image and Vision

Computing 22(2004), pp.795-806.

[35]M.Bleyer, M.Gelautz, “ A laye red stereo matching algorithm using image segmentation and global

visibility constraints”, ISPRS Journal of Photogrammetry & Remote Sensing 59(2005),pp.128-150 [36]O.Veksler, “Extracting dense features for visual correspondence with graph cuts”,Proceedings of the

IEEE Computer Society Conference on Computer vision and Pattern Recognition (2003).

[37]M.Gong, Y.H.Yang, “Fast stereo matching using reliability based dynamic programming and consistency

constraints”, Proceedings of ninth IEEE International Conference on computer vision (2003).

[38]C. L. Zitnick and T. Kanade, "A Cooperative Algorithm for Stereo Matching and Occlusion Detection,"

IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, no.7, 2000.

[39]J. Sun, H. Y. Shum and N. N. Zheng, “Stereo Matching Using Belief Propagation,”Proc. European Conf.

Computer Vision (2002), pp. 510-524.

[40]V. Komolgorov and R. Zabih, “Computing Visual Correspondence with Occlusions using Graph Cuts”,

Proc. Int?l Conf. Computer Vision (2002).

[41]Y. Boykov, O. Veksler and R. Z abih, “Fast Approximate Energy Minimization via GraphCuts”,IEEE

Trans. Pattern Analysis and Machine Intelligence (2001), vol. 23, no. 11, pp. 1222-1239.

[42]S. Birchfield and C. Tomasi, “Depth discontinuities by pixel-to-pixel stereo”, In ICCV(1998), pages

1073–1080.

[43]Z. Yongqin, C.Hui, W. Ling, X.Yongjun, H.Haibo, “Color Image Segmentation Using Level Set Method

With Initializati on Mask in Multiple Color Spaces”, I.J. Engineering and Manufacturing, 2011, 4, 70-76.

[44]Ramandeep Kaur, Kamaljit Kaur, “Study of Image Enhancement Techniques in Image Processing: A

Review”, I.J. Engineering and Manufacturing, 2016, 6, 38-50.

Author’s Profil es

G.G.Naidu has completed his M.Tech Degree in Computer Science and Engineering, JNT

University, Kakinada. His research area includes Image Retrieval, Data Mining. Currently he is

working as Head of Computer Engineering section, Govt Polytechnic, Anakapalli,

Visakhapatnam, India.

Y. Srinivas is presently working as a Professor and Head of Department of Information

Technology, GITAM University, Visakhapatnam, India. His research area includes Image

Processing, Data Mining, Software Engineering and Digital forensics.

How to cite this paper: G.G.Naidu, Y.Srinivas,"Model Based Approach for Identification of Relevant Images from Ancient Paintings", International Journal of Engineering and Manufacturing(IJEM), Vol.7, No.5, pp.39-47, 2017.DOI: 10.5815/ijem.2017.05.04

【CN110020633A】姿态识别模型的训练方法、图像识别方法及装置【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910294734.8 (22)申请日 2019.04.12 (71)申请人 腾讯科技(深圳)有限公司 地址 518000 广东省深圳市南山区高新区 科技中一路腾讯大厦35层 (72)发明人 罗镜民 朱晓龙 王一同 季兴  (74)专利代理机构 北京派特恩知识产权代理有 限公司 11270 代理人 李梅香 张颖玲 (51)Int.Cl. G06K 9/00(2006.01) G06K 9/62(2006.01) G06N 3/08(2006.01) (54)发明名称 姿态识别模型的训练方法、图像识别方法及 装置 (57)摘要 本发明提供了一种姿态识别模型的训练方 法、图像识别方法及装置;姿态识别模型的训练 方法包括:将标注有人体关键点的样本图像,输 入所述姿态识别模型包括的特征图模型,输出对 应所述样本图像的特征图;将所述特征图输入所 述姿态识别模型包括的二维模型,输出用于表征 二维人体姿态的二维关键点参数;将从所述特征 图中剪裁出的目标人体特征图及所述二维关键 点信息,输入所述姿态识别模型包括的三维模 型,输出用于表征三维人体姿态的三维姿态参 数;结合所述二维关键点参数及所述三维姿态参 数,构建目标损失函数;基于所述目标损失函数, 更新所述姿态识别模型的模型参数。权利要求书3页 说明书16页 附图11页CN 110020633 A 2019.07.16 C N 110020633 A

权 利 要 求 书1/3页CN 110020633 A 1.一种姿态识别模型的训练方法,其特征在于,所述方法包括: 通过姿态识别模型包括的特征图模型,对标注有人体关键点的样本图像进行处理,获得对应所述样本图像的特征图; 通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数; 通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数; 结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数; 基于所述目标损失函数,更新所述姿态识别模型的模型参数。 2.如权利要求1所述的方法,其特征在于,所述方法还包括: 根据当前配置场景的类型获取相应类型的关键点集,并确定所述关键点集中的人体关键点; 基于所确定的人体关键点,参照所述关键点集对所述样本图像进行标注。 3.如权利要求2所述的方法,其特征在于,所述关键点集包括: 用于定位人体部位的基准关键点、与所述基准关键点协同表征所属部位的多种三维姿态的扩展关键点。 4.如权利要求1所述的方法,其特征在于,所述目标损失函数包括对应所述三维模型的第一损失函数;所述结合所述二维关键点参数及所述三维姿态参数,构建损失函数,包括:基于所述三维姿态参数,确定相应的二维关键点信息; 结合所述二维模型输出的二维关键点参数、以及基于所述三维姿态参数确定的二维关键点信息,构造对应所述三维模型的第一损失函数。 5.如权利要求4所述的方法,其特征在于,所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数; 所述二维关键点参数包括:人体关键点的部分亲和字段参数及人体关键点的热力图,所述三维姿态参数包括:人体的形状参数及形态参数; 所述结合所述二维关键点参数及所述三维姿态参数,构建损失函数,包括: 结合所述二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异,构建对应所述二维模型的损失函数; 结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异,构建对应所述三维模型的第二损失函数。 6.如权利要求1所述的方法,其特征在于,所述方法还包括: 基于所述二维模型输出的所述二维关键点参数,确定所述特征图中的目标人体; 根据确定的目标人体对所述特征图进行剪裁,得到所述目标人体的特征图。 7.如权利要求1所述的方法,其特征在于,所述基于所述目标损失函数,更新所述姿态识别模型的模型参数,包括: 基于所述二维模型输出的所述二维关键点参数及所述三维模型输出的所述三维姿态参数,确定所述目标损失函数的值; 2

机器视觉与图像处理方法

图像处理及识别技术在机器人路径规划中的一种应用 摘要:目前,随着计算机和通讯技术的发展,在智能机器人系统中,环境感知与定位、路径规划和运动控制等功能模块趋向于分布式的解决方案。机器人路径规划问题是智能机器人研究中的重要组成部分,路径规划系统可以分为环境信息的感知与识别、路径规划以及机器人的运动控制三部分,这三部分可以并行执行,提高机器人路径规划系统的稳定性和实时性。在感知环节,视觉处理是关键。本文主要对机器人的路径规划研究基于图像识别技术,研究了图像处理及识别技术在路径规划中是如何应用的,机器人将采集到的环境地图信息发送给计算机终端,计算机对图像进行分析处理与识别,将结果反馈给机器人,并给机器人发送任务信息,机器人根据接收到的信息做出相应的操作。 关键词:图像识别;图像处理;机器人;路径规划 ABSTRACT:At present, with the development of computer and communication technology, each module, such as environment sensing, direction deciding, route planning and movement controlling moduel in the system of intelligent robot, is resolved respectively. Robot path planning is an part of intelligent robot study. The path planning system can be divided into three parts: environmental information perception and recognition, path planning and motion controlling. The three parts can be executed in parallel to improve the stability of the robot path planning system. As for environment sensing, vision Proeessing is key faetor. The robot path planning of this paper is based on image recognition technology. The image processing and recognition technology is studied in the path planning is how to apply, Robots will sent collected environment map information to the computer terminal, then computer analysis and recognize those image information. After that computer will feedback the result to the robot and send the task information. The robot will act according to the received information. Keywords: image recognition,image processing, robot,path planning

图像识别方法和设备的制作流程

本技术的实施方式提供了一种图像识别方法。该方法包括:对待识别图像进行特征提取,得到多个特征向量;确定每个特征向量对应的类别;针对每个特征向量,分别计算其所对应的类别下各样本图像的分数;将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。通过上述图像识别方法,有效提取多个特征来表征待识别图像,提取的特征不受图像中物体的特性所影响,能够实现对图像的有效识别,适用范围广;且通过计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,能够获得较好的识别精度。此外,本技术的实施方式提供了一种图像识别装置。 权利要求书 1.一种图像识别方法,包括: 对待识别图像进行特征提取,得到多个特征向量; 确定每个特征向量对应的类别; 针对所述每个特征向量,分别计算其所对应的类别下各样本图像的分数;

将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值; 将分值最高的样本图像对应的图像标识作为所述待识别图像的识别结果; 按照以下公式计算样本图像的分数: 其中,S表示当前样本图像的分数,A表示平均每个类别下的样本图像特征向量个数,B表示所述当前样本图像所属的类别下的所有图像标识出现次数之和,C表示所述当前样本图像所属的类别下,所述当前样本图像对应的图像标识出现次数,D表示放缩因子。 2.根据权利要求1所述的图像识别方法,其中,确定每个特征向量对应的类别,包括: 分别计算所述特征向量与预先存储的多个聚类中心向量的距离,其中,所述聚类中心向量与所述类别一一对应; 确定与所述特征向量距离最近的聚类中心向量对应的类别为所述特征向量对应的类别。 3.根据权利要求1所述的图像识别方法,其中,对待识别图像进行特征提取,得到多个特征向量,包括: 利用滑动窗口遍历所述待识别图像; 针对所述滑动窗口所处的每个区域,计算该区域的特征向量。 4.根据权利要求3所述的图像识别方法,其中,计算该区域的特征向量,包括: 将该区域划分为多个大小相同的细胞单元,其中,每个细胞单元之间不重叠;

图像处理和识别中的纹理特征和模型

纹理特征和模型 1,基于纹理谱的纹理特征 图像纹理分析中,最重要的问题是提取能够描述纹理的特征信息;这些特征可被用来分类和描述不同的纹理图像。在实际中常用到的方法有结构法和统计法;本文提出一种新的统计方法,每个纹理单元表征该位置及其领域象素的特征,整幅图像的纹理特征用纹理谱来表征,用这种方法进行分析较为简单。 定义纹理谱:纹理单元的频率分布。 基于纹理频谱的纹理特征: 3×3领域:权重: original reference calculate by myself (1)、黑白对称性 ()(3281) 1*100 () s i S i BWS S i ?? -+ ?? ?? =- ?? ?? ?? ∑ ∑ 反映频谱的对称性,不随纹理单元中起始计数位置的不同而不同。 (2)、几何对称性 ()4() 1 1*100 4 2*() Sj i Sj i GS Sj i ?? -+ ?? ?? =- ?? ?? ?? ∑ ∑ ∑ 反映图像旋转180度后,纹理谱的相似性; (3)、方向度

()()11*10062*()Sm i Sn i DD Sm i ?? -?? ??=-?????? ∑∑ ∑ 反映线性结构的角度。大的DD 说明纹理谱对图像的方向模式较为敏感;即图 像中有线性机构纹理单元存在。 以上三个特征都是图像的几何特征,可描述原始图像的宏观纹理;下面介绍几个描述图像微观纹理的特征。 (4)、方向特征 微观水平结构特征: ()*()MHS S i HM i =∑ ()(,,)*(,,)HM i P a b c P f g h = 同样,我们可以得到其它方向的方向纹理特征MVS ,MDS1,MDS2 (5)中心对称性 2()*[()]CS S i K i =∑ 2.常用统计特征: 把图像看成是一个二维随机过程的一次实现,可得到图像的直方图、均值、方差、偏度、峰度、能量、墒、自相关、协方差、惯性矩、绝对值、反差分等特征量。常用来描述纹理的统计特征的技术有子相关函数、功率谱、正交变换、灰度级同时事件、灰度级行程长、灰度级差分、滤波模板、相对极值密度、离散马尔可夫随机场模型、自回归模型、同时自回归模型等。 原图: 1、2、3、4阶矩

视觉检测原理介绍

技术细节 本项目应用了嵌入式中央控制及工业级图像高速传输控制技术,基于CCD/CMOS与DSP/FPGA的图像识别与处理技术,成功建立了光电检测系统。应用模糊控制的精选参数自整定技术,使系统具有对精确检测的自适应调整,实现产品的自动分选功能。 图1 控制系统流程图 光电检测系统主要通过检测被检物的一些特征参数(灰度分布,RGB分值等),从而将缺陷信息从物体中准确地识别出来,通过后续的系统进行下一步操作,主要分为以下几部分 CCD/CMOS图像采集部分 系统图像数据采集处理板中光信号检测元件CCD/CMOS采用进口的适合于高精度检测的动态分析单路输出型、保证实际数据输出速率为320MB/s的面阵CCD/CMOS。像素分别为4000*3000和1600*1200,帧率达到10FPS。使用CCD/CMOS 作为输入图像传感器,从而实现了图像信息从空间域到时间域的变换。为了保证所需的检测精度,需要确定合理的分辨率。根据被检测产品的大小,初步确定系统设计分辨率为像素为0.2mm。将CCD/CMOS接收的光强信号转换成电压幅值,再经过A/D转换后由DSP/ FPGA芯片进行信号采集,即视频信号的量化处理过程,图像采集处理过程如图所示:

图2 图像采集处理过程 数据处理部分 在自动检测中,是利用基于分割的图像匹配算法来进行图像的配对为基础的。图像分割的任务是将图像分解成互不相交的一些区域,每一个区域都满足特定区域的一致性,且是连通的,不同的区域有某种显著的差异性。分割后根据每个区域的特征来进行图像匹配,基于特征的匹配方法一般分为四个步骤:特征检测、建立特征描述、特征匹配、利用匹配的“特征对”求取图像配准模型参数。 算法基本步骤如下: 1)利用图像的色彩、灰度、边缘、纹理等信息对异源图像分别进行分割,提取区域特征; 2)进行搜索匹配,在每一匹配位置将实时图与基准图的分割结果进行融合,得到综合分割结果; 3)利用分割相似度描述或最小新增边缘准则找出正确匹配位置。 设实时图像分割为m个区域,用符号{A1,A2,… Am}表示,其异源基准图像分割为n个区域,用符号{B1,B2,…Bn}表示。分割结果融合方法如下: 在每一个匹配位置,即假设的图像点对应关系成立时,图像点既位于实时图中,又位于其异源基准图像中,则融合后区域点的标识记为:(A1B1,A1B2,…,A2B1,A2B2,…)。标识AiBj表示该点在实时图中位于区域i,在基准图中位于区域j。算法匹配过程如下图所示:

图像模式识别的方法介绍

2.1图像模式识别的方法 图像模式识别的方法很多,从图像模式识别提取的特征对象来看,图像识别方法可分为以下几种:基于形状特征的识别技术、基于色彩特征的识别技术以及基于纹理特征的识别技术。其中,基于形状特征的识别方法,其关键是找到图像中对象形状及对此进行描述,形成可视特征矢量,以完成不同图像的分类,常用来表示形状的变量有形状的周长、面积、圆形度、离心率等。基于色彩特征的识别技术主要针对彩色图像,通过色彩直方图具有的简单且随图像的大小、旋转变换不敏感等特点进行分类识别。基于纹理特征的识别方法是通过对图像中非常具有结构规律的特征加以分析或者则是对图像中的色彩强度的分布信息进行统计来完成。 从模式特征选择及判别决策方法的不同可将图像模式识别方法大致归纳为两类:统计模式(决策理论)识别方法和句法(结构)模式识别方法。此外,近些年随着对模式识别技术研究的进一步深入,模糊模式识别方法和神经网络模式识别方法也开始得到广泛的应用。在此将这四种方法进行一下说明。 2.1.1句法模式识别 对于较复杂的模式,如采用统计模式识别的方法,所面临的一个困难就是特征提取的问题,它所要求的特征量十分巨大,要把某一个复杂模式准确分类很困难,从而很自然地就想到这样的一种设计,即努力地把一个复杂模式分化为若干

较简单子模式的组合,而子模式又分为若干基元,通过对基元的识别,进而识别子模式,最终识别该复杂模式。正如英文句子由一些短语,短语又由单词,单词又由字母构成一样。用一组模式基元和它们的组成来描述模式的结构的语言,称为模式描述语言。支配基元组成模式的规则称为文法。当每个基元被识别后,利用句法分析就可以作出整个的模式识别。即以这个句子是否符合某特定文法,以判别它是否属于某一类别。这就是句法模式识别的基本思想。 句法模式识别系统主要由预处理、基元提取、句法分析和文法推断等几部分组成。由预处理分割的模式,经基元提取形成描述模式的基元串(即字符串)。句法分析根据文法推理所推断的文法,判决有序字符串所描述的模式类别,得到判决结果。问题在于句法分析所依据的文法。不同的模式类对应着不同的文法,描述不同的目标。为了得到于模式类相适应的文法,类似于统计模式识别的训练过程,必须事先采集足够多的训练模式样本,经基元提取,把相应的文法推断出来。实际应用还有一定的困难。 2.1.2统计模式识别 统计模式识别是目前最成熟也是应用最广泛的方法,它主要利用贝叶斯决策规则解决最优分类器问题。统计决策理论的基本思想就是在不同的模式类中建立一个决策边界,利用决策函数把一个给定的模式归入相应的模式类中。统计模式识别的基本模型如图2,该模型主要包括两种操作模型:训练和分类,其中训练主要利用己有样本完成对决策边界的划分,并采取了一定的学习机制以保证基于样本的划分是最优的;而分类主要对输入的模式利用其特征和训练得来的决策函数而把模式划分到相应模式类中。 统计模式识别方法以数学上的决策理论为基础建立统计模式识别模型。其基本模型是:对被研究图像进行大量统计分析,找出规律性的认识,并选取出反映图像本质的特征进行分类识别。统计模式识别系统可分为两种运行模式:训练和分类。训练模式中,预处理模块负责将感兴趣的特征从背景中分割出来、去除噪声以及进行其它操作;特征选取模块主要负责找到合适的特征来表示输入模式;分类器负责训练分割特征空间。在分类模式中,被训练好的分类器将输入模式根据测量的特征分配到某个指定的类。统计模式识别组成如图2所示。

机器视觉检测

机器视觉检测 一、概念 视觉检测是指通过机器视觉产品(即图像摄取装置,分 CMOS 和CCD 两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。 机器视觉检测的特点是提高生产的柔性和自动化程度。 2、典型结构 五大块:照明、镜头、相机、图像采集卡、软件 1.照明 照明是影响机器视觉系统输入的重要因素,它直接影响输入数据的质量和应用效果。目前没有通用的照明设备,具体应用场景选择相应的照明装置。照射方法可分为: 分类具体说明优点 背向照明被测物放在光源和摄像机之 间能获得高对比度的图像 前向照明光源和摄像机位于被测物的 同侧 便于安装 结构光将光栅或线光源等投射到被 测物上,根据它们产生的畸 变,解调出被测物的三维信 息 频闪光照明将高频率的光脉冲照射到物

体上,摄像机拍摄要求与光 源同步 2.镜头 镜头的选择应注意以下几点:焦距、目标高度、影像高度、放大倍数、影响至目标的距离、中心点/节点、畸变。 3.相机 按照不同标准可分为:标准分辨率数字相机和模拟相机等。 要根据不同的实际应用场合选不同的相机和高分辨率相机:线扫描CCD 和面阵CCD;单色相机和彩色相机。 为优化捕捉到的图像,需要对光圈、对比度和快门速度进行调整。 4.图像采集卡 图像采集卡是图像采集部分和图像处理部分的接口。将图像信号采集到电脑中,以数据文件的形式保存在硬盘上。通过它,可以把摄像机拍摄的视频信号从摄像带上转存到计算机中。 5.软件 视觉检测系统使用软件处理图像。软件采用算法工具帮助分析图像。视觉检测解决方案使用此类工具组合来完成所需要的检测。是视觉检测的核心部分,最终形成缺陷的判断并能向后续执行机构发出指令。常用的包括,搜索工具,边界工具,特征分析工具,过程工具,视觉打印工具等。 3、关键——光源的选择 1.光源选型基本要素: 对比度机器视觉应用的照明的最重要的任务就是使需要被观察的特征与需要被忽略的图像特征之间产生最大的对比度,从而易于特

图像识别技术发展状况及前景

医学图像配准技术 罗述谦综述 首都医科大学生物医学工程系(100054) 吕维雪审 浙江大学生物医学工程研究所(310027) 摘要医学图像配准是医学图像分析的基本课题,具有重要理论研究和临床应用价 值。本文较全面地介绍了医学图像配准的概念、分类、配准原理、主要的配准技术及评 估方法。 关键词医学图像配准多模 1 医学图像配准的概念 在做医学图像分析时,经常要将同一患者的几幅图像放在一起分析,从而得到该患者的多方面的综合信息,提高医学诊断和治疗的水平。对几幅不同的图像作定量分析,首先要解决这几幅图像的严格对齐问题,这就是我们所说的图像的配准。 医学图像配准是指对于一幅医学图像寻求一种(或一系列)空间变换,使它与另一幅医学图像上的对应点达到空间上的一致。这种一致是指人体上的同一解剖点在两张匹配图像上有相的空间位置。配准的结果应使两幅图像上所有的解剖点,或至少是所有具有诊断意义的点及手术感兴趣的点都达到匹配。 医学图像配准技术是90年代才发展起来的医学图像处理的一个重要分支。涉及“配准”的技术名词除registration外,mapping、matching、co-registration、integration、align-ment和fusion 等说法也经常使用。从多数文章的内容看,mapping偏重于空间映射;fu-sion指图像融合,即不仅包括配准,而且包括数据集成后的图像显示。虽然在成像过程之前也可以采取一些措施减小由身体移动等因素引起的空间位置误差,提高配准精度(称作数据获取前的配准preacquisition),但医学图像配准技术主要讨论的是数据获取后的(post-acquisition)配准,也称作回顾式配准(retrospective registration)。当前,国际上关于医学图像配准的研究集中在断层扫描图像( tomographic images,例如CT、MRI、SPECT、PET等)及时序图像(time seriesimages,例如fMRI及4D心动图像)的配准问题。 2 医学图像基本变换 对于在不同时间或/和不同条件下获取的两幅图像I1(x1,y1,z1)和I2(x2,y2,z2)配准,就是寻找一个映射关系P:(x1,y1,z1) (x2,y2,z2),使I1的每一个点在I2上都有唯一的点与之相对应。并且这两点应对应同一解剖位置。映射关系P表现为一组连续的空间变换。常用的空间几何变换有刚体变换(Rigid body transformation)、仿射变换(Affine transformation)、投影变换(Projec-tive transformation)和非线性变换(Nonlin-ear transformation)。 (1)刚体变换: 所谓刚体,是指物体内部任意两点间的距离保持不变。例如,可将人脑看作是一个刚体。 处理人脑图像,对不同方向成像的图像配准常使用刚体变换。刚体变换可以分解为旋转和平移:P(x)=Ax+b(1) x=(x,y,z)是像素的空间位置;A是3×3的旋转矩阵,b是3×1的平移向量。

图像识别技术综述

图像处理与识别技术综述 摘要:本文简要介绍了图像处理与识别技术的相关知识,介绍了图像识别过程中的判别函数和判别规则,特征提取和选择的方法。设计一个基于16位处理器MC9S12XS128的图像识别系统在实际中的具体硬件实现。 关键词:图像识别特征提取MC9S12XS128 数字摄像头 An Overview of Image Recognition And Identifying Technology Abstract:This paper introduces some knowledge of image recognition and identifying technology,introduces the discriminant function discriminant rule in the image identifying progress, feature extraction and selection method. Designed an image identifying system based on 16-bit controller MC9S12XS128,and it has specific hardware implementation in fact. Key words: image identifying discriminaut rule MC9S12XS128 digital cameral

1 引言 图像是与视觉相关的最贴近生活的信息,它是客观世界的物体直接或间接作用于人眼而产生视知觉的实体。传统的图像处理技术就是对图像进行保存、处理、压缩、传输和重现。随着信息时代的到来,用于计算机处理的各种信息的需求越来越多,多媒体信息处理技术已经成为日常生活各个领域的迫切需要。人们更希望利用计算机技术处理人类视觉问题,如:人脸、指纹识别技术实现处理与个人有关的一切事物,利用视觉自动监视系统监视环境中发生的非常事件,利用字符识别技术实现文档图像的自动录入与处理。因此把传统的图像处理技术与模式识别处理技术相结合是图像处理的新趋势。 2 传统的图像处理技术 图像处理技术始于20世纪50年代,1964年美国喷射推进实验室(JPL )使用计算机对太空船送回的大批月球照片处理后得到了清晰逼真的图像,这是这门技术发展的里程碑,此后这门技术得到了广泛的发展。 传统图像处理技术包含图像的获取、变换、增强、编码、分割等方面的内容。 2.1 图像获取 图像可以根据其形式或产生方法来分类。 照片图画 光图像连续函数 离散函数 (数字图像)不可见的 物理图像 物体图像 可见的图像图片数学函数 图1 图像的分类 图像的获取[4]是指将其变为计算机可识别的信息。通常是数字化的过程,及扫描、采样、量化三个步骤。经过数字化过程后就得到了一幅图的数字表示,即数字图像。一般这个过程由摄像头等设备完成。反过来还可将数字图像进行显示。 2.2 图像变换 图像变换[6]广泛应用于图像滤波[2]、统计滤波[5]、图像数据压缩以及图像描述等。图像变换是将N ×N 维空间图像数据变换成另外一组基向量(通常是正交向量空间)的坐标参数,我们希望这些离散图像信号坐标参数更集中代表了图像中的有效信息,或者是更便于达到某种处理目的。 通常采用的方法有:傅里叶变换、相关分析、小波变换[7]、离散余弦变换(DCT )、正弦变

基于.人工智能算法的图像识别及生成

基于人工智能算法的图像识别与生成 摘要:本次报告的工作是利用PCA,SVM以及人工神经网络(ANN)实现对人脸的特征提取、分类和预测。然后利用GAN(生成对抗网络)实现对手写数字的生成,并用SVM 做预测,验证生成效果。 本次报告采用的数据源自剑桥大学的ORL 人脸数据库,其中包含40个人共400张人脸图像。 关键词:人工智能;图像识别;数据 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)13-0173-02 1 PCA降维 PCA(principal components analysis)即主成分分析,又称主分量分析。旨在利用降维的思想,把多指标转化为少数几个综合指标。 首先我们给出了数据库的平均脸的图像,并利用PCA对人脸降维,通过改变降低到的维度研究了保留维度的多少带来的影响。最后给出了每一个维度的特征脸图像,讨论了每一个维度所能够代表的人脸信息。 1.1 平均脸 首先,我们将数据库中400张人脸按行存储到一个矩阵

中,即每一行为一张人脸(10304像素),每张人脸共10304维特征。我们对每一个维度去平均,构成一个新的行向量,这就是平均脸。 平均脸反映了数据库中400张人脸的平均特征,可以看清人脸的轮廓,但无法识别人脸的局部细节。 1.2 降低至不同维度时还原脸的情况 从左到右从上到下依次是同一张脸降低至10,30,50,100,200,250,300,350,400的图像。可以看到,随着保留维数的增多,图像越清晰,与原图的差异越小。 1.3 提取单一维度的特征做还原 为了研究不同维度所代表的人脸的信息,我们把PCA之后的每一个特征向量单独提取出来对人脸做还原,还原的时候不加入平均脸并且做直方图均衡化。 结果如下: 每一张图像下方的数字代表了PCA之后按特征值从大到小排序的顺序,比如第一张图代表PCA之后最大特征值所对应的特征向量还原出的人脸。 特征累积图的纵坐标代表了所保留的特征占总特征的 比例。它是这样计算出来的,假设保留k维信息,则纵坐标值为这k个特征值的和除以总的400(400*10304的矩阵,最多有400个非零特征值)个特征值的和。 从图4可以看出,当保留维数为100维时,即能保留人

图像识别技术

伴随着通信技术与信息处理技术的迅猛发展,越来越多的纸质文档通过数字采集设备转换成文本图像,从而使文本图像数据能够快捷的在网络、卫星、传真通信信道中传输,因此,文本图像已逐渐成一个重要的信息来源。但是,现有的文本图像处理系统自动化程度低,且通用性不高,无法满足文本图像处理广泛性与实时性的要求。因此,研究如何对文本图像进行分析与处理,以便高效、快捷的获取文本图像的信息,是一项十分有意义的研究课题。本文在总结已有研究成果的基础上对文本图像的识别检索、预处理、版面分析和表格图像识别展开研究。所做的主要工作如下:1.依据图像的灰度分布和结构特征差异,对基于图像信息度量的文本图像识别检索算法进行改进,构造一种基于信息度量与Radon变换的文本图像识别检索算法。该算法综合利用文本图像与连续色调】图像的灰度分布与结构特征差异进行文本图像的识别检索。实验结果表明,所构造算法可有效降低文本图像识别检索的误识率。2.对基于Hough变换的文本图像倾斜检 图像识别,是利用计算机对图像进行处理、分析和理解,以识别各种不同模 式的目标和对像的技术。 图像识别可能是以图像的主要特征为基础的。每个图像都有它的特征,如字 母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明, 视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向 突然改变的地方,这些地方的信息量最大。由此可见,在图像识别过程中,知觉 机制必须排除输入的多余信息,抽出关键的信息。 图像识别的目的在于用计算机自动处理图像信息,以代替人去完成图像分类 及辨识的任务。数字图像处理与识别技术是模式识别领域一个重要的研究方向, 近几十年来,图像识别技术取得了深入和迅速的发展,并广泛应用于图像遥感、机 器人视觉、生物医学、地质勘探等多个领域。 随着图像识别技术在多领域的发展,由其在计算机视觉和图像处理研究中,已经取得了一定的研究成果。Mallat在小波变换中滤波器的设计、Belhumeur在Fisher变换中的识别模型和Largrange优化方式建立支持向量机。本文在总结上述研究成果的基础上,首先对摄像头采集的数据进行了处理,完成JPEG的编码,详细讨论了JPEG图像解码的过程并实现了其算法。

人脸图像检测与识别方法综述

综述 《自动化技术与应用》 2004年第 23卷第 12期 Survey 人脸图像检测与识别方法综述 王科俊 ,姚向辉 (哈尔滨工程大学自动化学院 ,黑龙江哈尔滨 150001) 摘要 :本文对人脸识别技术中的检测和识别分成两部分进行了讨论。首先 ,系统的整理分析了人脸检测的各种方法。其次 ,作为 人脸识别技术的第二个环节 ,对人脸的各种识别方法进行了比较性的论述 ,重点讨论了当前热点的识别算法。最后对人脸 识别技术的发展方向进行了展望。 关键词 :人脸检测 ;人脸识别 ;特征提取 ;模式识别 中图分类号 : TP391141 文献标识码 :A 文章编号 : 100327241 (2004) 1220005205 Survey of Human Face Detection and Recognition WANG Ke -jun ,YAO Xiang -hui (College of Automatization , Harbin Engineering University , Harbin 150001 ,China) Abstract :This paper describes the problem of human face detection and recognition. Firstly it synthesizes and analyzes the methods of human face de2 tection systematically from the view of the classification of human face detection ,

浅析人工智能中的图像识别技术

浅析人工智能中的图像识别技术 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。文章简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。 1 图像识别技术的引入 图像识别是人工智能科技的一个重要领域。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。图像识别,顾名思义,就是对

图像做出各种处理、分析,最终识别我们所要研究的目标。今天所指的图像识别并不仅仅是用人类的肉眼,而是借助计算机技术进行识别。虽然人类的识别能力很强大,但是对于高速发展的社会,人类自身识别能力已经满足不了我们的需求,于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞,完全靠肉眼观察细胞是不现实的,这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时,就会产生相应的新技术。图像识别技术也是如此,此技术的产生就是为了让计算机代替人类去处理大量的物理信息,解决人类无法识别或者识别率特别低的信息。 图像识别技术原理 其实,图像识别技术背后的原理并不是很难,只是其要处理的信息比较繁琐。计算机的任何处理技术都不是凭空产生的,它都是学者们从生活实践中得到启发而利用程序将其模拟实现的。计算机的图像识别技术和人类的图像识别在原理上并没有本质的区别,只是机器缺少人类在感觉与视觉差上的影响罢了。人类的图像识别也不单单是凭借整个图像存储在脑海中

图像处理即图像识别过程

图像处理即图像识别过程 图像处理(imageProcessing)利用计算机对图像进行分析,以达到所需的结果。 图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。 这种处理大多数是依赖于软件实现的。 其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。 l)图像采集 图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。 2)图像增强 图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。 3)图像复原 图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。 4)图像编码与压缩 数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。 5)图像分割技术

基于卷积神经网络的图像识别研究

第14期 2018年7月No.14July,2018 1 算法原理 卷积神经网络的卷积层最重要部分为卷积核[1-2]。卷积核不仅能够使各神经元间连接变少,还可以降低过拟合误 差[3]。 子采样过程就是池化过程。进行卷积过程是将卷积核与预测试图像进行卷积,子采样能够简化网络模型,降低网络模型复杂程度,从而缩减参数。 在图像识别时,首先需要对输入图像初始化,然后将初始化后图像进行卷积和采样,前向反馈到全连接层,通过变换、即可计算进入输出层面,最终通过特征增强效果和逻辑之间的线性回归判断是否符合图像识别期望效果,往复循环,每循环一次就迭代一次,进而对图像进行识别。流程如图1所示。 图1 卷积神经网络模型流程 2 卷积神经网络 卷积神经网络主要包括3个层次[4],它由输入层、隐藏 层、输出层共同建立卷积神经网络模型结构。2.1 卷积层 卷积层的作用是提取特征[2]。卷积层的神经元之间进行 局部连接,为不完全连接[5]。 卷积层计算方法公式如下。()r array M a λ+ 其中λ为激活函数,array 是灰度图像矩阵, M 表示卷积核, 表示卷积, a 表示偏置值大小。G x 方向和G y 方向卷积核。 本文卷积神经网络模型中设定的卷积核分为水平方向和竖直方向。卷积层中卷积核通过卷积可降低图像边缘模糊程度,使其更为清晰,效果更好、更为显著。经过S 型函数激活处理之后,进行归一化后图像灰度值具有层次感,易于突出目标区域,便于进一步处理。2.2 全连接层 该层主要对信息进行整理与合并,全连接层的输入是卷积层和池化层的输出。在视觉特征中,距离最近点颜色等特征最为相似,像素同理。全连接如图2所示。 图2 全连接 3 实验结果与分析 本文采用数据集库是MSRA 数据集,该数据集共包含1 000张图片。实验环境为Matlab2015a 实验环境,Windows 7以上系统和无线局域网络。本文从MSRA 数据集中选取其中一张进行效果分析。卷积神经网络模型识别效果如图3所示。 作者简介:谢慧芳(1994— ),女,河南郑州人,本科生;研究方向:通信工程。 谢慧芳,刘艺航,王 梓,王迎港 (河南师范大学,河南 新乡 453007) 摘 要:为降低图像识别误识率,文章采用卷积神经网络结构对图像进行识别研究。首先,对输入图像进行初始化;然后,初 始化后的图像经卷积层与该层中卷积核进行卷积,对图像进行特征提取,提取的图像特征经过池化层进行特征压缩,得到图像最主要、最具代表性的点;最后,通过全连接层对特征进行综合,多次迭代,层层压缩,进而对图像进行识别,输出所识别图像。与原始算法相比,该网络构造可以提高图像识别准确性,大大降低误识率。实验结果表明,利用该网络模型识别图像误识率低至16.19%。关键词:卷积神经网络;卷积核;特征提取;特征压缩无线互联科技 Wireless Internet Technology 基于卷积神经网络的图像识别研究

基于MATLAB的BP神经网络的数字图像识别

基于MATLAB BP神经网络的数字图像识别

基于MATLAB BP神经网络的数字图像识别 【摘要】随着现代社会的发展,信息的形式和数量正在迅猛增长。其中很大一部分是图像,图像可以把事物生动的呈现在我们面前,让我们更直观地接受信息。同时,计算机已经作为一种人们普遍使用的工具为人们的生产生活服务。如今我们也可以把这些技术应用在交通领域。作为智能交通系统(InteUigent Traffic System,简称ITS)中的一个重要组成部分的车牌识别技术,当然就是其中的重点研究对象。车辆牌照识别(License P1ate Recognition,简称LPR),是一种关于计算机的包括图像处理、数学技术、数据库、信息技术以及智能技术于一体的综合技术。用MATLAB做车牌识别比用其他工具有许多优势,因为MATLAB在图像的灰度化、二值化、滤波等方面都有很大优势,所以,本次实验我们利用MA TLAB的这些优点来对车牌进行识别。 【关键词】BP神经网络;图像识别;字符识别;特征提取;车牌;Matlab 一课题研究背景 (一)图像识别的提出及应用 随着信息化时代的不断发展,人们越来越多地使用信息化的手段来解决各种问题——办公自动化、先进制造业、电子商务等利用计算机技术而产生的新兴行业正不断靠近我们的生活。在信息社会中,我们每天都接触大量的数据——工作数据、个人数据、无意间获得的数据等——在这些数据中,有些数据需要我们人工处理,而有些则可以利用计算机快速准确的完成——字符识别就是其中的一个范畴。 字符识别是一种图像识别技术,他的输入是一张带有某种字符的图片,而输出则是计算机中对于图片中字符的反应结果。所以,可以广泛的应用于各种领域:如,车牌检测、手写识别、自动阅读器、机器视觉……在生活生产的各个方面都起到了非常重要的作用。(二)图像识别技术的发展趋势 虽然图像识别技术还不是非常成熟,但现其已经有了很多可喜的成果,比如图像模式识别,图像文字识别。并且其还在飞速的发展着,图像识别的应用正朝着不同的领域渗透着,像计算机图像生成,图像传输与图像通信,高清晰度电视,机器人视觉及图像测量,办公室自动化,像跟踪及光学制导,医用图像处理与材料分析中的图像分析系统,遥感图像处理和空间探测,图像变形技术等等。从所列举的图像技术的多方面应用及其理论基础可以看出,它们无一不涉及高科技的前沿课题,充分说明了图像技术是前沿性与基础性的有机统一。 可以预计21世纪,图像技术将经历一个飞跃发展的成熟阶段,为深入人民生活创造新的文化环境,成为提高生产的自动化、智能化水平的基础科学之一。图像技术的基础性研究,特别是结合人工智能与视觉处理的新算法,从更高水平提取图像信息的丰富内涵,成为人类运算量最大、直观性最强,与现实世界直接联系的视觉和“形象思维”这一智能的模拟和复现,是一个很难而重要的任务。“图像技术”这一上世纪后期诞生的高科技之花,其前途是不可限量的。 随着21世纪经济全球化和信息时代的发展,作为信息来源的自动检测、图像识别技术越来越受到人们的重视。近年来计算机的飞速发展和数字图像处理技术的日趋成熟,为传统的交通管理带来了巨大转变。图像处理技术发展相当快,而其中对汽车牌照等相关信息的自动采集和管理对于交通车辆管理、园区车辆管理、停车场管理、交警稽查等方面有着十分重要的意义,成为信息处理技术的一项重要研究课题。汽车牌照自动识

相关文档
最新文档