HTML基础与R语言解析_光环大数据 Python培训机构
https://www.360docs.net/doc/a113238638.html,
HTML基础与R语言解析_光环大数据 Python培训机构
在众多的数据科学与网络技术中,louwill越来越发现大家对爬虫的兴趣要大于其他技术。微信上经常跑过来问我爬虫问题的同学不在少数,每次的问题除了具体的某个技术细节外,无外乎这个爬虫需求能否用R实现,那个爬虫操作能否用R搞定之类。每次碰到自己不能解决的,就只好说抱歉啊同学,你这个爬虫需求好像R爬虫不能解决哦,要不要用一下Python呢。
就这么一来二去,次数多了,louwill自己也疑惑。毕竟自己对于R语言也只能算个半吊子,对于R爬虫更是只会Rcurl和rvest两个包,我就想啊,难道R语言真的不能像Python那样对于大家各色各样的爬虫需求有个完整的解决方案?对于非结构的网页抓取真的就不能很好的处理?在碰到无规律的url的时候,R爬虫进行翻页抓取就那么困难吗?在Python爬虫中用到的AJAX和Selenium技术R就不能也搞一搞?
带着这些疑问,louwill决心好好研究一番,即使最后得出了R语言均不能解决上述疑问的结论,也好在下次再有同学问我问题的时候,可以把自己的在R 语言爬虫这一块的研究结果充分自信地告诉他。为此,louwill又决定在公众号开一期专栏,名字就叫R语言爬虫系列,从基础的HTML、XML、JSON、XPath表达式、HTTP协议等爬虫支撑的网络技术开始讲起,争取让大家在R语言爬虫上面得到一个全面完整的解决方案。
https://www.360docs.net/doc/a113238638.html,
作为网络前端技术最核心三大技术之一(HTML、CSS和JavaScript),HTML的重要性不言而喻。如果说前端开发过程是一个造房子的过程,那么HTML就是这所房子的骨架结构,从地基到天花板要结构明晰,而房子造好后的装修则是CSS,比如说给地板贴瓷砖,给墙壁贴墙纸这样。最后房子建好,晚上我们要开灯不是?这就是JavaScript。
先不管不顾的扯了这么多,那到底什么是HTML呢?它跟我们的R语言爬虫又有什么关系呢?HTML的全称叫做超文本标记语言(Hyper Text Markup Language),是一种用于在网页上展示内容的语言,讲道理呢HTML并不是一种编程语言,而是一种描述内容并定义其表征的标记语言。说白了就是,HTML只规定了网页的结构,让网页在哪里显示标题和内容,显示什么内容,至于怎么个显示法,HTML管不着。
HTML的语法规则
打开大家习惯使用的一款浏览器,随手打开一个网页,单击右键查看源文件,当前网页的HTML代码就展示在你眼前了。下面是统计之都首页的HTML代码一部分:
相较于编程语言的语法,HTML的语法堪称简单易懂又好学。简单而言,从结构上看,HTML是一个树形结构,从内容上而言HTML也就是标签、元素和属性这些内容,再稍微注意一下HTML的注释方式、保留字符和文档定义,一个简单的HTML知识概览你就了解了。
标签、元素和属性
https://www.360docs.net/doc/a113238638.html,
的标题,在实际语法中标签通常以一个< >符号包括起来,起始标签、内容和终止标签组合起来则成为元素,如下代码所示:
起始标签和终止标签都用< > 符号包裹,以便和内容进行区分,不同的是终止标签会有一个/符号以示区别。一般而言,每个元素都有一个起始标签和终止标签,但也不是全部。比如说
标签表示换行,它就不需要一个标签来表示终止。
常用的HTML标签如下表所示:
标签描述定义锚定义关于HTML文档的元信息定义文档与外部资源的关系 定义段落定义计算机代码文本
-
定义HTML标题