Discuz论坛系统采集完美教程!
史上最全dedecms调用dz论坛帖子和图片

调用帖子内容摘要信息 {dede:loop table="cdb_posts" sort="tid" row="3"} ∙[field:subject function="cn_substr('@me',100)" /] [field:message function="cn_substr('@me',46)" /]...[查看全文] {/dede:loop} 调用查看次数最多的帖子。
{dede:loop table="cdb_threads" if="fid=4 and displayorder!=-1" sort="views" row="8"}∙[field:subject function="cn_substr('@me',46)" /] [[field:lastpost function="date('m-d','@me')" /]] {/dede:loop} 调用回复次数最多的帖子。
{dede:loop table="cdb_threads" if="fid=4 and displayorder!=-1"sort="replies" row="8"}∙[field:subject function="cn_substr('@me',46)" /] [[field:lastpost function="date('m-d','@me')" /]] {/dede:loop} 调用精华帖子帖子分为1级精华2级精华3级精华。
DedeCMSV5.6版自动采集功能规则使用基本知识详细讲解教程

DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(一) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5026次评论:0条★★我要投稿★★将此页添加到网摘:DedeCMS采集功能使用基本知识讲解采集是指有着确定方向、明确目的的采撷和记录写作材料的一种活动。
它主要指调查采访和查阅和搜集资料。
采集最主要的作用在于为写作、分析、报表获取直接的和间接的材料。
今天我们讲的采集主要是指网站采集,网站采集的概念主要是:程序按照指定的规则定向获取其他网站数据的一种方式,另一种简单的说法就是将CTRL+C CTRL+V 程序化,系统化,自动化,智能化DedeCMS早期就已经加入了这个采集的功能,以前我们添加网站内容一般都是通过复制、粘贴、编辑然后再发布,这样对于少量的文章还是可以,但如果对于一个新站,什么内容都没有,那就需要复制粘提大量的文章,这是一个重复、枯燥的过程,内容采集就是解决这个问题,将这个重复的操作简化成规则,通过规则进行批量操作。
当然采集还可以通过一些专门的采集器来进行采集,国内比较出名的采集器有火车头。
今天我们这里以DedeCMS程序自带的采集功能来讲解如何使用采集,并介绍如何对采集的内容进行一些批量的管理。
首先我们进入系统后台,打开[采集]-[采集节点管理],在学习使用这个采集工能之前先介绍一些基本的技术知识。
首先我们需要知道HTML基本内容,我们知道浏览器中显示的各种各样的页面其实都是由最基本的HTML组成的,我们可以在我们DedeCMS系统后台发布一篇内容,然后对内容进行一些格式上面的设置。
也就是说我们的页面都是HTML代码经过浏览器解析后显示出来的,这些基本的HTML代码是给机器看的,而解析出来显示的内容是给我们的用户看的,机器其实是一个死东西,他阅读网页不像用户一样,直接看到某一个部分的内容,机器能够看到的是某一部分代码。
DedeCMSV5.6版自动采集功能规则使用基本知识讲解教程(二) 2011-05-05 17:09:01 来源: 作者: 【大中小】浏览:5027次评论:0条★★我要投稿★★将此页添加到网摘:例如,我们查看一个网页:,我们很容易就看到这个文档的内容部分,如图中黄色区域。
dedecms软件采集教程

dedecms软件采集教程.txt其实全世界最幸福的童话,不过是一起度过柴米油盐的岁月。
一个人愿意等待,另一个人才愿意出现。
感情有时候只是一个人的事,和任何人无关。
爱,或者不爱,只能自行了断。
使用步骤:1、网站后台--采集管理--数据规则模型--导入文本配置,,,,导入一下配置代码:{dede:noterulename='软件模型'etype='当前系统'tablename='dede_archives,dede_addonsoft'autofield='ID'synfield='aid'channelid='3'/}{dede:field name='typeid' comment='栏目ID' intable='dede_archives' source='value'}{tid}{/dede:field}{dede:field name='arcrank' comment='文档权限' intable='dede_archives' source='value'}{rank}{/dede:field}{dede:field name='channel' comment='频道类型' intable='dede_archives' source='value'}{cid}{/dede:field}{dede:field name='typeid' comment='栏目ID' intable='dede_addonsoft' source='value'}{tid}{/dede:field}{dede:field name='adminID' comment='管理员ID' intable='dede_archives' source='value'}{admin}{/dede:field}{dede:field name='sortrank' comment='排序级别' intable='dede_archives' source='value'}{senddate}{/dede:field}{dede:field name='senddate' comment='录入时间' intable='dede_archives' source='value'}{senddate}{/dede:field}{dede:field name='source' comment='来源' intable='dede_archives' source='value'}{source}{/dede:field}{dede:field name='pubdate' comment='发布时间' intable='dede_archives' source='function'} @me = (@me=='' ? time() : GetMkTime(@me));{/dede:field} {dede:field name='litpic' comment='缩略图' intable='dede_archives' source='function'}@me = @litpic;{/dede:field}{dede:field name='title' comment='标题' intable='dede_archives' source='export'}{/dede:field}{dede:field name='writer' comment='作者' intable='dede_archives' source='export'}{/dede:field}{dede:field name='filetype' comment='文件类型' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='language' comment='语言' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='softtype' comment='软件类型' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='accredit' comment='授权方式' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='os' comment='操作系统' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='officialurl' comment='官方网址' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='officialdemo' comment='演示网址' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='softsize' comment='软件大小' intable='dede_addonsoft' source='export'}{/dede:field}{dede:field name='softlinks' comment='软件地址' intable='dede_addonsoft' source='export'}@me = TurnLinkTag(@me);{/dede:field}{dede:field name='introduce' comment='详细介绍' intable='dede_addonsoft' source='export'}{/dede:field}2、覆盖本贴附件里面的文件(覆盖前请备份文件,以免出现意外情况)注意事项:1、本采集模快只采集软件的绝对地址,并不下载软件到本地哦2、采集的软件地址和手工添加的互不影响3、有啥问题跟帖哦4、给个采集规则测试,呵呵,规则如下:{!-- 节点基本信息 --}{dede:item name='证券软件'imgurl='/upimg' imgdir='../upimg' language='gb2312'isref='no' refurl='' exptime='10'typeid='2' matchtype='string'}{/dede:item}{!-- 采集列表获取规则 --}{dede:list source='var' sourcetype='list'varstart='' varend=''}{dede:urlvalue='/soft/gupiaojiaoyi/list2_5.html'}{/dede:url} {dede:need}.html{/dede:need}{dede:cannot}{/dede:cannot}{dede:linkarea}<td width="10%" align="center" bgcolor="#65BD15"><spanstyle="font-size:14px;color:#ffffff;font-weight:bold;">人气</span></td>[var:区域]<div class="mainNextPage">{/dede:linkarea}{/dede:list}{!-- 网页内容获取规则 --}{dede:art}{dede:sppage sptype='none'}{/dede:sppage}{dede:note field='dede_archives.pubdate' value='[var:内容]' comment='发布时间' isunit='' isdown=''}{dede:match}{/dede:match}{dede:function} @me = (@me=='' ? time() : GetMkTime(@me));{/dede:function}{/dede:note}{dede:note field='dede_archives.litpic' value='[var:内容]' comment='缩略图'isunit='' isdown=''}{dede:match}{/dede:match}{dede:function}@me = @litpic;{/dede:function}{/dede:note}{dede:note field='dede_archives.title' value='[var:内容]' comment='标题'isunit='' isdown=''}{dede:match}<dt id="downInfoTitle">[var:内容]</dt>{/dede:match}{dede:trim}提供{/dede:trim}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_archives.writer' value='[var:内容]' comment='作者'isunit='' isdown=''}{dede:match}<b>辅助软件:</b>[var:内容]<br/><b>下载统计:</b{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.filetype' value='[var:内容]' comment='文件类型'isunit='' isdown=''}{dede:match}<b>软件类型:</b>[var:内容]<b>授权方式:</b>{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_nguage' value='[var:内容]' comment='语言' isunit='' isdown=''}{dede:match}<b>软件语言:</b>[var:内容]<br/><b>软件类型{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.softtype' value='[var:内容]' comment='软件类型'isunit='' isdown=''}{dede:match}<b>软件类型:</b>[var:内容]<br/><b>授权方式:{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.accredit' value='[var:内容]' comment='授权方式'isunit='' isdown=''}{dede:match}<b>软件类型:</b>[var:内容]<br/><b>授权方式:{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.os' value='[var:内容]' comment='操作系统'isunit='' isdown=''}{dede:match}<dd class="downInfoRowL"><b>[var:内容]<br/><b>软件语言:{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.officialurl' value='[var:内容]' comment='官方网址'isunit='' isdown=''}{dede:match}<A href="/"><SPAN>首页</SPAN></A><LI><A href="[var:内容]"><SPAN>股票分析软件</SPAN></A><LI><A href="/soft/gupiaojiaoyi/list2_1.html"><SPAN>{/dede:match} {dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.officialdemo' value='[var:内容]' comment='演示网址'isunit='' isdown=''}{dede:match}<A href="/"><SPAN>首页</SPAN></A><LI><A href="[var:内容]"><SPAN>股票分析软件</SPAN></A><LI><A href="/soft/gupiaojiaoyi/list2_1.html"><SPAN>{/dede:match} {dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.softsize' value='[var:内容]' comment='软件大小'isunit='' isdown=''}{dede:match}<b>软件大小:</b>[var:内容]<br/><b>推荐星级:{/dede:match}{dede:trim}<style type="text/css">(.*)</style>{/dede:trim}{dede:trim}<div class="top_content">(.*)</div>{/dede:trim}{dede:trim}<script type="text/javascript">(.*)</script>{/dede:trim}{dede:trim}<script(.*)></script>{/dede:trim}{dede:trim}</o:p>{/dede:trim}{dede:trim}<SPAN([^>]*)>{/dede:trim}{dede:trim}</SPAN>{/dede:trim}{dede:trim}<style>(.*)</style>{/dede:trim}{dede:trim}</style>{/dede:trim}{dede:trim}<style>{/dede:trim}{dede:trim}<style(.*)>{/dede:trim}{dede:trim}<param([^>]*)>{/dede:trim}{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}{dede:trim}<embed([^>]*)>{/dede:trim}{dede:trim}</embed>{/dede:trim}{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}{dede:trim}<object([^>]*)>{/dede:trim}{dede:trim}</object>{/dede:trim}{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}{dede:trim}<OBJECT([^>]*)>{/dede:trim}{dede:trim}</OBJECT>{/dede:trim}{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}{dede:trim}<iframe([^>]*)>{/dede:trim}{dede:trim}</iframe>{/dede:trim}{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}{dede:trim}<IFRAME([^>]*)>{/dede:trim}{dede:trim}</IFRAME>{/dede:trim}{dede:trim}<font([^>]*)>{/dede:trim}{dede:trim}</font>{/dede:trim}{dede:trim}</u>{/dede:trim}{dede:trim}<u>{/dede:trim}{dede:trim}<option(.*)>(.*)</option>{/dede:trim}{dede:trim}<div(.*)>{/dede:trim}{dede:trim}</div>{/dede:trim}{dede:trim}<div>{/dede:trim}{dede:trim}<script(.*)>(.*)</script>{/dede:trim}{dede:trim}<script(.*)>{/dede:trim}{dede:trim}</script>{/dede:trim}{dede:trim}<img(.*)>{/dede:trim}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.softlinks' value='[var:内容]' comment='软件地址'isunit='' isdown=''}{dede:match}<script language="javascript" src="/adfile/gg03.js"></script> [var:内容]<script language="javascript" src="/adfile/gg04.js"></script>{/dede:match}{dede:function}{/dede:function}{/dede:note}{dede:note field='dede_addonsoft.introduce' value='[var:内容]' comment='详细介绍'isunit='' isdown=''}{dede:match}<span class="boxhead col-icon7">[var:内容]<div class="story" style="padding:3px;">{/dede:match}{dede:trim}<style type="text/css">(.*)</style>{/dede:trim}{dede:trim}<div class="top_content">(.*)</div>{/dede:trim}{dede:trim}<script type="text/javascript">(.*)</script>{/dede:trim}{dede:trim}<script(.*)></script>{/dede:trim}{dede:trim}</o:p>{/dede:trim}{dede:trim}<SPAN([^>]*)>{/dede:trim}{dede:trim}</SPAN>{/dede:trim}{dede:trim}<style>(.*)</style>{/dede:trim}{dede:trim}</style>{/dede:trim}{dede:trim}<style>{/dede:trim}{dede:trim}<style(.*)>{/dede:trim}{dede:trim}<param([^>]*)>{/dede:trim}{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}{dede:trim}<embed([^>]*)>{/dede:trim}{dede:trim}</embed>{/dede:trim}{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}{dede:trim}<object([^>]*)>{/dede:trim}{dede:trim}</object>{/dede:trim}{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}{dede:trim}<OBJECT([^>]*)>{/dede:trim}{dede:trim}</OBJECT>{/dede:trim}{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}{dede:trim}<iframe([^>]*)>{/dede:trim}{dede:trim}</iframe>{/dede:trim}{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}{dede:trim}<IFRAME([^>]*)>{/dede:trim}{dede:trim}</IFRAME>{/dede:trim}{dede:trim}<font([^>]*)>{/dede:trim}{dede:trim}</font>{/dede:trim}{dede:trim}</u>{/dede:trim}{dede:trim}<u>{/dede:trim}{dede:trim}<option(.*)>(.*)</option>{/dede:trim} {dede:trim}<div(.*)>{/dede:trim}{dede:trim}</div>{/dede:trim}{dede:trim}<div>{/dede:trim}{dede:trim}<script(.*)>(.*)</script>{/dede:trim} {dede:trim}<script(.*)>{/dede:trim}{dede:trim}</script>{/dede:trim}{dede:function}{/dede:function}{/dede:note}{/dede:art}文章编辑来源 。
Discuz论坛系统采集完美教程!

1、Discuz论坛系统采集维护王(发贴王)大挪移(搬家王)软件设置软件设置步骤一1、维护王(发贴王)大挪移(搬家王)软件设置都是一样的,我们就以维护王(发贴王)为例来介绍软件设置你的网站是GBK版就运行标准版的软件如果你网站是UTF8编码的版本运行UTF8版的采集软件运行咱们的采集软件,点击步骤一网站设置2、打开您的网站首页复制你的首页地址3、把首页地址粘贴到软件步骤一里的首页地址位置4、鼠标右键点击您的网站首页里面的登陆————显示一个菜单—————鼠标点击菜单里的属性——————出现一个窗口,复制里面的登陆地址5、把登陆地址粘贴到软件步骤一里的登陆地址位置6、网站类型选择您的网站如果是discuz 7.00 那么,在就下图里面选择No0 Discuz! 7.00 版标准论坛类型7、点击保存设置采集软件将保存步骤一的设置并退出到软件主画面这样软件步骤一就设置完成了,步骤二设置有些麻烦,让我们先跳过,接下来让我们继续设置步骤三软件设置步骤三顶贴会员设置点击步骤三顶贴会员设置(注:这里是设置软件发布文章时的作者,和回复文章时的会员名)您可以使用我们的DISCUZ注册软件在您的DISCUZ论坛上注册一批会员,注册好后,把这批会员放在软件步骤三里但注意一点,您放到软件里的会员必须全部能在您的DISCUZ论坛上能正常登陆,(您可以手工试试看能不能登陆)1、放入在网站注册成功的会员2、每一行一个会员最多可放500个会员3、会员名称和登陆密码之间要空10个以上的空格会员安要求设置好后,点击保存软件自动退回主界面这样步骤三就设置成功了,接下来,让我们继续设置步骤二软件设置步骤二板块及发贴板块ID设置1、鼠标点击步骤二板块及发贴板块ID设置——————将进入软件版块及发贴设置,这里是用来设置,发布文章网址,和回复文章网址用的2、在IE窗口里打开您的论坛首页,您网站有很多论坛版块,把您论坛对应的板块名称及板块地址放入步骤二第一个窗口去注:此为测试,就只放一个版块就OK了。
优化DEDECMS采集程序 支持部分采集只需要两步

优化DEDECMS采集程序支持部分采集只需要两步DEDECMS自带的采集功能,虽然比不上其他专业的采集软件,但对比其他采集程序,在性能上还是非常不错。
很多其他程序无法采集下来的网页,使用DEDECMS可以采集得到。
比如58同城首页,使用discuz的下载函数采集过来的都是一片空白或者警告内容,但是使用dedecms的下载完全可以下载下来。
DEDE采集程序原理DEDECMS的采集原理很简单:通过PHP程序socket模拟HTTP请求,下载整张网页的HTML。
不过这里面有一个不足之处——不支持部分采集。
如果我们仅仅要获得对方网页的标题,却下载了整张网页。
一两张无所谓,但是大量的下载就会挤占服务器资源和带宽。
比如商务大陆网35dalucom的分类信息网站大全,该频道含有600多分类信息网站,网站程序后台自动定期获取这些网站的标题,以判断这些网站是否可以正常打开,内容是否发生改变。
如果使用dede的程序,直接默认下载整张网页而不是仅网页HTML头部部分,长期下去可想而知会挤占多少服务器资源。
此时我们此处仅仅需要获得对方网页的标题而已。
修改文件dedehttpdown.class.php要让DEDECMS实现部分采集的功能非常简单,只需要修改采集程序文件dedehttpdown.class.php 中的2个地方即可。
使用notepad++或者dreamweaver 打开/include/dedehttpd.class.php:(1)第118行$this->m_html = '';背后加入$this->dataLimit = 0;。
(2)第285行$this->m_html .= fgets($this->m_fp,256); 背后加入if($this->dataLimit > 0 && strlen($this->m_html) > $this->dataLimit) break; 保存即可。
Discuz帖子采集

Discuz. 论坛帖子采集
建立采集任务
复制要采集的discuz论坛地址
打开八爪鱼采集器,建立采集任务名称点击下一步
在八爪鱼采集器内置浏览器的地址栏中输入要采集的论坛地址,点击跳转,流程设计器中会生成一个“打开网页”步骤,
创建翻页循环
找到论坛中的翻页按钮,右键点击,在弹出的执行框中选择执行,“循环点击下一页”
完成后流程设计器会生成一个翻页循环
创建帖子列表
完成后上述操作后,右键点击第一个帖子,
在跳出的操作框中,选择下图红色方框的选项“创建一个元素列表”
将第一个群组的信息添加到列表中后,点击继续编辑列表
点击第二个群组的信息,同样将其添加到列表中
八爪鱼会将具有相似特征的元素抓取到列表中,
如上图,所有的群组信息被添加到列表,接着点击创建列表完成,
再点击循环,完成群组列表的创建
提取要采集的信息文本
创建列表完成后流程图,如左侧所示,接着我们需要对采集的帖子信息进行抓取,如图点击帖子中的标题,在跳出的执行框中,选择执行”抓取这个元素文本”
抓取到的内容会显示在右上方的操作框中,这里可以修改采集字段的名称,
到这里我们就完成了帖子的信息提取
由于每一页都需要循环采集数据,所以我们需要将这个循环列表拖入到翻页循环里面。
注意:流程是从上网页执行的,所以这个循环列表需要放到点击翻页的前面,否则会漏掉第一页的数据。
最终流程图如下图所示:
点击保存,进入下一个采集步骤
开始采集
选择单机采集,开始QQ的提取
采集完成,有多个导出格式可供选择,可以根据需要点选,采集到的重复数据
八爪鱼采集器会自动识别出来,导出时可以选择是否去重。
采集黑马程序员论坛的帖子

任务名称:采集黑马程序员论坛的帖子一、引言黑马程序员论坛是一个知名的IT技术交流平台,涵盖了各种编程语言、开发工具、前沿技术等话题。
本文将介绍如何采集黑马程序员论坛的帖子,并对采集过程中需要考虑的问题进行分析和解决。
二、准备工作1.安装 Python 环境2.安装 Beautiful Soup 库3.安装 requests 库三、黑马程序员论坛的帖子结构分析在采集黑马程序员论坛的帖子之前,我们需要先了解一下帖子的结构。
通常一个帖子包括标题、内容、作者、发布时间等信息。
3.1 帖子标题帖子标题通常位于页面的 h1 标签下,我们可以通过 Beautiful Soup 来提取标题信息。
3.2 帖子内容帖子内容通常位于 div 标签下,我们可以通过 Beautiful Soup 来提取帖子的内容。
3.3 作者信息作者信息可能包括用户名、头像等,我们可以通过页面中的特定标签来获取作者信息。
3.4 发布时间发布时间通常位于帖子内容下方,我们同样可以通过 Beautiful Soup 来获取发布时间信息。
四、采集黑马程序员论坛帖子的方法了解了帖子的结构之后,我们可以开始采集黑马程序员论坛的帖子了。
下面是采集的大致步骤:4.1 发送 HTTP 请求获取页面内容使用 requests 库发送 HTTP GET 请求,获取黑马程序员论坛的页面内容。
4.2 解析页面内容使用 Beautiful Soup 解析页面内容,提取帖子的标题、内容、作者信息、发布时间等。
4.3 存储帖子信息将帖子的信息存储到数据库或本地文件中,以便后续的处理和分析。
五、采集过程中需要注意的问题在采集黑马程序员论坛的帖子时,需要考虑到以下问题:5.1 网络访问限制黑马程序员论坛可能对频繁的网络访问进行了限制,我们需要合理设置访问频率,避免被封禁IP。
5.2 页面结构变化黑马程序员论坛的页面结构可能会随着时间的推移而发生变化,我们需要时刻关注页面结构的变化,并相应地调整采集代码。
dedecms规则采集和使用教程

大家好!今天给大家录制一个dedecms采集规则编写以及使用教程星期8_淘淘小店地址今天采集的目标站地址选择下面的列表地址编写规则/more-yuleshijianbu-1.html0.节点名称随意编写我们写娱乐事件 如图(1)1.程序编码gbk utf8 程序编码是GB2312和gbk一样如图(1)2.地址批量/more-yuleshijianbu-(*).html如图(1)图13.列表前后代码截取代码在列表页必须只有这样一条代码<div class="more_left_6"><div class="paging"> 如图(2)4.必须包含链接关键词(通用)shtml 如图(2)图25.不得包含关键词主要是过滤文章内容链接不需要的地址如图(2)6.文章标题提取通常都是<title>[内容]</title> 如图(4)图4过滤规则{dede:trim replace=''}要过滤的内容{/dede:trim}{dede:trim replace=''}_娱乐_onlylady女人志{/dede:trim}标题规则这样就OK了如图(5)图57.内容规则提取内容前后截取的代码同样必须是整个页面唯一性的代码<div class="detail_content" id="detail_content">[内容]<!--PAGE-->8.过滤规则提取dedecms过滤规则最重要的地方很多朋友不会使用他本条规则过滤代码如下{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=""}本文导航(.*)键翻页{/dede:trim}{dede:trim replace=""}<div([^.]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<p style([^.]*)>{/dede:trim}{dede:trim replace=""}>" >点击图片进入下一页>>{/dede:trim}官方提供的过滤规则如下{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}{dede:trim replace=''}<!--(.*)-->{/dede:trim}{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=''}<img([^>]*)>{/dede:trim}{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}{dede:trim replace=''}<embed([^>]*)>(.*)</embed>{/dede:trim}{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}{dede:trim replace=''}<div([^.]*)>{/dede:trim}{dede:trim replace=''}</div>{/dede:trim}下面讲下常用的过滤规则{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim} a链接的过滤规则但是如果在a链接后面带img图片链接的话只需要改下面规则{dede:trim replace=''}<a([^>]*)>{/dede:trim}js过滤规则{dede:trim replace=''}<script([^>]*)>(.*)</script> {/dede:trim} 一般不用动他是要前后开头<script都会自动把这样的代码干掉{dede:trim replace=''}<div([^.]*)>{/dede:trim}常用如果内容页面有<td width=950 height=100 align=middle>就可以把{dede:trim replace=''}<div([^.]*)>{/dede:trim} 改成{dede:trim replace=''}<td([^.]*)>{/dede:trim} 一次性全部干掉还有就是文字{dede:trim replace=''}</div>{/dede:trim}整段文字过滤{dede:trim replace=''}文字开头(.*)文字结尾{/dede:trim}9.内容分页代码系统提供{path}{file}_{p}{ext} 一般用这个就可以全部解决了不行的话就要在分页代码前后截取如<div class=page>[内容]</div>(1.)全部列出的分页列表(2.)上下页形式或不完整的分页列表(3.)分页列表规则开始: 结束三个选项基本上都可以解决分页难题10.规则采集数据导出方法采集-采集节点管理-勾选需要采集的规则-规则下面点采集如图(6)图6每页采集默认 5 可以按照自己服务器宽带速度适量修改一次采集太多可能会造成采集进度卡停如图7图7间隔时间一般在采集图集的时候需要用到他因为图集在采集标题的时候经常会采集错误导出数据如图8 到图9图8图9。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、Discuz论坛系统采集维护王(发贴王)大挪移(搬家王)软件设置
软件设置步骤一
1、维护王(发贴王)大挪移(搬家王)软件设置都是一样的,我们就以维护王(发贴王)为例来介绍软件设置
你的网站是GBK版就运行标准版的软件如果你网站是UTF8编码的版本运行UTF8版的采集软件
运行咱们的采集软件,点击步骤一网站设置
2、打开您的网站首页复制你的首页地址
3、把首页地址粘贴到软件步骤一里的首页地址位置
4、鼠标右键点击您的网站首页里面的登陆————显示一个菜单—————鼠标点击菜单里的属性——————出现一个窗口,复制里面的登陆地址
5、把登陆地址粘贴到软件步骤一里的登陆地址位置
6、网站类型选择您的网站如果是discuz 7.00 那么,在就下图里面选择
No0 Discuz! 7.00 版标准论坛类型
7、点击保存设置采集软件将保存步骤一的设置并退出到软件主画面
这样软件步骤一就设置完成了,步骤二设置有些麻烦,让我们先跳过,接下来让我们继续设置步骤三
软件设置步骤三顶贴会员设置
点击步骤三顶贴会员设置(注:这里是设置软件发布文章时的作者,和回复文章时的会员名)
您可以使用我们的DISCUZ注册软件在您的DISCUZ论坛上注册一批会员,注册好后,把这批会员放在软件步骤三里
但注意一点,您放到软件里的会员必须全部能在您的DISCUZ论坛上能正常登陆,(您可以手工试试看能不能登陆)
1、放入在网站注册成功的会员
2、每一行一个会员最多可放500个会员
3、会员名称和登陆密码之间要空10个以上的空格
会员安要求设置好后,点击保存软件自动退回主界面这样步骤三就设置成功了,接下来,让我们继续设置步骤二
软件设置步骤二板块及发贴板块ID设置
1、鼠标点击步骤二板块及发贴板块ID设置——————将进入软件版块及发贴设置,这里是用来设置,发布文章网址,和回复文章网址用的
2、在IE窗口里打开您的论坛首页,您网站有很多论坛版块,把您论坛对应的板块名称及板块地址放入步骤二第一个窗口去
注:此为测试,就只放一个版块就OK了。
如果将来发布成功了,在把其它所有要发布文章的板块放入步骤二,每一行一个
下面演示一下放入方法(以我们演示站为例来说明)
1、点击第一个版块,默认版块
2、IE地址栏里显示的地址就是默认版块的版块地址了复制下来
3、在采集软件里的上面窗口内,按图的格式把默认版块的版块网址复制进去
软件上面的窗口内,版块名称————空10个以上空格————默认版块的版块网址
4、下面要设置上面这个版块的发贴网址了
在IE里1、鼠标右键点击这个版块的发新话题————2、出现一个菜单点击菜单中的属性————3、出现一个窗口窗口里将显示您网站的发贴网址复制下来
5、把发布地址粘贴到软件里的下面那个发布窗口去
这里提示一下,上面窗口是板块地设置,下面是该板块的发布设置,要一一对应,也就是每一行都得对应,上面窗口第一行的板块要对应下面窗口的第一行的发布板块. 那么上面第二行板块,得对应下面窗口第二行发布板块,这样才能发布正确
========================================
这样一个版块就设置好了,如果您想设置多少板块就按照上面的方法设置,注意每一行一个板块,上面和下面每一行要对应
即软件上面板块窗口的第一行,对应下面板块发布窗口第一行
即软件上面板块窗口的第二行,对应下面板块发布窗口第二行
即软件上面板块窗口的第三行,对应下面板块发布窗口第三行
========================================
现在软件设置就OK了,让我们保存退出,进行发贴测试吧
软件设置成功,下面进行发布测试
点击采集软件的批量发贴
1、选取要发布的文章
2、取消发布后删贴(因为咱们是测试,不想发布后把文章删了)
3、点击开始批量发贴
看下面的发贴效果
正在进行批量发贴,已发表到论坛的贴子数4
正在发贴000023[海豚厨房]之自制茶熏鸡翅
论坛会员: 凌波微步000000进行进行发贴任务
论坛会员: 凌波微步000000正在回贴
论坛会员: 灯笼芯000000正在回贴
论坛会员: 星☆雨000000正在回贴
论坛会员: 凌波微步000000正在回贴
论坛会员: 听听海000000正在回贴
论坛会员: 流星悟语000000正在回贴
论坛会员: 流星悟语000000正在回贴
论坛会员: 绿豆宝贝000000正在回贴
OK,发布成功,在您的网站后台,点击信息管理点击资讯管理,看看文章是不是发布成功了
到这里软件设置全部成功,你可以安照我们的方法,步骤二里的所有板块全部设置完成
为了更好的让软件配合网站使用,您的网站后台具体修改设置如下
1、进入论坛后台
2、取消会员登陆验证码
(后台1、点击全局————2、点击安全设置用户登录和发表主题与回复关闭验证码————3、点击提交)
3、发贴回贴间隔时间设为0
(后台1、点击全局————2、点击优化设置————3、点击服务器优化————4、找
到发帖灌水预防(秒): 设为0 ————5、点击提交)
4、发贴字数设为0到9999999
(后台1、点击全局————2、点击用户权限————3、查找到帖子最小字数(字节): 设为0 ————4、查找到帖子最大字数(字节): 设为999999————5、点击提交)
5、开启直接/快速跳转设为关闭
(后台1、点击界面————2、点击提示信息————3、找到开启直接/快速跳转:————4、选择是————5、点击提交)
6、快速发帖: 设为是
(后台1、点击界面————2、点击帖子内容页————3、找到快速发帖:————4、选择是————5、点击提交)。