java开元搜索引擎列表
java25个Java机器学习工具库

java25个Java机器学习⼯具库本列表总结了25个Java机器学习⼯具&库:1. Weka集成了数据挖掘⼯作的机器学习算法。
这些算法可以直接应⽤于⼀个数据集上或者你可以⾃⼰编写代码来调⽤。
Weka包括⼀系列的⼯具,如数据预处理、分类、回归、聚类、关联规则以及可视化。
2.Massive Online Analysis(MOA)是⼀个⾯向数据流挖掘的流⾏开源框架,有着⾮常活跃的成长社区。
它包括⼀系列的机器学习算法(分类、回归、聚类、异常检测、概念漂移检测和推荐系统)和评估⼯具。
关联了WEKA项⽬,MOA也是⽤Java编写的,其扩展性更强。
3.MEKA项⽬提供了⼀个⾯向多标签学习和评价⽅法的开源实现。
在多标签分类中,我们要预测每个输⼊实例的多个输出变量。
这与“普通”情况下只涉及⼀个单⼀⽬标变量的情形不同。
此外,MEKA基于WEKA的机器学习⼯具包。
4. Advanced Data mining And Machine learning System(ADAMS)是⼀种新型的柔性⼯作流引擎,旨在迅速建⽴并保持真实世界的复杂知识流,它是基于GPLv3发⾏的。
5. Environment for Developing KDD-Applications Supported by Index-Structure(ELKI)是⼀款基于Java的开源(AGPLv3)数据挖掘软件。
ELKI主要集中于算法研究,重点研究聚类分析中的⽆监督⽅法和异常检测。
6. Mallet是⼀个基于Java的⾯向⽂本⽂件的机器学习⼯具包。
Mallet⽀持分类算法,如最⼤熵、朴素贝叶斯和决策树分类。
7. Encog是⼀个先进的机器学习框架,集成了⽀持向量机(SVM)、⼈⼯神经⽹络、遗传算法、贝叶斯⽹络、隐马尔可夫模型(HMM)、遗传编程和遗传算法。
8. Datumbox机器学习框架是⼀个⽤Java编写的开源框架,允许快速地开发机器学习和统计应⽤。
全球搜索引擎大全

全球搜索引擎大全1、谷歌搜索引擎:/GOOGLE搜索引擎是由两位斯坦福大学的博士LARRY PAGE和SERGEY BRIN在1998年创立的,几年间发展为目前规模最大的。
谷歌每天需要处理2亿次搜索请求,数据库存有30亿个WEB文件。
2、雅虎搜索引擎:/雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站()于1999年9月正式开通,它是雅虎在全球的第20个网站。
3、Ask搜索引擎:是1996年出现在加利福尼亚州伯克利的一个搜索引擎,后来运营总部迁往奥克兰。
4、HotBot搜索引擎:/HotBot 是美国一个非常优秀的搜索引擎,它获得了许多杂志及媒体的奖项。
HotBot 最大的特点在于它的界面组织和丰富的检索功能。
它除了能够检索WEB页面之外,还提供域名检索、新闻搜索、新闻讨论组等等检索服务。
5、InfoSpace 搜索引擎:/InfoSpace(纳斯达克股票代码:INSP)是一家拥有众多搜索引擎产品的上市公司(Dogpile,Zoo等),是实力雄厚的ComScore公司的子公司之一,是美国著名的元搜索引擎公司。
6、WebCrawler搜索引擎:/WebCrawler自身是元搜索引擎,而GOOGLE和YAHOO独立搜索引擎称为“成员搜索引擎”,他们各自保持原来的局部数据模式和自己的检索指令。
7、Dogpile搜索引擎:/Dogpile是一个著名的元搜索引擎,诞生于1996年1月2日,现属于InfoSpace公司,是目前性能较好的统一检索入口式元搜索引擎之一。
每一条搜索结果都综合自数个搜索引擎,包括Google, Yahoo!, Ask Jeeves, About, FindWhat, LookSmart,Live等。
Dogpile提出的口号是"Good Dog,Great Results"。
国内:8、百度搜索引擎:/百度搜索引擎于1999年底在美国硅谷由李彦宏和徐勇创建。
元搜索引擎

元搜索引擎作者:姬洪强来源:《中小学信息技术教育》2007年第12期网络已逐渐成为教师教学中重要的信息来源,教师通常借助搜索引擎来检索所需求的资源。
然而,一种搜索引擎往往不能满足所有人或一个人所有的检索需求,经常需要使用多种搜索引擎,并对搜索结果进行比较、筛选和印证。
为解决逐一登录各种搜索引擎,并多次输入同一检索请求(检索字串)等操作繁琐的问题,元搜索引擎应运而生。
元搜索引擎的优点是返回的检索结果信息量大,检索效率高,服务多样化。
下面介绍几款国内外优秀的元搜索引擎以供中小学教师参考使用。
一、国内元搜索引擎1.Xooda 元搜索引擎()Xooda元搜索引擎支持16个国家/地区,可调用Baidu、Google、Yahoo、iAsk、Sogou、ZhongSou等12个源搜索引擎中全部或任意几个搜索引擎,可选择每个搜索引擎返回结果的数目。
它还可以进行进阶搜索,自动实现符合特殊检索语法要求的转换,只调用支持特殊检索语法的搜索引擎。
支持本地搜索,一次输入,返回多个搜索引擎结果,并对结果进行重新优化排序。
2.酷爱元搜索引擎()酷爱元搜索引擎提供自动搜索和人工搜索两种模式。
调用Baidu、Sogou、Yahoo等独立搜索引擎,各搜索引擎的结果会进行智能排序。
当用户输入关键词的时候,搜索框会自动列举出相关的关键词列表。
它的深入搜索功能可以为用户提供更精确的关键词,进一步细化结果。
当用户点击网页智能分析时,酷爱会把最相关的结果呈现给用户。
3.万纬元搜索引擎()万纬搜索引擎是最有名的中文元搜索引擎之一。
万纬中文集成搜索引擎包括了5个英文搜索引擎Argos、Google、Hotbot、NorthernLight、Yahoo和7个中文搜索引擎,如网典、新浪、雅虎(中文)、搜狐、天网、悠游搜索。
用户可根据需要自由选择其中最多6个引擎进行同步搜索,搜索结果可按相关度、时间、域名和引擎分类,还可以选择搜索的关键词之间是用and 还是用or来运算。
【转】44款Java网络爬虫开源软件

【转】44款Java⽹络爬⾍开源软件原帖地址WebFetch 是⽆依赖极简⽹页爬取组件,能在移动设备上运⾏的微型爬⾍。
WebFetch 要达到的⽬标:没有第三⽅依赖jar包减少内存使⽤提⾼CPU利⽤率加快⽹络爬取速度简洁明了的api接⼝能在Android设备上稳定运⾏⼩巧灵活可以⽅便集成的⽹页抓取组件使⽤...guozhongCrawler的是⼀个⽆须配置、便于⼆次开发的爬⾍开源框架,它提供简单灵活的API,只需少量代码即可实现⼀个爬⾍。
其设计灵感来源于多个爬⾍国内外爬⾍框架的总结。
采⽤完全模块化的设计,功能覆盖整个爬⾍的⽣命周期(链接提取、页⾯下载、内容抽取、...Another Simple Crawler ⼜⼀个⽹络爬⾍,可以⽀持代理服务器的FQ爬取。
1.数据存在mysql当中。
2.使⽤时,先修改web-inf/config.ini的数据链接相关信息,主要是数据库名和⽤户名和密码 3.然后访问http://127.0.0.1/fetch/install 链接,⾃动创建数据库表...spider-web 是爬⾍的⽹页版,使⽤xml配置,⽀持⼤部分页⾯的爬取,⽀持爬取内容的保存、下载等。
其中配置⽂件格式为: <?xml version="1.0" encoding="UTF-8"?> <content> <url type="simple"><!-- simple/complex --> <url_head>http://www.oschina....丑⽜迷你采集器是⼀款基于Java Swing开发的专业的⽹络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从⽹页上抓取结构化的⽂本、图⽚、⽂件等资源信息,可编辑筛选处理后选择发布到⽹站架构说明系统是基于 Swing+Spring-3.2.4+Mybatis-3...爬⾍简介: WebCollector是⼀个⽆须配置、便于⼆次开发的JAVA爬⾍框架(内核),它提供精简的的API,只需少量代码即可实现⼀个功能强⼤的爬⾍。
开源爬虫软件汇总

开源爬虫软件汇总开发语言软件名称软件介绍许可证JavaArachnid微型爬虫框架,含有一个小型HTML解析器GPLcrawlzilla安装简易,拥有中文分词功能Apache2Ex-Crawler由守护进程执行,使用数据库存储网页信息GPLv3Heritrix严格遵照robots文件的排除指示和META robots标签LGPLheyDr轻量级开源多线程垂直检索爬虫框架GPLv3ItSucks提供swing GUI操作界面不详jcrawl轻量、性能优良,可以从网页抓取各种类型的文件ApacheJSpider功能强大,容易扩展LGPLLeopdo包括全文和分类垂直搜索,以及分词系统ApacheMetaSeeker网页抓取、信息提取、数据抽取工具包,操作简单不详Playfish通过XML配置文件实现高度可定制性与可扩展性MITSpiderman灵活、扩展性强,微内核+插件式架构,通过简单的配置就可以完成数据抓取,无需编写一句代码Apachewebmagic功能覆盖整个爬虫生命周期,使用Xpath和正则表达式进行链接和内容的提取ApacheWeb-Harvest运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作,具有可视化的界面BSDWebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包ApacheYaCy基于P2P的分布式Web搜索引擎GPLPythonQuickRecon具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能GPLv3PyRailgun简洁、轻量、高效的网页抓取框架MITScrapy基于Twisted的异步处理框架,文档齐全BSDC++hispider支持多机分布式下载, 支持网站定向下载BSDlarbin高性能的爬虫软件,只负责抓取不负责解析GPLMethabot经过速度优化、可抓取WEB、FTP及本地文件系统不详Methanol模块化、可定制的网页爬虫,速度快不详C#NWebCrawler统计信息、执行过程可视化GPLv2Sinawler国内第一个针对微博数据的爬虫程序,功能强大GPLv3spidernet以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据MITWeb Crawler多线程,支持抓取PDF/DOC/EXCEL等文档来源LGPL网络矿工功能丰富,毫不逊色于商业软件BSDPHPOpenWebSpider开源多线程网络爬虫,有许多有趣的功能不详PhpDig适用于专业化强、层次更深的个性化搜索引擎GPLSnoopy具有采集网页内容、提交表单功能GPLThinkUp采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现GPL微购可采集淘宝、京东、当当等300多家电子商务数据GPLErLangEbot可伸缩的分布式网页爬虫GPLv3RubySpidr可将一个或多个网站、某个链接完全抓取到本地MIT开发语言软件名称软件介绍许可证Java Arachnid微型爬虫框架,含有一个小型HTML解析器GPLcrawlzilla安装简易,拥有中文分词功能Apache2Ex-Crawler由守护进程执行,使用数据库存储网页信息GPLv3Heritrix严格遵照robots文件的排除指示和META robots标签LGPLheyDr轻量级开源多线程垂直检索爬虫框架GPLv3ItSucks提供swing GUI操作界面不详jcrawl轻量、性能优良,可以从网页抓取各种类型的文件ApacheJSpider功能强大,容易扩展LGPLLeopdo包括全文和分类垂直搜索,以及分词系统ApacheMetaSeeker网页抓取、信息提取、数据抽取工具包,操作简单不详Playfish通过XML配置文件实现高度可定制性与可扩展性MITSpiderman灵活、扩展性强,微内核+插件式架构,通过简单的配置就可以完成数据抓取,无需编写一句代码Apachewebmagic功能覆盖整个爬虫生命周期,使用Xpath和正则表达式进行链接和内容的提取ApacheWeb-Harvest运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作,具有可视化的界面BSDWebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包YaCy基于P2P的分布式Web搜索引擎GPLPythonQuickRecon具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能PyRailgun简洁、轻量、高效的网页抓取框架MITScrapy基于Twisted的异步处理框架,文档齐全BSDC++hispider支持多机分布式下载, 支持网站定向下载BSDlarbin高性能的爬虫软件,只负责抓取不负责解析GPLMethabot经过速度优化、可抓取WEB、FTP及本地文件系统不详Methanol模块化、可定制的网页爬虫,速度快不详C#NWebCrawler统计信息、执行过程可视化GPLv2Sinawler国内第一个针对微博数据的爬虫程序,功能强大GPLv3spidernet以递归树为模型的多线程web爬虫程序,支持以GBK (gb2312)和utf8编码的资源,使用sqlite存储数据MITWeb Crawler多线程,支持抓取PDF/DOC/EXCEL等文档来源LGPL网络矿工功能丰富,毫不逊色于商业软件BSDPHPOpenWebSpider开源多线程网络爬虫,有许多有趣的功能不详PhpDig适用于专业化强、层次更深的个性化搜索引擎GPLSnoopy具有采集网页内容、提交表单功能GPLThinkUp采集推特、脸谱等社交网络数据的社会媒体视角引擎,可进行交互分析并将结果以可视化形式展现GPL微购可采集淘宝、京东、当当等300多家电子商务数据GPLErLangEbot可伸缩的分布式网页爬虫GPLv3RubySpidr可将一个或多个网站、某个链接完全抓取到本地MIT。
世界上最著名的220个搜索引擎大全

Web2.0 的冬天快要来临了? 敏思博客的倒闭和中搜即将发生大裁员似乎给了我们一些暗示......,不过这并不妨碍搜索引擎如雨后春笋般的涌现,下面是我收集的世界上最著名的220最著名的搜索引擎大全,与大家分享. 您也可以在这里阅读每日搜索引擎新闻.题记世界上最著名的220搜索引擎大全:1.- 163 - Chinese2.- 3721 - Chinese3.- 5 Star Shareware4.- A95.- About6.- Acronym Finder7.- Alexa Array8.- Alibaba9.- All the Internet Array10.- All the Web Search11.- All the Web Audio12.- All the Web Images13.- All the Web News14.- All the Web Videos15.- AltaVista Search16.- AltaVista Audio 17.- AltaVista Images 18.- AltaVista News 19.- AltaVista Video 20.- Amazon21.- Answers Array22.- AOL Search Array23.- AOL Hometown Array24.- Aport - Russian 25.- Ask Jeeves26.- Ask Jeeves Kids27.- Ask Jeeves News28.- Ask Jeeves UK29.- Baidu - Chinese30.- Barnes & Noble31.- Bartleby32.- BBC News33.- Become34.- BizRate35.- Blinkx36.- Blogger37.- Blogdigger38.- Bloglines 39.- BlogPulse 40.- Britannica 41.- British Pathe 42.- Business43.- BusyTrade Array44.- Array45.- Buyers Post 46.- CDC47.- CheckDomain Array48.- Clusty49.- CNET Reviews50.- CNET Shopper51.- Daypop52.- DealCatcher53.- DealTime54.- Dictionary55.- Digg56.- DigiSeek57.- Ditto58.- Dogpile59.- 60.- EarthCam61.- EasySeek62.- eBay63.- eBay UK64.- eCost65.- Education World Array66.- Encarta Array67.- Epinions Array68.- Exalead Array69.- Excite70.- Fandango71.- FDA72.- seo searcher73.- Feedster74.- Find Articles75.- FindLaw76.- FirstGov77.- FirstGov Kids78.- Flickr79.- Froogle80.- Galaxy81.- Gigablast82.- Goo - Japanese83.- Google Search84.- Google Base85.- Google Blog Search 86.- Google Book Search Array87.- Google Catalogs88.- Google Directory Array89.- Google Finance Array90.- Google Groups Array91.- Google Images92.- Google Local93.- Google Lucky94.- Google Maps95.- Google News96.- Google Scholar97.- Google Video98.- Google Australia99.- Google Canada100.- Google Ireland101.- Google New Zealand102.- Google UK103.- Healthfinder 104.- 105.- Hotbot106.- Iask - Chinese 107.- IceRocket 108.- IMDB109.- IncyWincy 110.- Infomine111.- Infospace Array112.- iWon Array113.- ixQuick114.- Jumbo115.- Kellysearch116.- KidsClick117.- Kosmix118.- Looksmart119.- Lycos120.- Lycos Images121.- Lycos News122.- MagPortal123.- Mamma124.- Mayo Clinic125.- MedlinePlus126.- MetaCrawler127.- 128.- Microsoft Download Center 129.- Microsoft Office Clipart 130.- Monster Array131.- 132.- MovieFone Array133.- MSN Search Array134.- MSN Images Array135.- MSN Local136.- MSN Money137.- MSN Movies138.- MSN News139.- MSN Shopping140.- MySimon141.- MySpace142.- MyWay143.- Navisso144.- NetFlix145.- Netscape146.- NexTag147.- NIH148.- Open Directory 149.- Overstock150.- PC Magazine 151.- PC World152.- Photobucket Array153.- PicSearch154.- PriceGrabber155.- PriceSCAN Array156.- Profusion Array157.- PubMed158.- Rambler - Russian159.- Rediff160.- Review Centre161.- 162.- Searchalot163.- Seekport164.- Shareup165.- 166.- Shopzilla167.- Sina - Chinese168.- Singingfish169.- SmartPages170.- Snap171.- Softpedia172.- SourceForge173.- Stock Quotes174.- Stock Symbol Lookup175.- Technorati Array176.- Teoma Array177.- Thesaurus Array178.- TopShareware Array179.- Tripod180.- Truveo181.- Tucows182.- Ujiko183.- Virgilio - Italian 184.- Vivisimo185.- Vroosh186.- Wal-Mart187.- Wayback Machine 188.- Weather Lookup189.- Webcrawler190.- WebMD191.- Web Shots192.- White Pages193.- Wikipedia194.- Windows Media195.- WinSite196.- Wisenut197.- Xanga198.- Xanga Blogrings199.- Xanga Users200.- Yahoo! Search201.- Yahoo! Address Book 202.- Yahoo! Audio203.- Yahoo! Directory 204.- Yahoo! Education 205.- Yahoo! HotJobs206.- Yahoo! Images207.- Yahoo! Kids208.- Yahoo! Local209.- Yahoo! Maps210.- Yahoo! Movie Showtimes 211.- Yahoo! News212.- Yahoo! Shopping213.- Yahoo! Video214.- Yahoo! Australia & NZ 215.- Yahoo! Canada216.- Yahoo! UK & Ireland 217.- Yandex - Russian 218.- Yellow Pages219.- YouTube220.- Zeal。
9个基于Java的搜索引擎框架

官方网站:/
4、实时分布式搜索引擎 Solandra
Solandra 是一个实时的分布式搜索引擎,基于 Apache Solr 和 Apache Cassandra 构建。
其特性如下:
支持Solr的大多数默认特性 (search, faceting, highlights)
1、Java 全文搜索引擎框架 Lucene
毫无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能。下面有几款搜索引擎框架也是基于Lucene实现的。
官方网站:/lire/
9、全文本搜索引擎 Egothor
Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。
数据复制,分片,缓存及压缩这些都由Cassandra来进行
Multi-master (任意结点都可供读写)
实时性高,写操作完成即可读到
Easily add new SolrCores w/o restart across the cluster 轻松添加及重启结点
官方网站:https:///tjake/Solandra
5、IndexTank
IndexTank是一套基于Java的索引-实时全文搜索引擎实现,IndexTank有以下几个特点:
索引更新实时生效
地理位置搜索
支持多种客户端语言
Ruby, Rails, Python, Java, PHP, .NET & more!
全球各国的搜索引擎汇集

全球各国的搜索引擎汇集--引领大家进入外贸搜索新时代---五洲各国搜索引擎(Searchengine)亚洲各国搜索引擎Asia Search Engine中国常用的搜索引擎目录China Search Engine Directory1. 中国常用的搜索引擎BAIDU2. 中国常用的搜索引擎GOOGLE HONGKONG3. 中国常用的搜索引擎SOHU4. 中国常用的搜索引擎SOGOU5. 中国常用的搜索引擎SOSO6. 中国常用的搜索引擎IASK7. 中国常用的搜索引擎Y AHOO8. 中国常用的搜索引擎YOUDAO9. 中国常用的搜索引擎ZHONGSOU日本常用的搜索引擎目录Japan Search Engine Directory1. 日本常用的搜索引擎GOO2. 日本常用的搜索引擎EXCITE3. 日本常用的搜索引擎WEB JAPAN4. 日本常用的搜索引擎DOKODA5. 日本常用的搜索引擎SEARCHDESK6. 日本常用的搜索引擎INFO SEEK7. 日本常用的搜索引擎Y AHOO8. 日本常用的搜索引擎GOOGLE中国台湾常用的搜索引擎目录CHINA Taiwan Search Engine Directory1. 中国台湾常用的搜索引擎SINA2. 中国台湾常用的搜索引擎GOOGLE TAIWAN3. 中国台湾常用的搜索引擎Y AHOO TAIWAN4. 中国台湾常用的搜索引擎PCHOME5. 中国台湾常用的搜索引擎SEEDER \中国香港常用的搜索引擎目录CHINA HONGKONG Search Engine Directory1. 中国香港常用的搜索引擎BAIDU TAIWAN2. 中国香港常用的搜索引擎GOOGLE HONGKONG3. 中国香港常用的搜索引擎MSN4. 中国香港常用的搜索引擎36IT5. 中国香港常用的搜索引擎TIMWAY马尔代夫常用的搜索引擎目录Maldives Search Engine Directory1. 马尔代夫常用的搜索引擎THEMALDIVES2. 马尔代夫常用的搜索引擎GOOGLE MALDIVES文莱常用的搜索引擎目录Brunei Search Engine Directory1. 文莱常用的搜索引擎GOOGLE BRUNEI沙特阿拉伯常用的搜索引擎目录Saudi Arabia Search Engine Directory 1. 文莱常用的搜索引擎GOOGLE SAUDI ARABIA菲律宾常用的搜索引擎目录Philippine Search Engine Directory1. 中国台湾常用的搜索引擎YEHEY2. 中国台湾常用的搜索引擎GOOGLE Philippine3. 中国台湾常用的搜索引擎Y AHOO Philippine韩国常用的搜索引擎目录South Korea Search Engine Directory1. 韩国常用的搜索引擎GOOGLE South Korea2. 韩国常用的搜索引擎NATE3. 韩国常用的搜索引擎Y AHOO South Korea4. 韩国常用的搜索引擎ALTA VISTA5. 韩国常用的搜索引擎NA VER新加坡常用的搜索引擎目录Singapore Search Engine Directory1. 新加坡常用的搜索引擎MSN Singapore2. 新加坡常用的搜索引擎GOOGLE Singapore3. 新加坡常用的搜索引擎Y AHOO Singapore黎巴嫩常用的搜索引擎目录Lebanon Search Engine Directory1. 黎巴嫩常用的搜索引擎INFOSPACE2. 新加坡常用的搜索引擎GOOGLE Lebanon马来西亚常用的搜索引擎目录Malaysia Search Engine Directory1. 马来西亚常用的搜索引擎GOOGLE Malaysia2. 马来西亚常用的搜索引擎SAJASEARCH3. 马来西亚常用的搜索引擎Y AHOO Malaysia4. 马来西亚常用的搜索引擎BING5. 马来西亚常用的搜索引擎CARI老挝常用的搜索引擎目录Laos Search Engine Directory1. 老挝常用的搜索引擎GOOGLE孟加拉国常用的搜索引擎目录Bangladesh Search Engine Directory 1. 孟加拉国常用的搜索引擎GOOGLE蒙古常用的搜索引擎目录Mongolia Search Engine Directory1. 蒙古常用的搜索引擎GOOGLE Mongolia2. 蒙古常用的搜索引擎GOGO尼泊尔常用的搜索引擎目录Nepal Search Engine Directory1. 尼泊尔常用的搜索引擎GOOGLE Nepal2. 尼泊尔常用的搜索引擎Explorenepal塞浦路斯常用的搜索引擎目录Cyprus Search Engine Directory1. 塞浦路斯常用的搜索引擎KYPROS2. 塞浦路斯常用的搜索引擎1STCYPRUS沙特常用的搜索引擎目录Sandi Search Engine Directory1. 沙特常用的搜索引擎Sandi Pages卡塔尔常用的搜索引擎目录Qatar Search Engine Directory1. 卡塔尔常用的搜索引擎Google Qatar斯里兰卡常用的搜索引擎目录Sri Lanka Search Engine Directory 1. 斯里兰卡常用的搜索引擎Google泰国常用的搜索引擎目录Thailand Search Engine Directory1. 泰国常用的搜索引擎SNAOOK2. 泰国常用的搜索引擎GOOGLE Thailand巴林常用的搜索引擎目录Bahrain Search Engine Directory1. 巴林常用的搜索引擎Google Bahrain巴基斯坦常用的搜索引擎目录Pakistan Search Engine Directory 1. 巴基斯坦常用的搜索引擎Google Pakistan土耳其常用的搜索引擎目录Turkey Search Engine Directory1. 土耳其常用的搜索引擎GOOGLE Turkey2. 土耳其常用的搜索引擎ABACHO3. 土耳其常用的搜索引擎List2000阿曼常用的搜索引擎目录Oman Search Engine Directory1. 阿曼常用的搜索引擎GOOGLE Oman印度尼西亚常用的搜索引擎目录Indonesia Search Engine Directory1. 印度尼西亚常用的搜索引擎GOOGLE Indonesia2. 印度尼西亚常用的搜索引擎Y AHOO Indonesia叙利亚常用的搜索引擎目录Syria Search Engine Directory1. 叙利亚常用的搜索引擎KACMAC2. 叙利亚常用的搜索引擎MIDDLE EAST PAGES亚美尼亚常用的搜索引擎目录Armenia Search Engine Directory1. 亚美尼亚常用的搜索引擎Google伊朗常用的搜索引擎目录Iran Search Engine Directory1. 伊朗常用的搜索引擎Google印度常用的搜索引擎目录India Search Engine Directory1. 印度常用的搜索引擎KHOJ2. 印度常用的搜索引擎GOOGLE INDIA3. 印度常用的搜索引擎INDIABOOK4. 印度常用的搜索引擎INDIATIMES5. 印度常用的搜索引擎SIFY6. 印度常用的搜索引擎GURUJI7. 印度常用的搜索引擎Y AHOO INDIA8. 印度常用的搜索引擎YOUDAO9. 印度常用的搜索引擎BING阿联酋常用的搜索引擎目录United Arab Emirates Search Engine Directory1. 阿联酋常用的搜索引擎ARABO2. 阿联酋常用的搜索引擎GOOGLE United Arab Emirates3. 阿联酋常用的搜索引擎FARES约旦常用的搜索引擎目录Jordan Search Engine Directory1. 约旦常用的搜索引擎GOOGLE JORDAN越南常用的搜索引擎目录Vietnam Search Engine Directory1. 越南常用的搜索引擎GOOGLE Vietnam2. 越南常用的搜索引擎Vietgate以色列常用的搜索引擎目录Israel Search Engine Directory1. 以色列常用的搜索引擎GOV2. 以色列常用的搜索引擎GOOGLE ISRAEL沙特阿拉伯常用的搜索引擎目录Saudi Arabia Search Engine Directory 1. 沙特阿拉伯常用的搜索引擎Google Saudi Arabia美洲各国搜索引擎American Search Engine美国常用的搜索引擎目录United States Search Engine Directory1. 美国常用的搜索引擎GOOGLE2. 美国常用的搜索引擎Y AHOO3. 美国常用的搜索引擎Webcrawler4. 美国常用的搜索引擎Twitter(国内打不开)5. 美国常用的搜索引擎BING6. 美国常用的搜索引擎Altavista7. 美国常用的搜索引擎NETSCAPE8. 美国常用的搜索引擎L YCOS9. 美国常用的搜索引擎ASK10. 美国常用的搜索引擎EXCITE11. 美国常用的搜索引擎TOSEEKA12. 美国常用的搜索引擎DOGPILE13. 美国常用的搜索引擎Alexa14. 美国常用的搜索引擎AOL定向建站(原第九空间),深圳专业建站团队,zen cart、magento、joomla企业建站、cs cart、网店宝等外贸网店建设。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Egothor是一个用Java编写的开源而高效的全文本搜索引擎。
借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。
更多Egothor信息NutchNutch 是一个开源Java 实现的搜索引擎。
它提供了我们运行自己的搜索引擎所需的全部工具。
包括全文搜索和Web爬虫。
更多Nutch信息LuceneApache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。
Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen 提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。
更多Lucene信息Oxyus是一个纯java写的web搜索引擎。
更多Oxyus信息BDDBotBDDBot是一个简单的易于理解和使用的搜索引擎。
它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。
它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。
它可以方便地集成到你的Web站点中。
更多BDDBot信息ZilverlineZilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。
Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。
从本地硬盘或intranet中查找到的结果可重新再进行检索。
Zilverline支持多种语言其中包括中文。
更多Zilverline信息XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML 文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.更多XQEngine信息MG4JMG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.更多MG4J信息JXTA SearchJXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.更多JXTA Search信息YaCyYaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.更多YaCy信息Red-PiranhaRed-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.更多Red-Piranha信息LIUSLIUS是一个基于Jakarta Lucene项目的索引框架。
LIUS为Lucene添加了对许多文件格式的进行索引功能如:MsWord,MsExcel,MsPowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。
针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。
更多LIUS信息ApertureAperture这个Java框架能够从各种各样的资料系统(如:文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。
它当前支持的文件格式如下:∙Plain text∙HTML, XHTML∙XML∙PDF (Portable Document Format)∙RTF (Rich Text Format)∙Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher∙Microsoft Works∙OpenOffice 1.x: Writer, Calc, Impress, Draw∙StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw∙OpenDocument (OpenOffice 2.x, StarOffice 8.x)∙Corel WordPerfect, Quattro, Presentations∙Emails (.eml files)更多Aperture信息Apache SolrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。
文档通过Http利用XML加到一个搜索集合中。
查询该集合也是通过http收到一个XML/JSON响应来实现。
它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
更多Apache Solr信息Lucene中文分词“庖丁解牛” Paoding AnalysisPaoding's Knives中文分词具有极高效率和高扩展性。
引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。
采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
更多Lucene中文分词“庖丁解牛” Paoding Analysis信息Carrot2Carrot2是一个开源搜索结果分类引擎。
它能够自动把搜索结果组织成一些专题分类。
Carrot2提供的一个架构能够从各种搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。
更多Carrot2信息RegainRegain是一个基于Jakarta Lucene封装的搜索引擎。
它能够索引和查询多种格式的文件(当前支持的格式包括:HTML、XML、Excel、Powerpoint、Word、PDF和RTF)。
此外它还提供一个标签库以便易于将搜索结果展示在JSP页面中。
更多Regain信息HounderHounder是一个完善的搜索系统,Hounder只会检索那些出现在互联网上的文档,并通过一个简单的网页来展示搜索结果。
能够完美与其它项目相结合。
它在各方面的设计都是规模级的包括:索引网页的数量,检索速度,查询并发数。
它已经成功应用在多个大型搜索系统中。
更多Hounder信息中文分词器IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。
最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。
新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IKAnalyzer3.0特性:∙采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。
∙采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
∙优化的词典存储,更小的内存占用。
支持用户词典扩展定义∙针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
更多中文分词器IKAnalyzer信息MustruMustru是一个桌面搜索引擎,基于Lucene、Wordnet、Lingpipe、GATE和Berkeley DB等开源项目开发。
能够对本地文件系统的多个目录进行索引,然后使用一个Web界面查询该索引。
Mustru提供的功能包括:∙从HTML、PDF和DOC等40多种常见的文件类型文件中抽取文本。
∙检查重复的内容。
∙使用GATE找出文本中的一些实体(人,地名和组织/机构)。
∙支持多线程索引、归类和实体抽取。
∙能够修复和恢复索引文件。
∙找出相似的文档。
∙支持接受用自然语言提问,然后返回相应答案列表。
使用一个预先定义好的分类法将文本内容归类成体育、商业、健康等领域。
更多Mustru信息Open Search ServerOpen Search Server是一个稳定、高性能的搜索引擎和一个全文搜索算法套件。
可以用10种语言对文档进行索引。
多语言分析器将句子切成词,然后基于文档的语言将lemmatisation算法运用在词语之上。
支持多种文档格式包括:XML、HTML、PDF、Word和PowerPoint等。
它还拥有一个基于Zkoss框架开发的Web操作界面。
更多Open Search Server信息Nut只为lucene提供分布式搜索框架。
理论上可对千G以上索引文件支持数千万级的用户搜索访问。
Nut由Client、Server、Cache和DB四部分构成。
Client处理用户请求和对搜索结果排序。
Server对请求进行搜索,Server上只放索引,数据存储在DB中,Nut将索引和存储分离。
Cache缓存的是搜索条件和结果文档id。
DB存储着数据,Client根据搜索排序结果,取出当前页中的文档id从DB上读取数据。
更多Nut信息ElasticSearchElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。