移动互联网跨媒体信息检索技术
(网络信息检索)第10章多媒体信息检索

多媒体信息检索概述 多媒体信息检索技术 多媒体信息检索系统 多媒体信息检索的应用 多媒体信息检索的挑战与未来发展
目录
01
多媒体信息检索概述
多媒体信息检索是指利用计算机技术,对图像、音频、视频等多媒体数据进行索引、检索和分类的过程。
多媒体信息检索具有多样性、交互性和实时性等特点,能够提供更加丰富、直观和生动的信息检索体验。
利用计算机视觉技术,提取图像中的特征,如颜色、纹理、形状等,为后续的图像检索提供依据。
01
基于内容的图像检索
利用图像的颜色、纹理、形状等特征进行相似度匹配,实现图像检索。
02
基于语义的图像检索
通过图像中的语义信息,如物体、场景、人脸等,进行图像检索。
图像检索技术
基于语义的音频检索
通过音频中的语义信息,如语音、音乐、环境音等,进行音频检索。
基于语义的多媒体信息检索系统通过理解多媒体数据的语义信息进行检索。
总结词
该系统利用自然语言处理技术,对图像、视频和音频中的文字、标签等信息进行语义分析,建立语义索引,实现基于语义的多媒体信息检索。
详细描述
基于语义的多媒体信息检索系统
基于深度学习的多媒体信息检索系统利用深度神经网络进行特征提取和语义理解。
隐私保护
在多媒体信息检索过程中,涉及到用户上传的多媒体内容和个人信息,需要采取措施保护用户隐私。
要点一
要点二
信息安全
确保多媒体信息在存储、传输和处理过程中的安全,防止数据泄露和被非法获取。
隐私保护与信息安全问题
谢谢观看
03
sius,扰,扰ano,间的, but,osd切实
01
. unsubscribe
信息检索技术在社交媒体数据中的应用研究

信息检索技术在社交媒体数据中的应用研究一、引言信息检索技术是指通过对存储在各种媒介中的数据进行查找和筛选,以获得用户所需的信息。
而社交媒体作为新兴的信息传播和交流平台,其中蕴含着大量的用户生成的数据,为研究者提供了宝贵的研究资源。
本文将探讨信息检索技术在社交媒体数据中的应用研究。
二、社交媒体数据的挑战与机遇社交媒体数据的特点包括数据量大、类型多样、实时性强以及用户交互性高。
这些特点给信息检索带来了新的挑战和机遇。
首先,数据量庞大使得传统的检索方法难以胜任。
其次,社交媒体数据类型多样,包括文本、图像、视频等,需要更加复杂的检索模型来满足用户需求。
再者,社交媒体数据的实时性要求信息检索具备快速而准确的响应能力。
此外,用户交互性高意味着用户可以通过多种方式产生和查找内容,需要个性化的检索服务来满足用户需求。
三、社交媒体数据的特点与处理方法社交媒体数据的特点包括多样性和动态性。
在多样性方面,社交媒体数据包括文本、图像、视频等多种类型的内容,需要综合利用多模态信息来进行检索。
在动态性方面,社交媒体数据以流式数据形式出现,并且在时间上具有时序性,检索系统需要具备实时处理能力。
处理社交媒体数据的方法包括数据预处理、特征提取、模型设计和性能优化等。
数据预处理包括数据清洗和数据标注,目的是提高数据质量和可用性。
特征提取阶段包括从文本、图像、视频中提取有用的特征,以便进行后续的检索计算。
模型设计阶段是指设计适合社交媒体数据特点的检索模型,例如基于深度学习的模型。
性能优化阶段包括提高检索系统的响应速度和准确性,例如通过索引结构和缓存技术来优化检索效率。
四、基于文本的社交媒体数据检索社交媒体数据中最常见的是文本数据,因此基于文本的社交媒体数据检索是最为常见的应用场景。
在基于文本的社交媒体数据检索中,首先需要进行文本的分词和词性标注等预处理工作。
然后,可以利用传统的信息检索技术,例如向量空间模型和概率模型,来进行文本匹配和排序。
跨媒体信息检索的未来发展趋势与挑战

跨媒体信息检索的未来发展趋势与挑战跨媒体信息检索的未来发展趋势与挑战随着信息技术的不断发展,媒体形式也在不断演变。
传统的媒体信息检索方式已经无法满足人们的需求,因此跨媒体信息检索成为了一个迫切的问题。
跨媒体信息检索是指通过多种媒体形式(如文本、图像、音频、视频等)来检索相关的信息。
它能够帮助人们更方便地获取所需的信息,提高信息检索的效率。
然而,跨媒体信息检索仍面临着一些挑战和未来发展的趋势。
首先,跨媒体信息检索面临着信息多模态性的挑战。
不同媒体形式之间存在着巨大的信息差异,如何将这些不同形式的信息进行有效地整合和关联是一个重要的问题。
同时,多模态信息的处理也需要考虑到不同媒体之间的语义关联,以便更准确地获取相关信息。
其次,跨媒体信息检索还面临着信息语义理解的挑战。
媒体信息中蕴含着丰富的语义信息,如何通过计算机来理解和分析这些信息是一个复杂的问题。
传统的文本检索方式已经无法满足跨媒体信息检索的需求,因此需要发展新的算法和方法来提高信息的语义理解能力。
另外,跨媒体信息检索还面临着海量信息的处理挑战。
随着互联网的普及,媒体信息的数量呈指数级增长。
如何高效地处理和索引这些海量信息,以及如何提供准确和个性化的检索结果是跨媒体信息检索领域的重要问题。
未来,跨媒体信息检索的发展趋势将主要体现在以下几个方面:首先,跨媒体信息检索将更加注重多模态信息的处理与融合。
不同媒体之间的融合与关联将成为跨媒体信息检索的重要研究方向。
通过将文本、图像、音频、视频等多种媒体形式进行有机的结合,可以更全面地呈现信息,提高检索结果的准确性和相关性。
其次,跨媒体信息检索将更加注重信息语义理解与推理。
通过深度学习、自然语言处理等技术的不断发展和应用,计算机对媒体信息的语义理解能力将不断提高,从而实现更精准的信息检索和推荐。
另外,跨媒体信息检索将更加注重个性化和智能化的服务。
随着用户需求的多样化,跨媒体信息检索系统将更加注重个性化的需求,提供个性化的检索结果和推荐服务,为用户带来更好的使用体验。
数字媒体技术应用专业技术的信息检索与搜索引擎

数字媒体技术应用专业技术的信息检索与搜索引擎随着数字媒体技术的发展和应用范围的不断扩大,信息检索和搜索引擎成为了这个领域中不可或缺的一部分。
在数字媒体技术应用专业中,信息检索和搜索引擎的使用技巧和方法对于学习和工作都具有重要意义。
信息检索是指通过各种手段和工具来获取所需信息的过程。
在数字媒体技术应用专业中,我们经常需要查找相关的技术文献、学术论文和行业报告等,以便更好地了解和掌握最新的技术动态和发展趋势。
对于信息检索来说,关键词的选择和使用是非常关键的。
我们需要根据具体的需求,选择合适的关键词来进行搜索。
同时,还可以利用一些高级搜索技巧来提高搜索效果,比如使用引号来搜索精确的词组、使用减号来排除某些词语等。
此外,还可以利用搜索引擎提供的高级搜索选项,如时间范围、文件类型等,来进一步筛选搜索结果。
搜索引擎是信息检索的重要工具之一,通过搜索引擎,我们可以快速、准确地找到所需的信息。
在数字媒体技术应用专业中,我们常常需要使用搜索引擎来查找相关的技术文档、教程和案例等。
在使用搜索引擎时,我们可以利用一些技巧来提高搜索效果。
首先,我们可以使用双引号来搜索精确的词组,这样可以排除一些不相关的结果。
其次,我们可以使用减号来排除某些词语,这样可以进一步缩小搜索范围。
此外,我们还可以利用搜索引擎提供的高级搜索选项,如时间范围、文件类型等,来进一步筛选搜索结果。
另外,我们还可以使用一些专门的技术搜索引擎,如Google Scholar和IEEE Xplore,来查找学术论文和科技文献。
除了常规的搜索引擎,还有一些专门针对数字媒体技术应用专业的搜索引擎和工具。
比如,针对图像和视频处理的技术,我们可以使用一些图像和视频搜索引擎来查找相关的图像和视频资源。
这些搜索引擎和工具通常会提供一些高级的搜索选项和功能,如基于内容的图像搜索、相似图像搜索等。
利用这些工具,我们可以更便捷地找到所需的图像和视频资源,提高工作效率。
除了搜索引擎和工具,数字媒体技术应用专业中还有一些其他的信息检索方法和技术。
跨媒体智能信息检索

• 光流法:用于计算视频帧之间的运动 信息 • 深度学习:用于视频特征的提取和分 类
机器学习技术在跨媒体检索中的应用
随机森林:通过机器学习技术提高跨媒体检索的准确性和稳定性
• 决策树:用于构建随机森林模型 • 集成学习:通过组合多个决策树提高检索效果
支持向量机(SVM):通过机器学习技术实现跨媒体数据的高效检索
• 推荐系统将得到广泛应用,实现跨媒体信息的个性化推荐 • 智能问答将得到发展,提高跨媒体信息检索的智能化水平
跨媒体信息检索在新兴领域的应用
跨媒体信息检索将在虚拟现实、增强现实等新兴领域得到应用
• 三维模型检索将得到发展,实现跨媒体数据的高效检索 • 场景理解将得到突破,提高跨媒体信息检索的准确性
计算机视觉技术在跨媒体检索中的应用
图像识别:通过计算机视觉技术识别图像数据中的 物体、场景等信息,实现图像的跨媒体检索
• 卷积神经网络(CNN):用于图像 特征的提取和分类 • 迁移学习:将预训练好的模型应用于 图像识别任务,提高识别准确率
视频分析:通过计算机视觉技术分析视 频数据中的动作、场景等信息,实现视
跨媒体信息检索的性能评估与优化
跨媒体信息检索需要持续优化检索算法,提高检索效果
• 算法改进需要不断进行,如模型优化、特征选择等 • 计算资源需要不断支持,如硬件设备、计算时间等
跨媒体信息检索需要有效评估检索效果,为技术优化提供依据
• 评估指标需要不断完善,如准确率、召回率、F1值等 • 评估方法需要不断研究,如离线评估、在线评估等
• 核函数:将跨媒体数据映射到高维空间,实现非线性分类 • 参数优化:通过调整参数提高检索效果
03
跨媒体智能信息检索的挑战
跨媒体数据源的多样性与复杂性
ir名词解释

ir名词解释IR(Information Retrieval)是信息检索的缩写,是指从大量的信息资源中找到与用户需求相关的信息的技术和方法。
随着互联网的普及和快速发展,我们面临的信息量越来越庞大,IR技术的应用也越来越广泛。
本文将从IR的定义、工作过程、应用领域和技术发展等方面进行解释。
1. 概述IR是一门交叉学科,涉及信息科学、计算机科学、图书馆学等多个领域。
其目标是通过建立索引、检索和评估等技术,在文本、图像、音频等各种形式的信息资源中快速、准确地找到用户所需的信息。
IR技术的核心在于信息的组织和检索。
2. 工作过程IR的工作过程主要包括以下几个步骤:(1)建立索引:将信息资源中的文档转换成计算机可处理的形式,提取关键词、词频等信息,建立索引数据库。
(2)检索:用户根据信息需求输入查询词,系统根据索引库进行检索,找到相关文档。
(3)评估:根据用户的评价和反馈,对检索结果进行评估和优化,提高检索的准确性和效率。
3. 应用领域IR技术广泛应用于各个领域,如搜索引擎、电子商务、文本挖掘、智能推荐等。
(1)搜索引擎:搜索引擎是IR技术最重要和常见的应用之一。
通过对互联网上的网页进行索引和检索,帮助用户快速找到所需的信息。
(2)电子商务:IR技术在电子商务中的应用主要包括商品搜索和个性化推荐。
通过建立商品索引和用户个性化模型,可以根据用户的查询和购买历史,推荐相关的商品。
(3)文本挖掘:IR技术可以帮助从大量文本数据中挖掘有价值的信息。
比如在情感分析中,可以通过检索和分析用户评论和社交媒体的内容,了解用户对产品或事件的情感倾向。
(4)智能推荐:IR技术可以根据用户的兴趣和偏好,给出个性化的推荐结果。
比如在音乐推荐中,通过分析用户的收听历史和喜好,为用户推荐他们可能感兴趣的音乐。
4. 技术发展随着互联网和大数据技术的不断发展,IR技术也在不断演进和创新。
(1)语义搜索:传统的IR技术主要基于关键词匹配,但是很难解决语义理解和语义搜索的问题。
信息检索技术的发展与前景

信息检索技术的发展与前景随着互联网的快速发展,信息科技成为了现代社会的核心组成部分。
而作为信息科技重要组成部分之一的信息检索技术更是在互联网时代发挥着越来越重要的作用。
本文将从信息检索技术的发展历程、技术创新以及未来发展前景三个方面探讨信息检索技术的发展及前景。
一、发展历程信息检索技术的起源可以追溯到20世纪50年代,当时美国D. J. Foskett等人成功引入机器进行文献检索工作,这被认为是信息检索技术的第一次应用。
而后随着计算机以及互联网技术的发展,信息检索技术得以更深入地发展。
在互联网时代,搜索引擎作为信息检索技术的一种方式,成为了信息检索的主要工具,其基本原理是通过建立庞大的索引来提供互联网上的信息检索服务。
二、技术创新信息检索技术作为一项技术性工作,其不断的技术创新是信息检索技术走向更高领域的重要推动力。
目前,信息检索技术在以下几个方面得到了技术创新:1. 数据挖掘技术:利用数据挖掘技术对互联网海量数据进行深入挖掘和分析,可以更准确、高效地进行信息检索。
数据挖掘技术可以帮助检索引擎识别和提取网页文本内容、结构信息和语义信息等,从而构建更加全面、准确的索引。
2. 人工智能技术:近年来,随着人工智能的发展,自然语言处理技术逐渐发展成熟,这为信息检索技术提供了新的机会。
例如,现在的搜索引擎已经可以通过识别用户的语音指令,根据用户的意图进行内容检索。
3. 语义检索技术:语义检索技术是智能信息检索的重要手段。
它通过对网页中不同实体之间的关系、属性以及语义进行分析和理解,实现对查询意图的识别和精准匹配。
这将为用户提供更加贴近他们真实需求的数据检索服务。
三、未来发展前景未来,信息检索技术的发展仍有巨大潜力。
1. 多模态信息检索的实现:近年来,随着互联网内容的多元化,包括文字、图片、视频和语音等在内的多种模态信息的比例逐渐增加,因此多模态信息检索技术的发展也成为信息检索技术的一个重要方向。
2. 个性化信息检索的实现:在信息检索过程中,个性化信息检索的意义越来越突出。
多媒体数据的跨媒体分析与挖掘技术

多媒体数据的跨媒体分析与挖掘技术随着大数据技术的不断发展,数据的各种形式逐渐增多,其中包括多媒体数据,例如音频、视频、图像等。
多媒体数据的分析和挖掘变得越来越重要,因为它们包含着很多知识和信息。
但是,由于不同媒体之间的差异性,跨媒体的分析和挖掘技术变得尤为重要。
本文将从跨媒体的角度介绍多媒体数据的分析和挖掘技术。
一、多媒体数据的特点多媒体数据是包含音频、图像和视频等多种形式信息的数据。
相对于传统的文本数据而言,多媒体数据有以下几个特点:1. 数据量大。
多媒体数据的文件大小通常要比文本数据大得多,例如一张高清图片大小可能是几百KB,一段视频的大小则可能是几GB。
2. 数据质量可变。
不同多媒体数据呈现的质量不同,例如一张低清晰度的图片和一张高清晰度的图片之间存在很大的差距。
3. 数据形式复杂。
多媒体数据的形式有很多,例如MPEG、FLV、MP3等等,这些不同格式的数据需要采用不同的解码器进行解码。
4. 数据内容庞杂。
多媒体数据中包含着很多内容,例如音频中的人声、音乐和噪声等等,视频中的画面、音乐、字幕等等,需要通过各种技术进行分析和挖掘。
以上这些特点使得多媒体数据的处理和分析变得更为困难,需要借助各种技术手段进行解决。
二、跨媒体的分析和挖掘技术跨媒体的分析和挖掘技术是指将不同媒体数据进行联合分析和挖掘,从而获取更为丰富的信息和知识。
其中,有以下几种常用的跨媒体分析和挖掘技术:1. 跨媒体信息检索。
跨媒体信息检索是指通过一种多媒体形式来检索另一种多媒体形式的信息,例如通过图片来检索对应的文本信息、视频信息等等。
2. 跨媒体内容分析。
跨媒体内容分析是指将不同的多媒体数据进行分析,例如将图片、视频中的文字进行识别,将音频中的语音转换为文本等等。
3. 跨媒体集成分析。
跨媒体集成分析是指将多种媒体数据进行统一分析和挖掘,例如将图片、文本、音频、视频集成起来进行全面分析。
4. 跨媒体知识发现。
跨媒体知识发现是指在跨媒体数据集合上寻找新颖、有用的知识,例如在音视频中判断心情状态、在图片中识别人脸、在数据集中找到不常规的模式等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
移动互联网跨媒体信息检索技术摘要:互联网技术和社交网络的发展给人们的生活带来了新颖、广泛的数据和信息获取方式。
这类信息具有广泛的数据内联性、用户相关性和模态多样性,呈现出典型的跨媒体数据特征。
准确理解用户意图实现对跨媒体数据的精确检索是实现高效利用和管理互联网资源的基础。
对该领域涉及的信息标注、语义推理和地理本体表现与理解等方法进行了介绍,对比现有的跨媒体检索系统讨论了该领域目前存在的问题和未来的发展趋势。
关键词:跨媒体;信息检索;移动互联网;语义推理;地理本体中国分类号:tn911.7 文献标识码:a文章编号:10053824(2013)010001050 引言近年来,随着互联网和信息技术的飞速发展,智能终端设备得到不断普及并给人们的日常生活带来了极大的便利。
人们在随时、随地采集信息并以文本、音频、视频、图像以及其他形式为载体进行记录和分享的同时,一方面带来了多媒体信息的迅速膨胀,如何在海量的信息中实现跨越时间、空间和载体类型的信息检索显得越来越重要;另一方面,由于多媒体数据本身具有底层视听觉特征异构、高层语义丰富的特点,对其实现有效管理和智能利用十分困难。
跨媒体是在多媒体的基础上,利用各种媒体的形式和特征,对相同或者相关的信息用不同的媒体表达形式进行处理,由此产生存储、检索和交换等活动。
跨媒体检索(crossmedia retrieval, cmr)即是在跨媒体环境下,用户提交一种媒体对象作为查询示例,既可以检索出相同类型的相似对象,还能够返回不同类型的其他媒体对象的新型检索方式[1]。
早在1976年,麦格克效应[2]就揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息,呈现出跨媒体的特性,而传统的基于关键字的检索和基于内容的多媒体检索由于其自身的局限性均不能满足人类跨媒体认知的需要,跨媒体检索技术应运而生。
1)基于文本的检索。
目前,常见的检索方法一般都是基于关键字的全文检索,检索的准确度很大程度上依赖人工标注的详细与否,且不同人对相同图像、音频和视频等非文本信息的认知不同,造成了描述语言的不充分或不准确,因此利用简单文本进行搜索的结果并不理想。
2)基于内容的检索。
基于多媒体内容的检索弥补了传统基于文本检索的不足,通过数据挖掘和机器学习的方法聚合不同类型数据蕴含的信息,以提供高层次的知识服务。
随着移动智能终端设备的广泛应用和普及,大量的视频、音频、文本以及各种传感数据构成了目前移动互联网领域中信息共享的主体内容。
移动化带来的改变是信息的激增,人们正在借助移动智能终端上的各种传感器——时间、位置、麦克风、摄像头、温度传感和nfc(近场通讯)采集信息并重新绘制这个世界。
然而,信息的爆炸式增长给知识的获取带来了极大的难度,也因此造成了知识的相对匮乏。
在此过程中,用户对信息的采集和分享与传统方式有着显著的不同:首先,信息的采集带有显著的时间特征和空间特征;其次,在数据分享过程中携带了用户偏好信息;最后,完整分享这些数据对网络带宽和数据存储服务提出了巨大的挑战。
目前,人们从移动互联网领域获得知识的渠道主要还依赖于信息搜索,一种是以百度和谷歌为代表的传统文本搜索的服务,另一种是以苹果的siri为代表的新型跨媒体(声音和文本)移动搜索体验。
1 跨媒体技术发展现状目前,为了实现同时对多种媒体类型的信息检索,国内外学者的研究工作主要集中在以下几个领域:1)基于“词袋”模型建立多媒体对象知识库此类方法大多通过对多媒体对象的语义信息进行人工标注得到先验知识,结合“词袋”模型等为海量多媒体信息建立知识库,从而借助知识库的桥梁作用实现跨媒体检索。
显然,此种方法很大程度上还是一种变相的基于关键字的检索,需要人工标注大量的关键字训练样本集,虽然它在一定程度上避开了特征向量异构和语义鸿沟的问题,但是人工标注耗时耗力且缺乏统一性与客观性,多媒体对象的语义信息往往不能够得到恰当描述,因而检索的准确性往往不尽如人意。
2)基于文档链接关系或web链接关系建立多媒体对象之间的语义关系。
此类方法通过分析多媒体文档之间的链接关系或者web网页中的链接跳转关系建立多媒体对象之间的语义关系网(跨媒体关联图、交叉参照图模型等)从而实现多媒体对象之间的相互检索。
该方法有效地避免了媒体对象之间的语义鸿沟,但是对链接关系的依赖性太强,不具有一般性。
3)建立辅助空间解决特征向量异构问题。
此类方法为解决不同类型媒体对象之间特征向量异构的问题,在计算特征向量和相似性的度量时,一些方法是基于数据集中所有数据间的距离度量的,但是在实际跨媒体数据集中:一方面,计算和存储所有对象间的距离尺度是不现实的;另一方面,距离度量不能有效解决现实生活中的问题。
因此,一些学者提出采用典型相关性分析(cca)、主成分分析(pca)、独立成分分析(ica)等技术对特征向量进行降维处理,使得异构的特征向量在一个辅助空间中具有可比性,从而进行多媒体对象之间的相似性度量。
此种方法往往在对特征向量进行降维处理的过程中产生“维度灾难”。
4)基于机器学习、神经网络等方法获取多媒体对象间的语义关系。
此类方法主要是通过机器学习或神经网络领域的融合分析、流形学习、线性迭代与映射、概率模型、支持向量机、监督分类、非监督分类等方式对异构数据之间的关联关系进行挖掘,进而实现不同模态多媒体数据之间的相互检索。
总的说来,该类方法检索效果不错,但往往计算量比较大,实现过程比较复杂。
5)索引。
此类方法一般是通过对多媒体数据进行一定预处理得到相互之间的相似关系,进而根据相似关系为海量多媒体对象建立索引,以提高检索时的效率。
这是一种辅助型的方法,更多的是关注如何有效地减少检索所需要的时间,提高跨媒体检索的效率,对多媒体对象之间的相似度度量未关注。
6)基于ontology的检索。
此类方法是建立在基于内容检索的基础上,用ontology存储多媒体对象语义信息的新型检索模式。
检索过程中结合多媒体对象的底层特征与ontology表达的语义信息进行跨媒体检索。
该方法对多媒体对象的语义信息及空间关系表达与处理具有强大的优势,同时,ontology模型能使检索系统更加智能化与人性化。
然而,现有的跨媒体信息检索技术的研究对象主要是已采集好的各种媒体数据,较少考虑多用户分享中的数据冗余、网络带宽约束等移动互联网环境下面临的新问题和挑战。
2 用户标注和地理本体在跨媒体中的应用移动终端能够帮助人们以各种方式记录现实世界,同时也造成了数据的异构性、语义的异质性以及存储、传输这些数据对网络和硬件的挑战。
随着智能终端处理能力的不断加强,目前已可以实现在智能终端上对采集的图像和影音数据进行编辑和特征提取。
采用本地提取特征再进行网络分享的方法将大大降低网络带宽的使用。
另一方面,由于不同用户在对相同内容进行记录时可以选择不同的媒体类型作为载体,上传并分享这些内容特别是影音图像资源会占用较多的服务器存储空间。
因此,提取资源中的语义信息并通过简单推理进行信息聚合,能够较好地降低移动互联网环境下信息分享的数据冗余问题。
本体论作为语义模型的新方法,主要用于知识的共享、交互和重用方面,它具有良好的概念层次结构和逻辑推理。
通过对领域知识的理解、描述和推理,能够更好地实现信息共享和重用的目的。
当运用到信息检索领域时,具有以下4个优点[3]:(1)本体关于领域知识的共同理解和描述可以使得现代网络中的信息组织形式从传统的基于语法逐步转向基于语义;(2)本体对于概念及其之间关系的精确描述可以极大地提高信息检索时的查全率和查准率;(3)采用形式化的描述方式使其能被计算机所理解以及更好地满足海量网络信息组织的需要;(4)本体能够很好地支持逻辑推理,使得信息检索系统更加智能化和人性化。
地理本体是将本体论引入到地理信息科学中,它除了具有本体所具有的优点外,在处理对象空间位置及空间关系方面具有无法取代的独特优势。
随着以web2.0技术为代表的社交网络的发展,用户的需求从简单的、被动的信息获取逐步升级为主动参与到信息管理、信息交互的过程中。
用户期待一种不需要精确的预定义的集成框架甚至不需要原始信息的本地副本,实现多维、海量信息的快速、低代价的获取。
用户标注方法在特征提取和语义分析过程中借助人的认知过程,提取源数据中的知识,对信息检索的准确率提升有着至关重要的作用。
而地理本体,作为一种半自动化的语义推理模型,可以有效降低不同用户标注带来的差异性,同时更准确地描述移动互联网环境下信息的时间和空间特征。
采用这2种方法相结合建立本地特征索引副本,能够有效降低数据传输对网络带宽的需求和存放数据对存储空间的需要。
2.1 用户标注受限于移动终端的大小、网络通信能力有限,不适宜采用传统的方式对采集的图像、视频等多媒体数据进行完整上传和统一计算。
实现在本地的特征提取和用户标注,可以大大减少网络通信,节省用户分享的代价。
opencv作为传统的视频、图像处理工具,目前已被广泛应用在ios和android为代表的移动终端上,并能获得较好的特征提取速度和分析结果。
另外,随着摄像头、麦克风、nfc 等传感器的发展,基于手机的增强现实技术也取得了长足的进步,为用户的信息标注提供了新的手段和方法。
采用用户标注和特征提取等方法[4],结合移动终端对现实世界的时间、位置感知,提交较少的描述信息或特征信息,降低了信息和内容分享的门槛。
如图1所示,采用增强现实和用户标注[10]技术后,用户仅需上传简单的标注、位置信息和提取的语义、图像内容特征即可实现内容的分享。
对查询用户来说,需要检索的信息仍然是充分的。
图1 增强现实和用户标注技术在移动终端的应用2.2 地理本体地理信息科学中的本体论研究是高度跨学科的交叉研究,与地理信息的认知、表达、互操作,尺度和不确定性密切相关,其最重要的一点是研究空间信息的语义理论。
基于地理本体的语义检索[5][6]是通过本体构建概念层次空间实现的检索,它利用本体明确建立了研究对象的概念、属性、空间位置等各种关系,并且可以通过逻辑推理发掘隐含在概念之间的不明确、非直接的信息,从而可以实现语义的智能信息检索。
在跨终端、跨媒体环境中,地理本体模型提供了一个统一的语义管理平台。
在移动互联网环境下,地理本体模型构建完成后,可以基于多种格式标准进行发布,用户本地采集的数据通过用户标注、特征提取等方式按照层次、概念和推理结果向现有的本体模型中进行映射,构建新的结点和数据内容。
这样,用户采集的多媒体数据可以分布式地存放在各自的终端上,通过更新本体模型建立快速、有效的索引,提供统一的跨媒体、跨终端的服务标准,有效降低分享和检索带来的网络资源消耗和源数据的冗余存放。
为了帮助本体开发人员和领域专家对领域知识进行建模,斯坦福大学主导开发了一个基于java的开源本体编辑工具protégé[13]。