统计机器翻译简明教程
《数理统计》试卷及答案
---------------------------------------- 说明:本试卷总计100分,全试卷共 5 页,完成答卷时间2小时。 ---------------------------------------- 一、填空题(本大题共8小题,每题4分,共32分) 1、随机事件A 、B 互不相容,且A =B ;则()P A = 2、已知,10/1)/(,5/1)(,5/2)(===B A P B P A P 则=+)(B A P 3、同时掷三枚均匀硬币,则恰有两枚正面向上的概率为 。 4、若随机变量)2.0,20(~B X ,则X 的最可能值是 。 5、若n X X X ,...,,21为来自泊松分布)(λP 的一个样本,2,S X 分别为样本均值和样本方差,则 =)(X E ,=)(2S E 。 6、样本0,5,10,-3样本均数为 ,样本方差为 。 7、2σ已知时检验假设0100:;:μμμμ≠=H H ,应构造统计量为 ,拒绝域为 。 8、考查4个3水平的因子A,B,C,D 及其交互作用A ×B 与A ×C ,则做正交实验设计时,可选用的行数最少的正交表为 。 二、单项选择题(本大题共8小题,每题4分,共32分) 1、设随机事件A 、B 互不相容,且()0,()0,P A P B >>则下列结论只有( ) 成立。 A 、A 、 B 是对立事件; B 、A 、B 互不相容; C 、A 、B 不独立; D 、 A 、 B 相互独立。 2、射击三次,事件i A 表示第i 次命中目标(i =1,2,3),下列说法正确的是( )。 A 、321A A A 表示三次都没击中目标; B 、313221A A A A A A ++表示恰有两次击中目标; C 、313221A A A A A A ++表示至多一次没击中目标;D 、321A A A 表示至少有一次没击中目标。 3、随机变量),(~2σμN X ,则随着σ的减小,)|(|σμ<-X P 应( )。 A 、单调增大; B 、单调减少; C 、保持不变; D 、增减不能确定
搭建属于自己的机器翻译系统
搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻
数理统计试题及答案
数理统计考试试卷 一、填空题(本题15分,每题3分) 1、总体得容量分别为10,15得两独立样本均值差________; 2、设为取自总体得一个样本,若已知,则=________; 3、设总体,若与均未知,为样本容量,总体均值得置信水平为得置信区间为,则得值为________; 4、设为取自总体得一个样本,对于给定得显著性水平,已知关于检验得拒绝域为2≤,则相应得 备择假设为________; 5、设总体,已知,在显著性水平0、05下,检验假设,,拒绝域就是________。 1、; 2、0、01; 3、; 4、; 5、。 二、选择题(本题15分,每题3分) 1、设就是取自总体得一个样本,就是未知参数,以下函数就是统计量得为( )。 (A) (B) (C) (D) 2、设为取自总体得样本,为样本均值,,则服从自由度为得分布得统计量为( )。 (A) (B) (C) (D) 3、设就是来自总体得样本,存在, , 则( )。 (A)就是得矩估计(B)就是得极大似然估计 (C)就是得无偏估计与相合估计(D)作为得估计其优良性与分布有关 4、设总体相互独立,样本容量分别为,样本方差分别为,在显著性水平下,检验得拒绝域为( )。 (A) (B) (C) (D) 5、设总体,已知,未知,就是来自总体得样本观察值,已知得置信水平为0、95得置信区间为(4、71,5、69),则取显著性水平时,检验假设得结果就是( )。 (A)不能确定(B)接受(C)拒绝(D)条件不足无法检验 1、B; 2、D; 3、C; 4、A; 5、B、 三、(本题14分) 设随机变量X得概率密度为:,其中未知 参数,就是来自得样本,求(1)得矩估计;(2)得极大似然估计。 解:(1) , 令,得为参数得矩估计量。 (2)似然函数为:, 而就是得单调减少函数,所以得极大似然估计量为。 四、(本题14分)设总体,且就是样本观察值,样本方差,
统计机器翻译
统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用
一个汉英机器翻译系统的设计与实现
一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2
概率论与数理统计期末考试题及答案
创作编号: GB8878185555334563BT9125XW 创作者: 凤呜大王* 模拟试题一 一、 填空题(每空3分,共45分) 1、已知P(A) = 0.92, P(B) = 0.93, P(B|A ) = 0.85, 则P(A|B ) = 。 P( A ∪B) = 。 3、一间宿舍内住有6个同学,求他们之中恰好有4个人的生日在同一个月份的概率: ;没有任何人的生日在同一个月份的概率 ; 4、已知随机变量X 的密度函数为:, ()1/4, 020,2 x Ae x x x x ?? =≤?≥? , 则常数A= , 分布函数F (x )= , 概率 {0.51}P X -<<= ; 5、设随机变量X~ B(2,p)、Y~ B(1,p),若{1}5/9P X ≥=,则p = ,若X 与Y 独立,则Z=max(X,Y)的分布律: ; 6、设~(200,0.01),~(4),X B Y P 且X 与 Y 相互独立,则 D(2X-3Y)= , COV(2X-3Y , X)= ; 7、设125,,,X X X 是总体~(0,1)X N 的简单随机样本,则当k = 时, ~(3)Y t = ;
8、设总体~(0,)0X U θθ>为未知参数,12,,,n X X X 为其样本, 1 1n i i X X n ==∑为样本均值,则θ的矩估计量为: 。 9、设样本129,, ,X X X 来自正态总体(,1.44)N a ,计算得样本观察值10x =, 求参数a 的置信度为95%的置信区间: ; 二、 计算题(35分) 1、 (12分)设连续型随机变量X 的密度函数为: 1, 02()2 0, x x x ??≤≤?=???其它 求:1){|21|2}P X -<;2)2 Y X =的密度函数()Y y ?;3)(21)E X -; 2、(12分)设随机变量(X,Y)的密度函数为 1/4, ||,02,(,)0, y x x x y ?<<=? ?其他 1) 求边缘密度函数(),()X Y x y ??; 2) 问X 与Y 是否独立?是否相关? 3) 计算Z = X + Y 的密度函数()Z z ?; 3、(11分)设总体X 的概率密度函数为: 1, 0(),000 x e x x x θ?θθ -?≥?=>?? X 1,X 2,…,X n 是取自总体X 的简单随机样本。 1)求参数θ的极大似然估计量?θ ; 2)验证估计量?θ 是否是参数θ的无偏估计量。 2.(10分)环境保护条例,在排放的工业废水中,某有害物质不得超过0.5‰,假定有害物质含量X 服从正态分布。现在取5份水样,测定该有害物质含量,得如下数据: 0.530‰,0.542‰,0.510‰,0.495‰,0.515‰ 能否据此抽样结果说明有害物质含量超过了规定(0.05α=)?
Matlab中文简明教程
MatLab简介 MATLAB是什么? 典型的使用包括: 数学和计算 算术发展模型, 模拟,和原型 数据分析,开发,和可视化 科学和工程图学 应用发展包括图形用户界面设计 MATLAB表示矩阵实验室。 MATLAB系统 MATLAB系统由5主要的部分构成: 1. MATLAB语言。这是高阶的矩阵/数组语言,带控制流动陈述,函数,数据结构,输入/输出,而且面向目标的编程特点。 Ops 操作符和特殊字符。 Lang 程序设计语言作。 strfun 字符串。 iofun 输入/输出。 timefun 时期和标有日期。 datatypes数据类型和结构。 2. MATLAB工作环境。这是你作为MATLAB用户或程序编制员的一套工具和设施。 3. 制图这是MATLAB制图系统。它为2维上,而且三维的数据可视化,图象处理,动画片制作和表示图形包括高阶的指令在内。它也为包括低阶的指令在内,允许你建造完整的图形用户界面(GUIs),MATLAB应用。制图法功能在MATLAB工具箱中被组织成5文件夹: graph2d 2-的维数上的图表。 graph3d 三维的图表。 specgraph 专业化图表。 graphics 制图法。 uitools 图形用户界面工具。 4. MATLAB的数学的函数库。数学和分析的功能在MATLAB工具箱中被组织成8文件夹。 elmat 初步矩阵,和矩阵操作。 elfun 初步的数学函数。 specfun 专门的数学函数。
matfun 矩阵函数-用数字表示的线性的代数。 datafun 数据分析和傅立叶变换。 polyfun 插入物,并且多项式。 funfun 功能函数。 sparfun 稀少矩阵。 5. MATLAB应用程序接口(API)。这是允许你写C、Fortran语言与MATLAB交互。 关于 Simulink Simulink ? MATLAB为做非线性的动态的系统的模拟实验的交互式的系统。它是允许你通过把方框图拉到屏幕,灵活地窜改它制作系统的模型的用图表示的鼠标驱动的程序。实时工作室?允许你产生来自你的图表块的C代码,使之能用于各种实时系统。 关于工具箱 工具箱是为了解答特别种类的问题扩展MATLAB环境的MATLAB函数的综合的(M-文件)收集 MatLab工作环境 命令窗口 若输入 A = [1 2 3; 4 5 6; 7 8 10] 按下回车键后显示如下 A = 1 2 3 4 5 6 7 8 10 清除命令窗口 clc 这并不清除工作间,只是清除了显示,仍可按上箭头看到以前发出的命令
概率论与数理统计试题与答案
概率论与数理统计试题 与答案 Company number:【0089WT-8898YT-W8CCB-BUUT-202108】