条件随机场(公式版)
条件随机场-机器学习系列

概率模型
条件随机场(Conditional Random Fields,以下简称为 CRF)是一种概率模型。除 此之外,其它常用的概率模型有朴素贝叶斯分类模型(Naive Bayes)和隐马尔 科夫模型(Hidden Markov Model,HMM)。 下面先从简单的概率模型开始,逐步引入 CRF。
隐马尔可夫模型 HMM 是对 Naive Bayes 的扩展,预测的不是单个类变量,而是 类变量序列 y=(y1,y2,…,yn),或者称状态序列。即,HMM 就是根据输入观测 序列 x =(x1,x2,…,xn)预测状态序列 y=(y1,y2,…,yn)。 自然想到的是,可否通过多个 Naive Bayes 模型来实现?具体来说,就是分别针 对每个观测变量 xi 来预测对应的状态变量 yi,这可以通过 Naive Bayes 模型来实 现。将这些模型组合起来,就得到根据观测序列 x =(x1,x2,…,xn)预测状态序列 y=(y1,y2,…,yn)的模型,即构造如下的联合概率
条件随机场概率计算问题 ..................................................................................................... 13
线性链条件随机场的学习 ..................................................................................................... 15
文档中符号的说明(本文基本遵循该约定,个别地方可能会违背,这时需根据 上下文确定): l ℝ 表示实空间,ℝ# 表示 n 维实空间。 l 普通变量一般用斜体小写字母标识,例如 a,x。 l 向量一般用小写粗斜体字母标识,例如 a,x。未转置时向量是指列向量。 l 矩阵一般用大写粗斜字母标识,例如 A,X。 l 随机变量一般用大写粗斜字母标识,例如 X。 l 函数名以及专有名称一般用正体字符串标识,大小写字母均可,例如 exp。 非特定的函数通常用斜体字符串标识,例如普通函数的标识 f。 l 矩阵或向量右上角的 T 表示转置,例如 ������% 表示向量 x 的转置。 l 矩阵与矩阵、矩阵与向量、向量与向量相连,如果中间没有连接符号,表 示一般的乘法运算,例如 Ax 表示矩阵 A 与向量 x 的乘法。 关于随机变量、随机向量等,本文约定如下: l 随机变量一般用大写字母标识,例如 X;随机向量(随机变量序列)或随机 变量组一般用粗体大写字母标识,例如 X。 l 随机变量 X 的具体取值一般 x 表示,随机向量 X =(X1,X2,…,Xn)的具体取 值一般用 x =(x1,x2,…,xn)表示。随机向量 X 的联合概率一般用 p(x)或 p(x1,x2,…,xn)表示。 l 在随机向量 X =(X1,X2,…,Xn)取值为 x =(x1,x2,…,xn)的条件下,随机向量 Y =(Y1,Y2,…,Ym)取值为 y =(y1,y2,…,ym)的条件概率表示为 p(y|x)、 p(y1,y2,…,ym|x1,x2,…,xn)或 p(y1,y2,…,ym|x) l 为了简化,文中常常省略掉随机变量或随机向量的说明,直接使用 p(x)、 p(y)、p(y|x)、p(x1,x2,…,xn)、p(y1,y2,…,yn)等表示各种概率。
条件随机场(CRF)的详细解释

条件随机场(CRF)的详细解释条件随机场是一类最适合预测任务的判别模型,其中相邻的上下文信息或状态会影响当前预测。
CRF 在命名实体识别、词性标注、基因预测、降噪和对象检测问题等方面都有应用。
在本文中首先,将介绍与马尔可夫随机场相关的基本数学和术语,马尔可夫随机场是建立在 CRF 之上的抽象。
然后,将详细介绍并解释一个简单的条件随机场模型,该模型将说明为什么它们非常适合顺序预测问题。
之后,将在 CRF 模型的背景下讨论似然最大化问题和相关推导。
最后,还有一个过对手写识别任务的训练和推理来演示 CRF 模型。
马尔可夫随机场马尔可夫随机场(Markov Random Field)或马尔可夫网络(Markov Network)是一类在随机变量之间具有无向图的图形模型。
该图的结构决定了随机变量之间的相关性或独立性。
马尔可夫网络由图G = (V, E) 表示,其中顶点或节点表示随机变量,边表示这些变量之间的依赖关系。
该图可以分解为J 个不同的团(小的集团cliques )或因子(factors),每个由因子函数φⱼ支配,其范围是随机变量 Dⱼ的子集。
对于 dⱼ的所有可能值,φⱼ (dⱼ) 应该严格为正。
对于要表示为因子或团的随机变量的子集,它们都应该在图中相互连接。
所有团的范围的并集应该等于图中存在的所有节点。
变量的非归一化联合概率是所有因子函数的乘积,即对于上面显示的 V = (A, B, C, D) 的 MRF,联合概率可以写为:分母是每个变量可能取的所有可能的因子乘积的总和。
它是一个常数表示,也称为配分函数,通常用Z。
Gibbs Notation还可以通过对对数空间中的因子函数进行操作,将关节表示为Gibbs 分布。
使用β (dⱼ) = log (ϕ (dⱼ)),可以用 Gibbs 表示法表示共同的边,如下所示。
X 是图中所有随机变量的集合。
β 函数也称为factor potentials。
这个公式很重要,因为本文将在后面使用Gibbs 符号来推导似然最大化问题。
条件随机场入门(五)条件随机场的预测算法

条件随机场⼊门(五)条件随机场的预测算法CRF 的预测问题是给定模型参数和输⼊序列(观测序列)x , 求条件概率最⼤的输出序列(标记序列)y ∗,即对观测序列进⾏标注。
条件随机场的预测算法同 HMM 还是维特⽐算法,根据 CRF 模型可得:y ∗=arg max y P w (y |x )=arg max yexp{w ⋅F (y ,x )}Z w (x )=arg max y exp{w ⋅F (y ,x )}=arg max y w ⋅F (y ,x )于是,条件随机场的预测问题成为求⾮规范化概率最⼤的最优路径问题arg max y w ⋅F (y ,x )注意,这时只需计算⾮规范化概率,⽽不必计算概率,可以⼤⼤提⾼效率。
为了求解最优路径,将优化⽬标写成如下形式:max y n ∑i =1w ⋅F i (y i −1,y i ,x )其中,F i (y i −1,y i ,x )=f 1(y i −1,y i ,x ),f 2(y i −1,y i ,x ),…,F K (y i −1,y i ,x )T为局部特征向量。
下⾯叙述维特⽐算法。
⾸先求出位置 1 的各个标记 j=1,2,…,m 的⾮规范化概率:δ1(j )=w ⋅F 1(y 0=start ,y 1=j ,x )⼀般地,由递推公式,求出到位置 i 的各个标记 l =1,2,…m 的⾮规范化概率的最⼤值,同时记录⾮规范化概率最⼤值的路径:δi (l )=max 1≤j ≤m δi (l −1)+w ⋅F i (y i −1=j ,y i =l ,x ), l =1,2,...,m Ψi (l )=arg max 1≤j ≤m δi −1(l )+w ⋅F i (y i −1=j ,y i =l ,x ),l =1,2,...,m 直到i = n 时终⽌。
这时求得⾮规范化概率的最⼤值为max y (w ⋅F (y ,x ))=max 1≤j ≤m δn (j )及最优路径的终点y ∗n =arg max 1≤j ≤m δn (j )由此最优路径终点返回,不断的找到各个时刻的最优值:y ∗i =Ψi +1(y ∗i +1), i =n −1,n −2,…,1以上便是⼀条最优路径了,求得该最优路径:y ∗=(y ∗1,y ∗2,…,y ∗n )T 这便为条件随机场预测的维特⽐算法。
第14讲条件随机场课件

概率图模型基本思想
� 无向图:马尔可夫随机场(Markov Random Fields, MRF) 马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这 些变量之间的关系用无向图来表示
� �
马尔科夫性: 举例
p( xi x j , j ≠ i ) = p xi x j , xi ∼ x j
�
Observed Ball Sequence
⋯⋯
�
HMMs等生产式模型存在的问题:
T
P( X ) =
�
所有的Y i = 1
∑ ∏ p( y
i
yi −1 ) p( xi yi )
由于生成模型定义的是联合概率,必须列举所有观察序列的可能值,这对 多数领域来说是比较困难的。
�
基于观察序列中的每个元素都相互条件独立。即在任何时刻观察值仅仅与 状态(即要标注的标签)有关。对于简单的数据集,这个假设倒是合理。 但大多数现实世界中的真实观察序列是由多个相互作用的特征和观察序列 中较长范围内的元素之间的依赖而形成的。
�
HMM是一个五元组 λ= (Y, X, Π, A, B) ,其中 Y是隐状态(输出变量) 的集合,)X是观察值(输入)集合, Π是初始状态的概率,A是状态转移 概率矩阵,B是输出观察值概率矩阵。 today sun cloud rain
yesterday sun cloud rain
⎡ 0.50 0.375 0.125⎤ ⎢ 0.25 0.125 ⎥ 0.625 ⎢ ⎥ ⎢ ⎣ 0.25 0.375 0.375⎥ ⎦
⎡ 0.50 0.375 0.125 ⎤ ⎢ 0.25 0.125 ⎥ 0.625 ⎢ ⎥ ⎢ ⎣ 0.25 0.375 0.375 ⎥ ⎦
crf损失函数

crf损失函数
CRF(Conditional Random Field,条件随机场)是一种用于序列标注任务的概率模型,常用于自然语言处理中的命名实体识别、词性标注等任务中。
CRF损失函数是指在CRF模型中,用于衡量模型预测值与真实值之间差距的函数。
CRF损失函数通常采用负对数似然函数(Negative Log-Likelihood,NLL)来表示,其公式如下:
$L(\theta) = -\log P(Y|X;\theta)$
其中,$Y$表示真实标注序列,$X$表示输入序列,$\theta$表示模型参数。
$P(Y|X;\theta)$表示在给定输入序列$X$的条件下,标注序列$Y$的概率。
由于CRF模型是一个条件随机场,其概率分布可以表示为:
$P(Y|X;\theta) =
\frac{1}{Z(X;\theta)}\exp(\sum_{i=1}^n\sum_{j=1}^k\theta_jf_j(y_{i-1},y_i,x_i))$
其中,$Z(X;\theta)$是规范化因子,$f_j(y_{i-1},y_i,x_i)$是特征函数,$\theta_j$是特征函数对应的权重。
将其代入负对数似然函数中,可以得到CRF损失函数的具体形式。
CRF损失函数的目的是最小化模型预测值与真实值之间的差距,以提高模型的准确性和泛化能力。
在训练过程中,通常采用随机梯度下降等优化算法来最小化CRF损失函数,以更新模型的参数。
条件随机场入门(三)条件随机场的概率计算问题

条件随机场⼊门(三)条件随机场的概率计算问题条件随机场的概率计算问题是给定条件随机场 P(Y|X) ,输⼊序列 x 和输出序列 y ,计算条件概率P(Y_{i-1} = y_{i-1}Y_i = y_i|x),P(Y_i =y_i|x)以及相应的数学期望的问题。
为了⽅便起见,像 HMM 那样,引进前向-后向向量,递归地计算以上概率及期望值。
这样的算法称为前向-后向算法。
前向-后向算法对每个指标i = 0,1,…,n+1,定义前向向量a_i(x) ,对于起始状态i=0:a_0(y|x) = \left \{ \begin{aligned} &1, \ \ y = start \\ &0, \ \ else \end{aligned}\right.对于之后的状态i = 1,2,…,n+1,递推公式为:a_i^T(y_i|x) = a^T_{i-1}(y_{i-1}|x)M_i(y_{i-1},y_i|x)这⾥M_i(y_{i-1},y_i|x)对应的是转移矩阵中的⼀列,转为向量形式可表⽰为a^T_i(x) = a^T_{i-1}(x)M_i(x)a_i(y_i|x)表⽰在位置 i 的标记是y_i并且到位置 i 的前部分标记序列的⾮规范化概率,y_i可取的值有 m 个,所以a_i(x)是 m 维列向量。
同样,对每个指标i = 0,1,…,n+1,定义后向向量\beta_i(x):\beta_{n+1}(y_{n+1}|x) = \left \{ \begin{aligned} &1, \ \ y_{n+1} = stop \\ &0, \ \ else \end{aligned}\right.往前递推:\beta_i(y_i|x) = M_i(y_i,y_{i+1}|x)\beta_{i+1}(y_{i+1}|x)⼜可以表⽰为:\beta_i(x) = M_{i+1}(x) \beta_{i+1}(x)\beta_i(y_i|x)表⽰在位置 i 的标记为y_i,并且从 i+1 到 n 的后部分标记序列的⾮规范化概率。
《条件随机场》课件

01
•·
02
基于共轭梯度的优化算法首先使用牛顿法确定一个大致的 参数搜索方向,然后在该方向上进行梯度下降搜索,以找 到最优的参数值。这种方法结合了全局和局部搜索的优势 ,既具有较快的收敛速度,又能避免局部最优解的问题。
03
共轭梯度法需要计算目标函数的二阶导数(海森矩阵), 因此计算量相对较大。同时,该方法对初始值的选择也有 一定的敏感性。在实际应用中,需要根据具体情况选择合 适的优化算法。
高效存储
研究如何利用高效存储技术(如分布式文件系统、NoSQL数据库 等)存储和处理大规模数据。
06
结论与展望
条件随机场的重要性和贡献
01
克服了传统机器学习方法对特征工程的依赖,能够 自动学习特征表示。
02
适用于各种自然语言处理和计算机视觉任务,具有 广泛的应用前景。
03
为深度学习领域带来了新的思路和方法,推动了相 关领域的发展。
概念
它是一种有向图模型,通过定义一组条件独立假设,将观测 序列的概率模型分解为一系列局部条件概率的乘积,从而简 化模型计算。
条件随机场的应用场景
序列标注
在自然语言处理、语音识别、生物信 息学等领域,CRF常用于序列标注任 务,如词性标注、命名实体识别等。
结构化预测
在图像识别、机器翻译、信息抽取等 领域,CRF可用于结构化预测任务, 如图像分割、句法分析、关系抽取等 。
04
条件随机场的实现与应用
自然语言处理领域的应用
词性标注
条件随机场可以用于自然语言处理中 的词性标注任务,通过标注每个单词 的词性,有助于提高自然语言处理的 准确性和效率。
句法分析
条件随机场也可以用于句法分析,即 对句子中的词语进行语法结构分析, 确定词语之间的依存关系,有助于理 解句子的含义和生成自然语言文本。
条件随机场模型的参数估计方法(十)

条件随机场(Conditional Random Fields,CRF)是一种用于标注和序列标注的概率图模型,经常用于自然语言处理、生物信息学和计算机视觉等领域。
其中,参数估计是CRF模型中的重要问题之一,合理的参数估计方法可以提高模型的准确性和泛化能力。
1. 最大似然估计最大似然估计是常用的参数估计方法之一,它通过最大化训练数据的似然函数来估计参数。
在CRF模型中,给定观测序列X和标记序列Y,对数似然函数可以表示为:L(θ) = Σ logP(Y|X;θ) - Σ logZ(X;θ)其中θ为模型参数,P(Y|X;θ)为条件概率,Z(X;θ)为归一化因子,用于确保条件概率的和为1。
最大化对数似然函数可以通过梯度下降等优化算法来实现。
2. 收缩估计在参数估计过程中,常常会遇到维度灾难的问题,即参数数量远远大于训练数据的数量。
为了避免过拟合和提高模型的泛化能力,可以采用收缩估计(Shrinkage Estimation)方法。
典型的收缩估计方法包括L1正则化(Lasso)和L2正则化(Ridge)等,它们可以通过对参数添加惩罚项来实现参数收缩。
3. 条件随机场模型的期望最大化算法除了最大似然估计和收缩估计,条件随机场模型的参数估计还可以通过期望最大化(Expectation-Maximization,EM)算法来实现。
EM算法是一种迭代优化算法,它通过交替进行E步和M步来最大化似然函数。
在CRF模型中,E步主要是计算标注序列的期望特征数量,M步则是利用期望特征数量来更新模型参数。
EM算法在参数估计过程中可以有效地处理未观测到的隐变量,提高模型的鲁棒性和稳定性。
4. 改进的参数估计方法除了传统的参数估计方法,还有一些改进的方法用于CRF模型的参数估计。
例如,基于近似推断的参数估计方法可以通过采样或变分推断来近似计算归一化因子,从而简化参数估计的复杂度。
此外,还有一些基于贝叶斯推断的参数估计方法,它们可以通过引入先验分布来提高参数估计的鲁棒性和泛化能力。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X1 ,X2 ,X3 ,X4
i (Ci ) : 是关于 Ci 上 随机变量的函数
三、朴素贝叶斯分类器( Naive Bayes Classifier)
设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属于 一个特定的类别yj,那么分类问题就是决定P(yj|x),即在获得数据样 本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在 给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯理 论提供了计算这种可能性的一种直接方法。
Observed Ball Sequence
评价问题
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
解码问题
问题2:给定观察序列 X x1, x2, , xT 以及模型λ,如何选择一个对应的状
态序列Y ( y1, y2 , , yN,) 使得Y能够最为合理的解释观察序列X?
p( y j
x)
p( x
y j ) p( y j ) p( x)
P(yj)代表还没有训练数据前,yj拥有的初始概率。P(yj)常被称为 yj的先验概率(prior probability) ,它反映了我们所拥有的关于yj 是正确分类机会的背景知识,它应该是独立于样本的。
如果没有这一先验知识,那么可以简单地将每一候选类别赋予相
同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比 上总样例数|D|来近似,即
P(y j )=
|y j| |D|
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( x y j )是p(联y合j )概率,指当已知类别为yj的条件下,看到样
本x出现的概率。
若设 x (a1, a2 , , am )
G (V , E )
V : 顶点/节点,表示随机变量
E : 边/弧
两个节点邻接:两个节点之间存在边,记为 X i ~ X j ,不存在边,表示
条件独立
路径:若对每个i,都有 Xi1 Xi,则称序列 X1,..., X N 为一条路径
根据图中边有无方向,常用的概率图模型分为两类:
有向图:最基本的是贝叶斯网络(Bayesian Networks ,BNs)
无向图模型的联合概率分解
X1
X2
P( X1,
X
,
2
,X N
)
1 Z
N
i (Ci )
i 1
N
Z
i (Ci )
X3
X4
X1 , X2, ,X N i 1
势函数(potential function)
p( X1 , X 2 , X 3 , X4 )
1( X1 , X 2 , X 3 )2 ( X 2 , X 3 , X4 )
判别式模型: P (y | x): P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
两种模型比较:
Generative model :从统计的角度表示数据的分布情况,能够反映同类数 据本身的相似度,不关心判别边界。
优点: •实际上带的信息要比判别模型丰富, 研究单类问题比判别模型灵活性强 •能更充分的利用先验知识 •模型可以通过增量学习得到
缺点: •不能反映训练数据本身的特性。 •能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出来。
二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
二、概率图模型(Graphical Models)
概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型,
是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假 设。
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( yj x) 是后验概率,即给定数据样本x时yj成立的概率,而这正
是我们所感兴趣的。
P(yj|x )被称为Y的后验概率(posterior probability),因为它反 映了在看到数据样本x后yj成立的置信度。
后验概率
p( y j
X2
X5
P(当前节点|它的父节点)
X4
联合分布:
N
P( X1,
X
,
2
,X N
)
p( X i ( X i ))
i 1
P( X1, X2, ,X5 ) p( X1 ) p( X2 X1) p( X3 X2 ) p( X4 X2 ) p( X5 X3 X4 )
无向图:马尔可夫随机场(Markov Random Fields, MRF) 马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变 量之间的关系用无向图来表示
条件随机场 conditional random fields
条件随机场概述
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫 模型的基础上,提出的一种判别式概率无向图学习模型,是一种用 于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理 (Natural Language Processing,NLP) 、生物信息学、机器视觉及网 络智能等领域。
序列标注
标注:人名 地名 组织名 观察序列:毛泽东
实体命名 识别
标注:名词 动词 助词 形容词 副词 …… 观察序列:今天天气非常好!
汉语词性 标注
一、产生式模型和判别式模型(Generative model vs. Discriminative model) 二、概率图模型(Graphical Models) 三、朴素贝叶斯分类器( Naive Bayes Classifier) 四、隐马尔可夫模型(Hidden Markov Model,HMM) 五、最大熵模型(Maximum Entropy Model,MEM) 六、最大熵马尔可夫模型(MEMM) 七、条件随机场(conditional random fields,CRF)
参数学习问题
问题3:给定观察序列 X x1, x2, , xT ,调整模型参数 ( , A, B) , 使
P( X )最大?
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
基本算法:
P( X / ) P( X / Y ,)P(Y / ) 所有Y
cloud 0.25 0.125 0.625
晴云雨
rain 0.25 0.375 0.375
S s1, s2, s3
(1,0,0)
问题:假设今天是晴天,请问未来三天的天气呈现云雨晴的概率是多少?
隐马尔可夫模型(HMM)
HMM是一个五元组 λ= (Y, X, , A, B) ,其中 Y是隐状态(输出变量)的集 合,)X是观察值(输入)集合, 是初始状态的概率,A是状态转移概率矩 阵,B是输出观察值概率矩阵。
举例
年 Age
职业 Occupation
气候 Climate
症状 Symptoms
疾病 Disease
P( A,O,C, D, S M ) P( A M )P(O M )P(C M )P(D A,O,C , M )P(S D, M )
有向图模型的联合概率分解
X3
每个节点的条件概率分布表示为:
X1
HMM实例
Urn 1
Urn 2
Urn N
实验进行方式如下: • 根据初始概率分布,随机选择N个缸中的一个开始实验 • 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为 x1,并把球放回缸中 • 根据缸的转移概率分布,随机选择下一口缸,重复以上步骤。
最后得到一个描述球的颜色的序列x1,x2,…称为观察值序列X。
马尔科夫性: p( xi x j , j i) p xi x j , xi x j
举例
团(clique) :任何一个全连通(任意两个顶点间都有边相连)的子图 最大团(maximal clique):不能被其它团所包含的团
例如右图的团有C1={X1, X2, X3}和C2={X2, X3, X4}
N
递归: t1( j) [ t (i)aij ]bj ( xt1 ) 1 t T 1,1 j N i 1
N
终结: P( X / ) T (i) i 1
前向算法举例:
=[1 0 0]T
.5
R .6
1
G .2 B .2
.4 .6
.1
.2
2 .5
.4 .3
.0
3 .3
.7
R
R
G
x)
p( y j ) p( x p( x)
yj)
j 1,
Y
arg
max j
p(
y
j
x)
arg
max j
p(
yj
x1, x2 , x3 )
arg max p( x1 , x2 , x3 y j ) p( y j )
j
p( x1 , x2 , x3 )
arg
max j
p(
x1
,
x2
,
x3
,
y
j
)
基本假设
产生式模型:无穷样本 ==》 概率密度模型 = 产生模型 ==》预测 判别式模型:有限样本 ==》 判别函数 = 预测模型 ==》预测
一个举例:
(1,0), (1,0), (2,0), (2, 1)
产生式模型: P (x, y): P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.