统计自然语言处理-期末试题2008(下)

相关主题

统计自然语言处理期末试题

1.请以中文为例论述基于统计模型进行自然语言处理的合理性。（10分）

2.假设有一个英文语料库，保存在一个文本文件中，请用C、C++或JA V A设计

程序，提取所有的单词二元组（bigram），统计每个二元组的频次，将结果保存到另一个文件中。（20分）

3.证明ELE估计法（Expected Likelihood Estimation）是有根据的，也就是证明：

（10分）

4.设计一个基于转换的有监督学习算法，实现英文句子边界的识别。根据自己

对英文句子边界特点的理解设计前后文特征集和转换规则的形式。给出初始标注和学习算法的伪代码描述。（20分）

5.假设如下图的软饮料机总是从冰茶状态开始，那么产生输出序列{ice_t，col，

lem}的最可能状态序列是什么？（20分）

要求使用Viterbi算法计算。

6.给定概率上下文无关文法：（20分）

请基于内部概率确定句子Astronomers saw stars with ears 的最佳分析树，给出分析三角形及最后的最佳分析树。