国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探
国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探*

王立非1,刘斌2

(1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京

210039)

摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,

对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库

的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建

立和研究具有借鉴作用和启示意义。

关键词:国际儿童口语语料库;英语口语语料;语料库语言学

中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool

WANG Lifei1, LIU Bin2

(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)

Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.

Key words: CHILDES;English spoken corpus;corpus linguistics

1.引言

新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.360docs.net/doc/0813660952.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。

2.录写赋码系统的途径与原则

研究口语必须将视频和音频语料转换为文本语料进行分析和研究,录写费时费力,(温志军、胡瑰玲,2001)而CHAT录写系统提供了一整套赋码符号系统,经过赋码的口语语料运用计算机可以自动处理和分析。

CHAT (codes for the human analysis of transcripts)的全称是“人工录写文本分析赋码系统”,它是一套复杂但又十分灵活的多级赋码方案,专为计算机录写自然话语而设计。该系统提供了一整套用计算机记录人类交际会话的标准形式。这些交际话语涵盖了日常会话的所有种类。赋码内容包括基本的话语文本类型、详尽的发音信息和话语的句法分析信息。CHILDES语料库中的全部文稿为CHAT格式,运用CLAN程序可以对CHAT文本进行自动分析。

2.1 CHAT系统的赋码方式

CHAT对口语语料的赋码采取四种方式。第一,使用标准美式音标作为统一的格式记录会话中的词素。可以将“mightuv”记录为/maituv/。第二,CHAT允许在文稿中使用标准国际音标符和变音符。第三,CLAN编辑器可将会话交谈的声音用数码形式记录下来,并直接通过ViaVoice语音识别软件自动转为文本格式。这套系统称为“语音CHAT”。人们可通过安装在计算机上的语音CHAT识别文本语料,听到所录制的声音。第四,如果不希望使用上述方式,CHAT还可识别非标准词汇形式,如“might(h)ave”,并将它以“might have”的缩写形式进行处理。

2.2 CHAT对文本与音频语料的赋码原则

CHAT文稿赋码分为三个层级:初级、中级和高级。初级与普通儿童话语分析采用的文稿赋码系统一样。初级CHAT赋码系统的要求包括文档格式、发音形式、文件书写格式和ASCII格式等。初级CHAT文档的形式有一定的标准。这些标准必须符合CLAN分析程序指令的要求,否则,CHAT文档不能顺利运行。正确的CHAT文本格式如下:

1)用英语进行正常赋码时,文档中的每个符号都必须是ASCII符号。

2)每行必须以硬回车结束。

3)每行的开头必须是@Begin。

4)每行的结束必须是@End。

5)必须有@Participants行。内容为代表参加者的三字码,如:参加者的名字、参加者的角色。此行必须紧跟@Begin行。

6)以*号开始的行表明实际说过的话。这些被称为主行。每一个主行都只能记录一句话语。当说话者一次说几句话时,必须分行记录。

7)在主行的*号之后的三个字母必须大写。然后是冒号和说话内容。

8)以%符号开始的行表示录写者或研究者对背景的注释。通常这些行包括赋码和注释,称为“附属”行。

9)以%符号开始的附属行后是三个下标字母。如“phonology”中的“pho”,一个冒号和注释。

10)摘要行后接主行和附属行。

3.CHAT赋码的操作步骤

CHAT文稿的赋码主要分为固定行、主行和可变行三部分。

3.1 固定行赋码

CHAT赋码文稿总是以固定行开始,提供录写日期、参加者姓名、年龄、交谈背景等信息。这些信息出现在文本的最开始处,具体格式如下:

(XXX表示某某人,凡是有名字的行都用破折号,其它说明行均无破折号,

以示区别。遗漏的冒号已加上,全部要对齐。)

×××姓名行——@Name of ×××

×××年龄行——@Age of ×××

×××生日行——@Birth of ×××

赋码者行 @Coder:

附属行 @Dependent:

×××教育行——@Education of ×××:

文件名行 @Filename:

字体行 @Font:

×××组行——@Group of ×××

语种行 @Language:

×××语言行——@Language of ×××

×××状况行——@SES of ×××

×××性别行——@Sex of ×××

原因行 @Stim:

录写者行 @Transcriber:

警告行 @Warning:

有关参加者和背景信息的所有固定行都须以“@”符号开始。一些行只要求有@符号和行的名称。例如“@Begin”或“@New Episode”。但是大部分行后须有内容。有内容的行还必须有一个冒号,然后是1-2个注释。冒号后必须空出8个字符的间隔,然后输入注释。注释是为了增加文档行信息的可读性。冒号前的材料称为“行名”,如:“@Age of CHI:”和“@Date:”都是行名。行名之后的文本被称为“行内容”,如:“@Age of CHI: 2; 6.4”、“@Date: 25-JAN-1983”。“2;

6.14”和“25-JAN-1983”都是行内容,统称为“行”。行末不能有标点符号。在CHAT中,只有主体确实发出的声音才能用标点符号。

这些固定行说明说话者年龄、社会经济地位或出生日期等不变的信息,如:中产阶级家庭、男性、2岁等。这些信息有助于更有效地研究语料。固定行按字母顺序排列,排列顺序如下:

(1)姓名行@Name of ×××:

此行说明参加者的名字。

(2)年龄行@Age of ×××:

此行是说话者年龄,×××表示用三个字母说明说话者的名字。CHAT中的年龄信息精确到日。这里的年龄指的是被采集语料的儿童及其兄弟姐妹的年龄,也可用于其他说话者。@Age行的顺序为年、月、日。如2;11.7,指的是2岁,11个月零7天,与一般日期表示方法不同。

(3)生日行@Birth of ×××:

此行说明了说话者的出生日期。此行的内容是日-月-年。注意日在前,月排在第二位。因此1973年1月23日应写为23-JAN-1973。在所有日期中,月份应大写,缩写,如:JAN,FEB类推。例如:@Birth of SAR: 23-JUL-1961 (4)赋码者行@Coder:

此行说明文件赋码人身份。以备查验,同时也是对赋码者劳动的一种承认。

(5)附属行@Dependent:

此行用于列出附属信息。可插入%Spa等类指令,供编辑器阅读。

(6)教育行@Education of ×××:

此行说明说话者的最高教育水平,用0-20的整数表示。12以后的数字表明大学教育。如说话者受教育程度是大学三年级,就应以“15”来表示。例如:

@Education of MOT: 15。

(7)文件名行@Filename:

此行是计算机文件的文件名,为了防止文件重名。如果已经有了一个@ID行,就无需再加上此行,因为@ID赋码包括了文件名。

(8)字体行@Font:

此行用于定义文件的预设字体。在CLAN编辑器中,对WINDOWS系统而言,预设字体为Win95:Courier New:-13。

(9)小组行@Group of ×××:

此行说明了一组研究对象中以谁为主体,其他人则不重要。

(10)语种行@Language:

此行说明记录数据的语种。

(11)语言行@Language of ×××:

此行说明参加者使用的语言。为了能说明交际的基本语言,最好使用能适用GEM软件(对某段录写语料标记进行深入分析的软件)的@bg和@eg标记。如果语言转换频繁,有必要在每句话前使用%语种,如:%lan:附属行,表明所使用的语言。

(12)状况行@SES of ×××:

此行说明了该儿童家庭的社会经济状况。请用标准形容词说明家庭的社会经济状况,如:贫困、下层、工薪、中产、上层。例:@SES of SAR: working (13)性别行@Sex of ×××:

此行说明说话者的性别。

(14)原因行@Stim:

此行说明了引起说话的原因。

(15)录写者行@Transcriber:

此行说明录写者的姓名。

(16)警告行@Warning :

此行就文稿收集和记录中的某些错误向研究者提出警告。如:1)语料记录不精确,无法在分析中使用。2)语料包含的信息与文本无关,不适用于分析。3)语料未准确记录重复和停顿现象。4)所记录语料未进行双重检查。5)文件末成功运行CHECK命令。

3.2必要行赋码

CHAT必要行指令只有4个,没有这些行首,CLAN就无法正确运行。格式如下:

开始行 @Begin

参加者行 @Participants

身份行 @ID:

结束行 @End

(1)开始行@Begin

此行置于文件头,旨在确保材料的完整性。此行无其它内容,不使用冒号。

(2)参加者行@Participants:

此行位于文件第二行,说明文件中的所有参加者,参加者行须包括三个要素:说话者身份、姓名和角色,例如:@Participants: SAR Sue_Day Target_Child, CAR Carol Mother。

1)说话者身份

说话者身份通常由三个字母或二个字母加一个数字等组成。可用参加者姓

名,如*ROS或*BIL;或身份如*CHI或*MOT。不同的孩子可以用*CH1,*CH2,*CH3指代。说话者身份必须保证不重复,计算机将以此辨认文稿主体和其他说话者。三个字母有时难以区分所有的说话者。例如,儿童名为Mark(MAR),他母亲名为Mary(MAR),这时身份就无法判断,必须换身份代码。如:Mary的说话者身份可以改为MOT(母亲),也可将Mark的身份改为CHI,最好是这样使用MAR和MOT:@Participants: MAR Mark Target_Child, MOT Mary Mother。

三个字母赋码的组合可以指说话者和听众。如*CHI-MOT或*CHI-FAT儿童在对母亲或对父亲说话。

2)姓名

说话者的姓名可以忽略。如果CLAN程序对身份和角色自动识别。也可以使用假名。为了让CLAN正确分析参加者行,像“Sue Day”这样的多个单词姓名须以“Sue_Day”的形式出现。

3)角色

身份和姓名之后输入角色。CHECK命令可以提供一些固定的角色,如:研究对象儿童、父母亲、兄弟姐妹、祖父母、阿姨叔叔、小伙伴、客人、学生、老师、调查者、检查者、观察者、摄像者、医生、护士、办事员、主人、身份不明者、成人、年轻人、非人类和叙述者。如果在这些标准角色中找不到,角色的性质可放在姓名所处的位置。例如:

@Participants: TBO Toll_Booth_Operator Adult,

AIR Airport_Attendant Adult,

NON Computer_Talk Non_Human

(3)身份行@ID:

此行旨在标明确认文件系统中的某一个文件。此行的基本形式如下:

@ID:language/corpus/speaker/age/sex/group/SES/ rote/situation

例如:@ID:eng/ne20/chi20/lj10.4/m//middle/target_child/ situation。这里“group”栏的信息被忽略,因此第5和第6斜杠标记中没有内容。

(4)结束行@End

和开始行@Begin一样,此行无需冒号,没有内容,此固定行位于文件末尾,表示语料内容的完整性。此行可保证复制时文件的开始内容不会被抹掉。

CHAT赋码系统对发音和单词也有一系列标注规则:

1)发音应以发音结束符号结束。

2)尽量少用逗号。

3)专有名词用大写,句子开头不用大写。

4)发音模糊的单词应被记录为xxx(小写符号)。

5)记录不完整或不规范的语音段,用&标明,如:&guga。

6)不完整单词中的不完整部分可用括号表示,如:(be)cause,(a)bout。

以下为一段经过必要行赋码后的语料,语法正确,选自McWhinney (1995)。

@Begin

@Participants: Ros Ross Child,

BRI Brian Father

*ROS: W hy isn’t Mommy coming?

%com: Mother usually picks Ross

up around 4 PM.

*BRI: don't worry.

*BRI: she’ll be here soon.

*ROS: good.

@End

3.3可变行赋码

在CHAT录写系统中,可变行可与固定行同时出现在文件开始处,也可以位于文件各部分。可变行包括在文件中可以改变的信息。文件如果只记录了一天的会话内容,@Date行只能出现在文件开头,但如果包含以后几天的内容,@Date 行可以再次出现,说明记录的时间。可变行的格式如下:

活动行 @Activities

Gem开始行 @Bg and @Bg

背景行 @Bck

注释行 @Comment

日期行 @Date

Gem结束行 @Eg and @Eg

Gem行 @g

地点行 @Location

新事件行 @New Episode

房间布局行 @Room Layout

情景行 @Situation

磁带地点行 @Tape Location

时间长度行 @Time Duration

时间开始行 @Time Start

(1)活动行@Activities:

此行说明在某个情景中发生的活动,列出活动内容。如:如果在@Situation 行说的是“准备出去”,那么@Activities行就列出一系列行为,如穿外套、整理课本、说再见。

(2)Gem开始行@Bg and @Bg:

此行说明开始用GEM进行分析。如果有一个冒号,后面必须跟一个注释,然后再跟其它语码。

(3)背景行@Bck:

CHAT录写说话前的说明或背景信息时,将信息输入在背景行@Bck行中,如:@Bck: Rachel was fussing and pointing toward the cabinet where the cookies are stored.

*BAC: cookie [/] cookie

(4)注释行@Comment

此行可输入任何注释。当对某一种发音注释时,请使用%com行。如果对一般材料进行注释,请使用@Comment行。如果该注释适用于整个文件,请将@Comment 行放在第一次发音的固定行前。不要为专门的信息设立新赋码名,如”@Gestation Age”, 最好用@Comment行表示。如:@comment: Gestational Age of MAR is 7 months;@comment: Birth weight of MAR is 6 1bs. 4oz.。

(5)日期行@Date:

此行说明会话时间。形式为日-月-年。日期缩写形式同@Birth行。例:@Date: 1-JUL-1995。

(6)Gem结束行@Eg and @Eg:

此行表明GEM分析命令结束。如果有冒号,其后必须有标签,以及1个或更多赋码。

(7)Gem行@g

此行为联接GEM软件的命令行。Gem指的是以@g开始,以另一个@g结束的语料。这些标记称为gem的缩写标记,比@bg和@eg更易使用,但须使用GEM中的+n转换符。

(8)地点行@Location:

此行包括交际话语发生的城市、州或省和国家。例如:@Location: Boston, MA, USA。

(9)新事件行@New Episode:

此行说明了打断记录的事件以及发生的新片段。因为没有内容,此行无需冒号。插入事件结束无须标明,因为@New Episode行包含了一件事的结束和另一件事的开始。

(10)房间布局行@Room Layout:

此行对房间和家具布局进行说明。这对了解实验背景非常有用。例如:@Room Layout: Kitchen; Table in center of room with window on west wall, door to outside on north wall.

(11)情景行@Situation:

此行说明了会话发生的一般情景。放在另一个@Situation行前,对情景进行标准描述。如:早餐、外出、洗澡、工作、访友、上学、准备出门。例如:@Situation: Tim and Bill are playing with toys in the hallway. 研究者应尽可能地提供有关信息:参加人、房间布局、社会角色、活动、性质、时间、地点等。相关的文化信息也很重要。

(12)磁带位置行@Tape Location:

此行说明磁带的特点,A、B面和长度。如:@Tape Location : tape 74, side a, 104。

(13)时间长度行@Time Duration:

指出录音开始时间和录音时间的长短。如:@Time Duration: 12:30---13:30。此行说明了录音确切时间,各个相关事件发生的时间比较重要。记录在%tim附属行中,接着是@Time Start行。

(14)开始时间行@Time Start:

如果想知道%tim行中遗漏的时间,@Time Start行可表示绝对时间。如果记录中出现新的@Time行,时钟会重新计时。例如:@Time Start: 12:30。

从儿童口语语料库录写系统的赋码可以看出,口语语料的赋码比书面语料复杂,主要因为涉及声音的处理。然而CHILDES的CHAT赋码原则十分全面,可以对任何口语语料进行有效录写赋码,值得我们在建设英语口语语料库时借鉴。

参考文献:

[1] Edwards, J. 1992. Computer methods in child language research: four

principles for the use of archived data [J]. Journal of Child Language.

19, 435-458.

[2] Gibbon, D., Moor, R., & Winski, R. (Eds.). 1997. Handbook of standards

and resources for spoken language systems [C]. Berlin: Mouton de Gruyter.

[3] LIPPS Group. 2000. The LIDES Coding Manual: A document for preparing

and analyzing language interaction data [J]. Journal of Bilingualism, 4, whole no. 2.

[4] MacWhinney, B. 1995. The CHILDES Project: Tools for Analyzing Talk

[M]. 2nd Edition. Mahwah, NJ: Lawrence Erlbaum Associates.

[5] Oshima-Takane, Y., & Mac Whinney, B. 1995. Japanese CHAT manual [M].

Tokyo: Tokyo University Press.

[6] 温志军,胡瑰玲. 开发利用世界上最大的儿童语料库--CHILDES [J]外语教学与研究,2001,(5):374-377

*作者感谢美国B. MacWhinney教授访问南京大学期间的直接指导,感谢文秋芳教授和南京大学英语口语研究所以及南京师范大学教育系提供有关资料。

作者简介:1.王立非(1962-) 男,南京人,解放军国际关系学院教授,南京大学博士生,研究方向为应用语言学;2.刘斌(1978-)女,南京人,解放军国际关系学院研究生,研究方向为应用语言学。

托福口语话题语料库:学校

托福口语话题语料库:学校 为了帮助大家积累更多的优秀素材,为大家带来托福口语话题语料库:学校,希望能够帮助大家更好的备考托福口语,一起来看看吧! 托福口语话题语料库 学校的硬件设施: gym : 活动类型: 哑铃do some dumbbell, 室内跑道run on the indoor track, 在场地上打球play some sport on the court, 水上运动do some aquatic activities, 邮箱运动如瑜伽、游泳、在跑步机上跑步aerobics like yoga, swimming, running on a treadmill 体育馆是个休闲娱乐的地方,是打发时间的首选;在这里可以做各种各样的运动(举以上的例子)。

A gym is the place where students can have fun and relax themselves, for many students it can be the first choices when it comes to how to spend their spare time. There are lots of fun activities you can do in the gym like, play some sports on the court, do some aerobics like yoga, swimming, and running on a treadmill,and stuff like that. 作用:保持体型Keep fit, 有趣have fun,放松relax,引导学生健康、活跃的生活方式lead a healthy and active lifestyle 总之,很有必要建设一个体育馆。 In a nutshell, it is really important for a university to own a nice recreation center(gym 的同义词),for it helps to promote a healthy, active lifestyle. 实验室laboratory : 做实验conduct research, 把理论应用于实际apply theory in practice, 直观的理解概念understand concepts intuitively(直观的),培养学生的创造力develop students' creativity; 实验室是好学校的重要组成部分,然后展开实验室的作用(即以上内容)。

家具行业物料编码原则

1XXX家具物料编码原则 2 3 4壹.物料编号原则说明 5(一)实木类编号格式: 610 . CD .EFH HIJ KL M 7 8木料等级代号 9A=特级(FAS) 10B=“1”COM 11C=“2”COM 12D=“3A” 13Z=余料 14长度代号 15英制(参照附表二) 16公制10=1000mm 1708=800mm 18宽度代号 19英制前码=以吋为单位<见表1-2> 20后码=以分为单位<见表1-2> 21公制100=100mm 22厚度代号 23英制前码=以吋为单位<见表1-2> 24后码=以分为单位<见表1-2> 25公制100=100mm 26材质代号<见表1-1> 27类别代号(参照附表一)

28 29<表1-1>材质代号对照表 30材质代号材质名称材质代号材质名称 3101 白杨木(White Poplar) 3202 橡胶木(Rubber Wood) 3303 苦栎木 3404 杂木 3505 桦木(Birch) 3606 ASH(梣)木 3707 荷木 3808 红榉木 3909 拉敏(Ramin) 40※苦栎、荷木及杂木为公制尺寸,其余为英制 41 42<表1-2>宽度/厚度代号对照表 43吋(前码) 分(后码) 44代号英寸代号尺寸 2 存货编码 1存货分类: 存货分类的分类原则(总共分7级):1-1-2-1-3-1-1-1一:板材成品的编码原则:(在分类的基础上加流水号)

三胺板材成品的存货名称举例: 聚脂板材成品(102)存货名称举例:

二:家具成品的编码原则 家具成品的分类:1级2表示家具成品 家具成品的编码原则:客户订单号+流水号 (客户订单号的编码原则:YDH+年份+月份+流水号 举例说明:现有业务部2004年12月接到客户订单两个家具成品订单订单号:YDH0412001、YDH0412002 存货编号:YDH041200101 YDH041200102 三:原材料编码原则:

外教一对一英语口语

外教一对一英语口语的重要性 随着2008北京奥运、2010上海世博会,中国与国际融合的脚步加快,而英语作为搭建国际化沟通的重要桥梁,受到中国社会各界尤其是企业界的追捧。从长远来看,双语人才,尤其是英语人才,不论在企业国际化人才架构中,还是在中国国际化和平崛起的进程中,都是不可或缺的“基础设施”。外教1对1的培训能很快的提高口语水平,加速双语人才进程。 正是在这样一个国际化浪潮汹涌澎湃的背景下,外教1对1培训的重要性和紧迫性再次被突显,而英语培训过程中经常出现的“缺乏方向”、“缺乏标准”和“缺乏绩效考核”成为企业挥之不去的心病。正是因为这样,我们就不难理解为何“让英语培训机构按企业特定岗位的语言需求培养人才,真正实现企业英语培训与岗位语言胜任能力的无缝对接”、“如何借助第三方语言测评机构的专业力量完善企业英语培训外包机制”、“如何更有效地向英语培训机构下订单”等话题会被企业HR们所关心和热议。 在很多有经验的HR看来,外教英语1对1培训更多是源于改善或提高员工岗位语言胜任能力的直接需求,而企业只有将培训需求和考核标准量化后,才能精准地向英语培训机构提出“订制人才”的标准和要求,这也就是我们常听到的“订单式培训”。在企业内部英语培训的外包操作上,记者最近也注意到越来越多涉外企业的HR们倾向采用“第三方语言测评机构+英语培训机构”的二元培训模式。

那么,HR们又是如何借助英语外教1对1推进企业英语培训的需求下单、绩效考核及效果评估的?首先,企业借助第三方测评机构的专业化力量和专家资源,例如北京的速恩英语,先设计好公司各部门相应的岗位英语胜任标准,然后在培训之前组织相关岗位员工通过相应的英语考试测评,将考试测评的成绩与既定的岗位英语胜任标准进行比照,找出能力与胜任之间的差距,并以此量化成培训需求和向英语培训机构下培训订单的考核标准;其次,英语培训机构根据企业培训订单的培训需求和考核标准,量身定做相应的培训方案,对参训人员进行培训;最后,在培训结束时,再次组织参训人员参与英语测评考试,通过培训前、培训后两次成绩对照以检验“本次英语培训的是否达到既定的预期”、“员工的英语胜任能力通过培训是否得到改善或提高”,做到企业内部英语培训可量化考核和整体绩效评估,避免主观判断。

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.360docs.net/doc/0813660952.html,.au/~dlee/CBLLinks.htm (https://www.360docs.net/doc/0813660952.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.360docs.net/doc/0813660952.html,/corpus/ 互动平台 https://www.360docs.net/doc/0813660952.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

托福独立口语高频题语料素材汇总分享:internetoracademicbooks

托福独立口语高频题语料素材汇总分享:internetoracademicbooks 今天给大家带来了托福独立口语高频题语料素材汇总分享:internet or academic books,希望能够帮助到大家在托福口语中拿高分,下面就和大家分享,来欣赏一下吧。 托福独立口语高频题语料素材汇总分享:internet or academic books 托福独立口语高频话题解读:internet or academic books Which one do you think is better to help do research, internet or academic books? Explain why. 高频话题语料补充 有害健康 pose a threat to your health, hurt your eyesight, get dizzy, backache, neck problems, obesity 出版商审查并且批准一些信息 publisher checks and approves the information 作者都是权威

authors are authorities in a certain field 因特网的信息不准确 source might be unreliable 托福独立口语高频话题范文分享 Well, personally I would like to use paper books to do research. Sitting in front of the computer poses a threat to your health, like staring at the screening for a long time hurt your eyesight, you get dizzy, and there are other problems like backache, neck problems, and even obesity. Also, the information in books is reliable, the publisher checks and approves the information and the authors are authorities in a certain field. However, the information on the internet is not reliable since everyone can post information. 托福口语备考的七大技巧 扩充词汇 托福口语考试,讲究的不是词汇的多少,掌握2500个左右常用词就足够了。托福口语考试的关键,是要熟练掌握和运用一些转折连词、动词,以及美国口语的惯用方法。这样可以让你在口语考试中,表现的更加精彩。 题海战术

物料编码规则范本

物料编码规则范本 综述 本文仅对物料编码的设计思路进行简单介绍,并非2BizBox软件的强制要求,各企业应根据其自身情况灵活制定适合自己的编码规范。定义 物料编码是计算机系统对物料的唯一识别代码。它是用一组代码来代表一种物料。物料编码必须是唯一的,即一种物料不能有多个物料编码,一个物料编码不能代表多种物料。 物料的编码方案应简单、清晰,尽量不要把物料的属性含义放到编码中。 原则 本文设计的物料编码规则遵循以下原则: ?唯一性:同一种物料只能对应一个编码,同一编码只能代表一个物料,绝不能出现一个物料多个编码,或多个物料一个编码的情况。 ?可使用性:编码的长度应在6-20之间,不宜过长,否则不易识别记忆

?规则性:编码应当是按照一定的编码原则编制出来的,并配合对描述进行规范。 ?可读性:物料编码不一定要求一看就知道是哪种物料,但应当做到一看到物料就能够识别出该物料是属于哪一类的物料,可 以考虑采用前段用分类码,后段用顺序码的方式进行编码。编 码的使用者应当在较短的时间内对编码的方式有大致的了解; 另外,应避免使用“i”、“O”、“Z”等容易与数字混淆的字 母编码。 ?通用性:同一编码原则应能涵盖大多数物料,新增加的品种也能够适应 ?可扩展性:编码原则的制定应能考虑公司5-10年内物料的变化趋势。并且要对不同的情况留有一定的余地。 ?效率性:编码原则不仅要考虑使用者是否可以较容易地解读,方便记忆和识别,还应当考虑是否有助于提高日常操作的效率。 ?兼容性:本公司的物料编码应当考虑与主要客户、重要供应商的编码的兼容,这要求建立一个物料编码对照表,把客户、主 要供应商的编码、本公司编码放在一张表内可以自由查询。 ?综合性:编码原则也应考虑与产品(BOM单)、生产、采购、货仓运作、物料控制、财务、使用软件系统等相关方面的配合 使用问题。 编码示例

日常英语口语900句

免费外教在线一对一英语口语课程,太平洋英语,三个月与老外畅谈无阻!https://www.360docs.net/doc/0813660952.html, 第1册A版 一、Greetings 问候语 1. Hello! / Hi! 你好! 2. Good morning / afternoon / evening! 早晨(下午/晚上)好! 3. I'm Kathy King. 我是凯西·金。 4. Are you Peter Smith? 你是彼得·史密斯吗? 5. Yes, I am. / No, I'm not. 是,我是。/ 不,我不是。 6. How are you? 你好吗? 7. Fine, thanks. And you? 很好,谢谢,你呢? 8. I'm fine, too. 我也很好。 9. How is Amy / your wife / your husband? 爱米好吗?/你妻子好吗?/你丈夫好吗? 10. She is very well, thank you. 她很好,谢谢。 11. Good night, Jane. 晚安,简。 12. Good-bye, Mike. 再见,迈克。 13. See you tomorrow. 明天见。 14. See you later. 待会儿见。 15. I have to go now. 我必须走了。 二、Expression In Class 课堂用语 16. May I come in? 我能进来吗? 17. Come in, please. 请进。 18. Sit down, please. 请坐。 19. It's time for class. 上课时间到了。 20. Open your books and turn to page 20. 打开书,翻到第20页。 21. I'll call the roll before class. 课前我要点名。 22. Here! 到! 23. Has everybody got a sheet? 每个人都拿到材料了吗? 24. Any different opinion? 有不同意见吗? 25. Are you with me? 你们跟上我讲的了吗? 26. Have I made myself clear? 我讲明白了吗? 27. Could you say it again? 你能再说一遍吗? 28. Any questions? 有什么问题吗? 29. That's all for today. 今天就讲到这里。 30. Please turn in your paper before leaving. 请在离开前将论文交上。 三、Identifying Objects 辨别物品 31. What's this? 这是什么? 32. It's a pen. 是支笔。 33. Is this your handbag? 这是你的手提包吗? 34. No, it isn't. / Yes, it is. 不,它不是。/是的,它是。 35. Whose pen is this? 这是谁的笔? 36. It's Kate's. 是凯特的。

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

托福常用口语900句语料中英文对照汇总:1-250句

托福常用口语900句语料中英文对照 汇总:1-250句 今天给大家带来托福常用口语900句语料中英文对照汇总:1-250句,希望可以帮助到大家在托福口中拿高分,下面就和大家分享,来欣赏一下吧。 托福常用口语900句语料中英文对照汇总:第1部分1-50句 托福常用口语900句语料对照汇总:1-50句 1. I see. 我明白了。 2. I quit! 我不干了! 3. Let go! 放手! 4. Me too. 我也是。 5. My god! 天哪! 6. No way! 不行! 7. Come on. 来吧(赶快) 8. Hold on. 等一等。

9. I agree。我同意。 10. Not bad. 还不错。 11. Not yet. 还没。 12. See you. 再见。 13. Shut up! 闭嘴! 14. So long. 再见。 15. Why not? 好呀! (为什么不呢?) 16. Allow me. 让我来。 17. Be quiet! 安静点! 18. Cheer up! 振作起来! 19. Good job! 做得好! 20. Have fun! 玩得开心! 21. How much? 多少钱? 22. Im full. 我饱了。 23. Im home. 我回来了。 24. Im lost. 我迷路了。

25. My treat. 我请客。 26. So do I. 我也一样。 27. This way。这边请。 28. After you. 您先。 29. Bless you! 祝福你! 30. Follow me. 跟我来。 31. Forget it! 休想! (算了!) 32. Good luck! 祝好运! 33. I decline! 我拒绝! 34. I promise. 我保证。 35. Of course! 当然了! 36. Slow down! 慢点! 37. Take care! 保重! 38. They hurt. (伤口)疼。 39. Try again. 再试试。 40. Watch out! 当心。

物料编码原则

****股份有限公司物料编码原则 2009/C 编制:日期: 审核:日期: 批准:日期: 会签:日期

1 目的 规范我司物料管理,适应ERP系统需要,促进公司物流管理水平提升,有效控制库存,提高及时交货率,更好的服务客户。 2 范围 本编码原则适用于对中捷厨卫股份有限公司的所有物料进行管理,包含但不仅限于原材料、零配件、包装物、成品、低值易耗品、样品(含改良等情况产生的临时物料)。 3 编码原则 3.1 总原则 3.1.1物料编码共分原材料、零配件(含组件)、包装物、成品、低值易耗品、样品(含改良等情况产生的临时物料)六大类,分别由英文字母、数字、间隔符组成。 3.1.2 物料编码原则由技术中心制定与修订,任何其它部门不得随意对其进行位数删除/增添、代码定义更换等。 物料分类原材料零配件(含组件)包装物成品低值易耗品特殊成品样品(含临时物料)物料大类码1 2 3 4 5 6 L 3.3 原材料编码说明 3.3.1 原材料代码段定义如下: 1 XX XXX 流水号 类别码 大类编码 3.3.1.1 第1位,原材料大类码:1; 3.3.1.2 第2、3位:原材料类别代码,约定如下: 01——型砂类物料;02——橡胶、塑料类;03——铸造辅料;04——为紫铜; 05——铜棒类物料;06——铜管类物料;07——铜锭类物料;08——铁类附件;09——锌锭类物料;10——铅锭类物料;11——铝锭类物料;12——铜粉; 13——炉渣;14——料头;15——化学品物料;16——铜板类。 3.3.1.3 第4、5、6位:引入顺序流水号:以000~999之间的数字从小到大排列。 3.3.2 原材料编码举例说明 3.3.2.1 Ф15铜管 新编码为:106001

英语口语20个对话主题

英语口语20个对话主题 英语口语对话主题(001)相貌 A: That girl looks very attractive, doesn’t she? B: do you think so? I don’t like girls who look like that. I like girls who aren’t too slim. If you like her, go and talk to her. A: I’d like to, but there’s her boyfriend. He’s very broad-shouldered. B: he’s huge! He must go to the gym to have a well-built body like that. A: do you prefer tall girls or short ones? B: I don’t mind, but I like girls with long hair. A: we have different tastes. I like girls with short hair. I like tall girls- probably because I’m so tall myself. B: have you ever dated a girl taller than you? A: no, never. I don’t think I’ve ever met a girl taller than me! Have you gained weight recently? B: yes, I have. Perhaps I should go to the gym, like t hat girl’s boyfriend. A: I ‘m getting a bit plump myself. Perhaps I’ll go with you. 英语口语对话主题(002)身体部分 A: I’m going to the beauty parlor. Do you want to come too? B: sure. Let’s go. What are you going to have done? A: I want to have a foot massage and haircut. B: a foot massage sounds like a great idea. They are very relaxing. I’d also like to have a mudpack on my face. It’s supposed to help with your complexion. A: good idea. We should also pedicures and manicures. B: this could become a very expensive trip to be beauty parlour! A: I think it’s a good idea to pamper yourself occasionally. Don’t you agree? B: oh, I agree. We both work hard and a little beauty treatment can relieve stress. A: maybe we should try a thai massage too. B: what’s specia l about a thai massage? A: that’s when the masseuse walk on your back and massage you with her feet. B: sounds painful! 英语口语对话主题(003)身体部位的运动 A: when you are in a restaurant you want the waiter to bring the bill, what do you do to attract his attention? B: I just make eye contact with him and nod my head. Then I tell him when he comes over to the table. Why do you ask? A: I went out with my girlfriend to a nice restaurant last night and I noticed that many people shouted for the bill.

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.360docs.net/doc/0813660952.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.360docs.net/doc/0813660952.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.360docs.net/doc/0813660952.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.360docs.net/doc/0813660952.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.360docs.net/doc/0813660952.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.360docs.net/doc/0813660952.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.360docs.net/doc/0813660952.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.360docs.net/doc/0813660952.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.360docs.net/doc/0813660952.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.360docs.net/doc/0813660952.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

托福口语语料库整理Fancy(优选.)

Task 1\2 独立题戏精上身语音语调 Task1 多选一、三选一、建议类、优缺点 Task2 A or B, agree or disagree, good or not I’m a university student who has endless tasks to deal with. For example, i need to take classes, write papers, prepare for the TOEFL test and so on. Usually, i feel so tired and busy, so i need to find a way to let off my steam. Like last weekend, i ...,and i felt so relaxed. I could totally get away from the daily grind. What’s more, while doing sth, i can meet a bunch of people who share the common interests and hob bies. I mean, it’s easier for us to get along with each other. It can help me to expend my social network. 大城市、出国 Living in a big city can provide people with a lot of benefits. I’m a university student who studies in shanghai, i enjoy my life here in this big and modern city, because i can receive better education, experience new things, get more job opportunities and so on. All these can lead to a better life, right?Besides, the basic infrastructure in big city is perfect, because there are some museums, hospitals, schools,libraries and so on. 榜样力量 Yi Fan is a famous actor in my country, and i admire him a lot because he sets a good example to me. Once, i watched an interview about him on TV. In the interview, he told us that at the beginning of his career, he was little-known. However, he kept trying harder and harder and never give up. Now, he is a household star and everyone knows his name. His story motivates and inspires me all the time. 大学教育、商业 I’m studying in a top university, which provides me a pla tform to gain and enrich knowledge for my major. My major is business administration. In university, i have learned some related academic subjects, such as economics, management, e-commerce and so on. At the same time, i can do some internships in some business companies. All these can lay a solid foundation for my future career. What’s more, in university, i can make friends with some talented people who can give me a lot of inspiration. 三选一结尾套话 To tell you the truth, when talking about the other two things, i have absolutely no interest in them.

物料编码原则指导说明书

编码原则 指导说明书 编码原则 说明:以物料的编码为主线讲解编码的原则,但所讲编码原则同样适用于K3系统的客户编码、供应商编码、职员编码、部门编码、单位编码、仓库编码、各种类别编码和其他需要编码的任何项目等。 第一节物料编码的意义 物料编码是以简短的文字、符号或数字、来代表物料、品名、规格或类别及其他有关事项的一种管理工具。在物料极为单纯、物料种类极少的工厂或许有没有物料编码都无关紧要,但在物料多到数百种或数千、数万种以上的工厂,物料编码就显得格外重要了。此时,物料的领发、验收,请购、跟催、盘点、储存等工作极为频紧,而藉着物料编码,使各部门提高效率,各种物料资料传递迅速、意见沟通更加容易。物料编码之功能如下: ?增强物料资料的正确性 物料的领发、验收、请购、跟催、盘点、储存、记录等一切物料之活动均有物料编码可以查核,因此物料数据更加正确。至于一物多名,一名多物或物名错乱之现象不致于发生。 ?提高物料管理的工作效率 物料既有系统的排列,以物料编码代替文字的记述,物料管理简便省事,效率因此提高。 ?利于电脑的管理 物料管理在物料编码推行彻底之后,方能进一步利用电脑作更有效的处理,以达到

物料管理之效果。 ?降低物料库存、降低成本 物料编码利于物料库存量的控制,同时利于呆料的防止,并提高物料管理工作的效率,因此可减轻资金的积压,降低成本。 ?防止物料舞弊事件之发生 物料一经编码后,物料记录正确而迅速,物料储存井然有序,可以减少舞弊事件之发生。 ?便于物料之领用 库存物料均有正确的统一的名称及规格予以编码。对用料部门的领用以及物料仓库的发料都十分方便。 第二节物料编码的原则 物料编码必须合乎物料编码的原则,合理的物料编码,必须具备下列基本原则: ●简单性 ●分类展开性 ●完整性 ●单一性 ●一贯性 ●可伸缩性 ●组织性 ●适应电脑管理 ●充足性 ●易记性 一、简单性 编码的目的在于将物料化繁为简,便于物料的管理,如果编码过于繁杂,则违反了编码之目的。因切此物料编码在应用文字符号或数字上应力求简单明了,这样可节省阅读、填写、抄录的时间与手续,并可减少其中的错误机会。 物料相当单纯时,只要将物料简单分类为几项即可,物料分类项目多了,就显得很不方便。若物料相当复杂时,就要将大分类再加以细分,这种分类展开也称为多级分类。 二、分类展开性 物料复杂,物料编码大分类后还要加以细分,如果采用阿拉伯数字十进位,则每段最多只能由十个细分的项目,如果采用英文字母,则每段有26个细分项目,然而细分项目太多,就难于查找,而细分项目太少,则分类展开太慢,分类细分项目通常以五至九个较佳。例如采用阿拉伯数字十进位,有十八个项目时,其分类展开可以利用下列方法。

相关文档
最新文档