合成词结构数据库

合集下载

英文中常见的合成词非常有用

英文中常见的合成词非常有用

英文中常见的合成词(非常有用) 英文中常见的合成词非常有用,因为它们可以帮助我们更准确地表达思想和概念。

以下是一些常见的合成词,它们在不同领域中经常使用,并且对于扩展词汇量和表达能力非常有帮助。

1. 信息技术领域:- Cybersecurity(网络安全):Cyber(网络)+ Security(安全)- Software engineer(软件工程师):Software(软件)+ Engineer(工程师)- Data analysis(数据分析):Data(数据)+ Analysis(分析)- Cloud computing(云计算):Cloud(云)+ Computing(计算)- Artificial intelligence(人工智能):Artificial(人工)+ Intelligence(智能)2. 商业和金融领域:- E-commerce(电子商务):E(电子)+ Commerce(商务)- Investment banking(投资银行业):Investment(投资)+ Banking(银行业)- Marketing strategy(市场营销策略):Marketing(市场营销)+ Strategy(策略)- Risk management(风险管理):Risk(风险)+ Management(管理)- Financial analysis(财务分析):Financial(财务)+ Analysis(分析)3. 医学领域:- Biotechnology(生物技术):Bio(生物)+ Technology(技术)- Neurosurgery(神经外科):Neuro(神经)+ Surgery(外科)- Psychologist(心理学家):Psycho(心理)+ Logist(学家)- Oncology(肿瘤学):Onco(肿瘤)+ Logy(学)- Cardiologist(心脏病学家):Cardio(心脏)+ Logist(学家)4. 教育领域:- Preschool(学前教育):Pre(前)+ School(学校)- Homeschooling(家庭教育):Home(家庭)+ Schooling(教育)- Multiculturalism(多元文化主义):Multi(多)+ Cultural(文化)+ Ism(主义)- Pedagogy(教育学):Ped(教育)+ Agogy(学)- E-learning(在线学习):E(电子)+ Learning(学习)5. 环境领域:- Renewable energy(可再生能源):Renewable(可再生)+ Energy(能源)- Recycling(回收利用):Re(再次)+ Cycling(循环)- Sustainability(可持续性):Sustain(维持)+ Ability(能力)- Climate change(气候变化):Climate(气候)+ Change(变化)- Environmental protection(环境保护):Environmental(环境的)+ Protection(保护)这只是一小部分英文中常见的合成词,它们涵盖了不同领域和行业。

合成词和短语(词组)的构成类型

合成词和短语(词组)的构成类型

合成词和短语(词组)的构成类型一、合成词的结构类型合成词是由两个或两个以上语素构成的词。

合成词可分为以下几种结构类型。

1、并列式:由两个意义相同、相近、相关或相反的语素并列组合而成。

如:朋友、东西、矛盾、痛苦、身心、国家、清白、是否。

2、偏正式(定中式:定语+名词):如:小说、动物、红旗、绿叶、黑夜。

3、偏正式(状中式:状语+动词):狂欢、跃进、前进、后退4、动补式(动词+补语)说明、提高、看透5、动宾式(动词+名词、代词)作文、理发、睡觉、爬山6、主谓式:年轻、地震、日食、天亮、心痛7、附加式(前缀式):老师、阿爸、老鼠、小姨、小子、阿Q8、附加式(后缀式):石头、桌子、花儿、学者、绿化、西化9、重叠式:人人、月月、家家,表示“一个一个”、“每一个”。

说说、写写、走走,表示“试做一下”悄悄、轻轻、缓缓,表示程度的加强。

10、名量式:人口、车辆、布匹、房间、信件二、短语的构成类型(一)功能类短语1、名词短语:风花雪月(名+名)英雄的母亲(定+名)天空中(名+方位)卖报的(的字结构)2、动词短语:调查研究(动+动)讨论问题(动+宾)说清楚(动+补)慢慢地写(状+动)会解释(能愿动词+动)3、形容词短语:雄伟壮丽(形+形)慢一些(形+补)十分恐怖(状+形)(二)结构类短语1、并列式:工农兵/真善美/提高或降低/2、定中式:(定语+名词):崇高理想/中国人民/特别优秀/绿色奥运3、状中式:(状语+动词):迅速发展/开创未来/勤奋学习4、动补式(动词+补语):说得好/讲清楚、5、动宾式(动词+名词):热爱祖国/喜欢学习/学习语文6、主谓式:会议结束/奥运闭幕、7、介宾式:为了祖国/关于文学革命8、连动式:上街买书/开门出去/听了很难过9、兼语式:请他来/让你高兴10、的字式:我的/说书的11、方位式:心里/大海边/南北之间12、同位式:首都北京/天才音乐家聂耳/我们仨13、固定式:北京师范大学/东一榔头西一棒槌/胸有成竹/你一言我一语(三)成语的构成。

英语合成词的构成

英语合成词的构成

合成词
英语中很多单词是通过合成的方式构成的,他们叫做合成词,常见合成词有合成名词、合成动词、合成形容词等几种类型。

1.合成名词
名词+名词: football足球
名词+动词: snowfall 下雪
名词+动词-ing : horse-riding骑马
名词+介词+名词: daughter-in-law儿媳
动词-ing+名词: waiting-room候车室
形容词+名词: greenhouse温室
副词+名词: income收入
介词+名词: afternoon下午
过去分词+副词: grown-up成年人
2.合成动词
名词+动词: water-cool用水冷却
形容词+动词: quick-charge快速充电
副词+动词: outact行动上胜过
3.合成形容词
名词+形容词: world-famous世界文明的
名词+动词-ing : peace-loving热爱和平的
名词+过去分词: heart-broken伤心的
动词+副词: takeaway外卖的
形容词+名词: long-distance长途的
形容词+形容词: dark-blue深蓝色的
形容词+过去分词: new-born新出生的
副词+形容词: color-blind色盲的
副词+动词-ing : hard-working勤劳的
副词+过去分词: well-known著名的
数词+名词: first-class头等的
数词+名词+形容词: ten-year-old十岁大的数词+名词+ed : three-cornered三角的
介词+名词: indoor 室内的。

初中英语常见合成词构成法总结

初中英语常见合成词构成法总结

初中英语常见合成词构成法总结
1. 名词+名词:表示关系、组织或特定概念的词汇。

例如:worldwide(全球的)、notebook(笔记本)
2. 名词+形容词:用形容词来修饰名词。

例如:greenhouse(温室的)、blackboard(黑板上的)
3. 名词+动词:表示物执行其中一种动作的词汇。

例如:bookshelf (书架上的)、sunflower(向阳的)
4. 名词+副词:表示物具有其中一种特定性质或态度的词汇。

例如:loudspeaker(大声的)、hardworking(勤奋的)
5. 形容词+名词:用名词来修饰形容词。

例如:darkroom(黑暗的房间)、roundtable(圆桌的)
6. 形容词+动词:表示物具有其中一种特定特征的词汇。

例如:drivethrough(可自驾通行的)、sleepwalking(梦游的)
7. 动词+名词:表示物执行其中一种动作的词汇。

例如:breakfast (吃早餐时的)、copybook(抄写的)
9. 副词+形容词:用形容词来修饰副词。

例如:well-known(广为人知的)、far-off(遥远的)
10. 数词+名词:表示物具有其中一种数量特征的词汇。

例如:threestar(三星级的)、two-door(双门的)
以上只是初中英语常见合成词构成法的总结,实际上还有很多其他的构成法,需要根据具体语境去理解和记忆。

考研合成词汇总

考研合成词汇总

, 水平, 平航线, 行,)垒, 印迹, 印刷向下; 在; 躯干, 多少土地, 场地一个人; 一, 场所末, 中午; 协助; 掌, 狡诈, 船路途, 路线, 东西; 事; 邮件; 邮, 情况, 案水合物; 氢, 一天, 甲板;; 人; 人, 变得,; 人; 人, 任命,, 场所, 伙伴, 同, 富裕
, 零件, 局路途, 路线在哪里平常的; 躯干日光, 日子, 东西; 事, 背面; 后, 哆嗦一个人; 一, 镇, 市, 方面, 侧; 场所,; 光亮; 光线, 时代, 线, 航线, 甲板;
, 兜帽, 遮
, 到达, 来, 线, 航线
, 摆; 出, 到达, 来
, 涌出
form
v.ground n. 土地, 场地警方
要点
航线, 行,
工艺, 路线,

球,
去,

人类,
杰作; 名著放
杰出的, 未付的,
点,
路线,
杰作; 名著
杰出的, 未付的, 突出的
保镖。

合成词

合成词

第一册Highway 高速公路worldwide 普遍的understand 理解Suitcase 手提箱第三册roller coaster过山车Catfish 鲶鱼rosebud 玫瑰花蕾whichever无论哪个Earthquake 地震mushroom 蘑菇whoever无论谁Farmyard 农场businessman 商人craftsman工匠Mankind 人类nightfall 黄昏freeway高速公路Lifestyle 生活方式pineapple菠萝armchair扶手椅Paperwork 文书工作shellfish 贝类birthplace出生地Spaceship 太空船courtyard庭院dustbin 垃圾箱Superhero 超人cowboy 牧童flashlight 手电筒Superman 超人windsurfing风帆滑浪forgive 原谅Bridegroom 新郎over-fishing过度捕捞greengrocer 蔬菜水果店Outline 轮廓iceberg冰山handkerchief 手帕Headline 大标题schoolboy男生handwriting 手迹Easy-going 好相处的whirlpool漩涡headmaster 校长Southeastern 东南的shopkeeper店主headphone 手机Northwestern 西北的snowboarding单板滑雪mailbox 邮箱Warm-hearted 热心的snowrafting雪橇滑降mobilephone 手机第二册bungeejumping蹦极motherland 祖国Ballroom 舞厅footprint脚印necklace 项链Breakdance 霹雳舞platform站台outdoors 户外Broadcast 广播timetable时刻表outgoing 外向的Chinatown 唐人街Northwest西北popcorn 爆米花Download 下载Southeast东南salesgirl 售货小姐Eyesight 视线crossroads十字路口schoolmate 同学Eyewitness 目击者underwater在水下secondhand 二手的Fairytale 童话present-day当今的self-employed 自己经营的Homeland 家乡up-to –date最近的sightseeing 观光Hairstyle 发型landmine地雷software 软件Laptop 手提电脑worthwhile 值得做的somehow 以某种形式Landlord 地主outspoken直言不讳的spokesman 发言人Network 网状系统punchline妙语strawberry 草莓Passer-by 路人wornout磨损的;筋疲力尽的textbooks 课本Seaside 海边overcome克服trollerbus 手推车Skyscraper 摩天大厦underdog弱者well-off 富有的Sunshine 日光snowstorm暴风雪widespread 流传甚广的Throughout 到处outstanding出色的Anyhow 无论怎样pancake 薄煎饼Wildlife 野生动物Bathtub 澡盆Washroom 洗手间Peacock 雄孔雀第五册Sunglasses 太阳镜Pineapple 菠萝Airline 航线Housewife 家庭主妇Postcode 邮政编码Shortcoming 缺点Part-time 部分时间的Forehead 前额Forever 永远Timetable 时间表Typewriter 打字机Mankind 人类Backwards 向后地Postage 邮费Outstanding 杰出的Worthwhile 值得努力的Outbreak 爆发Firework 烟火Nationwide 全国的Countryside 乡下Sightseeing 观光Flashback 闪回Meanwhile 同时Cupboard 橱柜Nosebleed 流鼻血第六册Masterpiece著作Greenhouse 温室Database 数据库Spaceman 宇航员Thunderstorm暴风雨Rainbow 彩虹Byproduct 副产品Breakthrough 突破Drawback 缺点Hoarfrost 白霜Videophone 可视电话Landscape 景色Overweight 超重的Skateboard 滑板滑行Withdraw 取回Bad-tempered坏脾气的Alongside在旁边Sun burnt晒黑的Sideways 向一边Straightforward直接的第七册Haircut 理发Overhead 头顶上的Teamwork 协作Outcome 后果Eyebrow 眉毛Overview 概要Barbershop 理发店Radioactive 放射性的Update 更新Caveman 穴居人Outspoken 直言的Headline 大标题Soundtrack 声迹Deadline 截止日期Airmail 航空邮件Framework 框架Household 家庭的Flashlight 手电筒Overboard 越过船舷进入水中Seaside 海边Fingernail指甲Meantime同时eaweed海草Offshore近海的第八册Landslide 滑坡Rainfall降雨量Skyscraper 摩天大楼Warehouse 仓库Statesman 政治家Bandage绑带Firework烟火Roundabout环岛Shoplifting商店盗窃Furthermore此外Seagull海鸥Mainland大陆Soundproof 隔音的Fortnight 两星期Oilfield 油田Underpants内裤Undertake着手做Moreover此外Aircraft飞机Nowhere无处Somehow无论怎样Cheekbone颧骨Percentage百分比Breakthrough突破Courtroom院子Teapot茶壶Seashell海贝壳Arrowhead 箭头。

基于《汉语语义构词数据库》的D+A双音合成词研究

基于《汉语语义构词数据库》的D+A双音合成词研究
[ ] e u i L T e T a s a o ’ s I v i i i y 【 ] L n o &N w 3V n t, .h r n 1 tr n i b 1t M . od n s e
Y r : R ut e g ,1 9 . o k o d e 9 1 5
我 们 知 道 , 表 抽 象 事 物 的 词 比 表 具 体 事 物 的 词 难 理
解 , 所 以本 文 首 先 锁 定 了D 字 位 为 研 究 对 象 。而 数 据 库 统 类
向现 实 进 发 的 过 程 中 ,随 着 人 们 越 来 越 频 繁 地 使 用 ,其 词
方 式 。 卖 家 发 布 一 些 超 低 价 格 的 商 品 , 所 有 买 家 在 同 一 性 由最 初 的 形 容 词 发 展 为 兼 属 形 容 词 和 动 词 ; 在 动 词 这 一 时 间 网上抢 购 ,以此 促 销 的 网店就 被 称 为 “ 杀 店 ” 。 秒
语 言应 用研 究
基于 《 汉语语义构词 数据 库 》的
D+ A双音合 成词 研 究
口雷 蕾
摘 要 : 以 汉 语 语 义 构 词 数 据 库 》 为基 础 ,采 用 定 性 和 定 量 相 结 合 及 演 绎 与 归纳 相 结 合 的 方 法 ,对 数据 库
中语 义类 为D 类和A 类的字位所构成 的双音பைடு நூலகம் 成词进行研究 ,得 出D A + 构成 的双音合成词 的义类分布情况 、特点及
而 是 采 用 异 化 法 来 体 现 网 络 流 行 语 的 特 色 , 让 英 语 读 者 来 束 ,它 还将 如 何 发 展 ,我 们会 拭 目以待 。
体 会 其 内在 含 义 。 “ 婚 ” ( a e w d i g 裸 n k d e d n )则 体 现 了另

英文中常见的合成词(非常有用)

英文中常见的合成词(非常有用)

A:连字符主要有两大功能:第一,用于移行,把不在同一行的某个单词,由它连接起来;第二,它能把两个或两个以上的单词连接起来,构成新的形容词性合成词。

本文就连字符的第二功能,作一简略介绍。

1.由形容词+(名词+ed)构成的合成形容词,如:a kind-hearted woman 一个心地善良的人a simple-minded young man 一个头脑简单的年轻人a left-handed person 一个左撇子a narrow-minded man 一个心胸狭窄的人an old-fashioned machine 一台老式机器有时,数词或名词+(名词+ed),也能构成合成形容词,如:a two-faced fellow 一个两面派的家伙a three-cornered hat 一顶三角帽2.由形容词或副词+分词构成的合成形容词,如:a good-looking boy 一个帅小伙a new-born baby 一个新生婴儿a badly-lighted room 一间光线昏暗的房间a well-meaning proposal 一条善意的建议有时,名词+分词也能构成合成形容词,如:peace-loving people 热爱和平的人民a man-eating society 一个吃人的社会state-owned factories 国营工厂learner-centered approach 以学员为中心的教学法3.由名词、形容词或副词+形容词构成的合成形容词,如:a snow-white wall 一堵雪白的墙color-blind children 色盲的儿童dark-blue ink 深蓝色墨水ever-green bushes 常青灌木林4.由形容词、数词+名词构成的合成形容词,如:a long-distance telephone call 一次长途电话a high-pressure reactor 一个高压反应堆an eight-cylinder engine 一台八汽缸发动机a first-rate teacher 一位一流的教师5.由不同短语构成的合成形容词,如:a life-and-death struggle 一场生死搏斗a down-to-earth spirit 求实精神an out-and-out lie 彻头彻尾的谎言an out-of-the-way mountain village 一个偏僻的山村a face-to-face talk 一次面对面的谈话up-to-standard products 符合标准的产品6.有时候,作者在表达一个意思时不拘形式,比较随便。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

现代汉语合成词结构数据库刘云俞士汶朱学锋摘要本文主要介绍了北京大学计算语言学研究所开发的现代汉语合成词结构数据库,并从未登录词的识别和为对外汉语教学研究提供依据这两个方面探讨了现代汉语合成词结构数据库的应用。

关键词现代汉语合成词结构数据库Construction of the Contemporary Chinese Compound Words Database and its ApplicationAbstract In this paper the authors offer an introduction to the contents and use of the compound words database of contemporary Chinese constructed at Peking University.The paper also includes an introduction to the application of the word formation database.KEYWORD Contemporary Chinese,Compound Words, Construction,Database1.引言为研究现代汉语复合词的构造规律和未登录词的识别,北京大学计算语言学研究所针对《现代汉语语法信息词典》中的所有双音节和三音节词,开发了一个现代汉语合成词结构数据库。

这项工作与《现代汉语语素库》都是对《现代汉语语法信息词典》的补充。

自1986年以来,北京大学计算语言学研究所和中文系合作,历时十余载,于1995年底研制出了《现代汉语语法信息词典》,其规格说明书全文发表在1996年第2期《中文信息学报》上,更详细介绍这部词典的专著《现代汉语语法信息词典详解》于1998年4月由清华大学出版社出版。

(俞士汶等1998)并于1998年研制出《现代汉语语素库》,这些都在汉语信息处理领域发挥了重要的作用。

(俞士汶等1999)《现代汉语语法信息词典》共收入51696个词语,其中单音节词3803个,双音节词32711个,三音节词7926个,四音节词7220个。

由于单音节词没有内部结构,四音节词暂时还没有考虑,所以数据库的登录项实际上是在《现代汉语语法信息词典》中的40637个双音节词和三音节词中选择的。

由于单纯词(460个)是一个整体无法再进行结构分析,人名(75个)、地名(462个)对研究现代汉语汉语的构词规律作用不大,所以该数据库把这三类词排除在外。

这样现代汉语合成词结构数据库实际登录的词共有39370个。

(为称说方便,以下简称构词库)本文将介绍这个构词库的主要内容及其应用。

2.合成词构造的属性描述对于一个词语可从两个方面考察,如果从这个词语的整体而言,则可考察其外部功能;如果从这个词语的局部而言,则可考察其内部构造。

就现有的研究成果来看,学者们把目光更多地投向了外部功能,诸如词语的词性考察,句法功能的考察等等。

对于词语的内部构成的考察则显得门庭冷落。

难怪张旺熹、崔永华两位先生在总结了对外汉语教学语法研究所取得的成就之后,指出了尚存的不足,其中的第一个方面就是“语素、构词及语段研究严重缺乏”,并指出“加强汉语语素和构词研究是推动对外汉语教学发展的需要”。

(张旺熹、崔永华1999)由此可见,不仅中文信息处理界对语素和构词研究极为重视,对外汉语教学界对语素和构词研究也极为关注。

但自从陆志韦等著的《汉语的构词法》出版后,语言学界对词语的构造始终未能给予足够的关注,尚没有更大规模、更深入的研究成果问世。

值得欣慰的是,清华大学计算机系建立了一个大规模的汉语语素数据库,并且在汉语语素库的基础上建立了汉语构词知识库。

(苑春法、黄昌宁1998)这是一种从下往上的研究方式,我们采取的是一种从上往下的研究方式。

我们是在已有的《现代汉语语法信息词典》的基础上,采用相应的标记集对汉语的构词方式进行研究,而且还对构词的层次进行了分析。

要完整地描述词语的构造,就需标出整个词语的结构性质和词语组成部分的性质。

如对于定中式的名词而言,可以是“名+名”(如“铁路”“信纸”)、“形+名”(如“温泉”“红旗”)、“动+名”(如“燃料”“刊物”)、“数+名”(如“八股”“千金”)、“代+名”(如“他人”“何处”)等,如果不标出词语组成部分的性质,那么这种描述就不够精细。

同样对于“动+动”结构而言,可以是联合式(如“斗争”“转折”)、述宾式(如“罢教”“挨打”)、连动式(如“听写”“截获”),也可以是状中式(如“迁就”“捐助”)、述补式(如“推翻”“打倒”),可见如果不标明整个词语的结构性质,那么这种描述也是不够精细的。

所以构词库对每个词语组成部分的性质和词语的结构性质都作了详尽的标注。

对于词语组成部分的性质,我们主要是依据组成部分的语素在合成词中的作用来标明语素的语素类。

如读“song1”的“松”在“松树”中,是树的名称,起名词性作用;“松”在“疏松”、“松软”等词语中是“松散”义,起形容词性作用。

语素在复合词中的作用可用“替换法”进行检测。

之所以说“松”在“松树”中起名词性作用,是因为“松”可用“桃”替换,得到的“桃树”与“松树”都是树,属于同一语义范畴,“桃”是名词,故可推断这里的语素“松”也是名词。

又之所以说“松”在“疏松”、“松快”等词语中起形容词性的作用,是因为“疏松”中的“松”可用“软”替换,“松快”的“松”可用“轻”替换,词义基本不变,而“软”“轻”都是形容词性的,故可推断“松”起形容词性作用。

这样就可以给合成词中的语素分类,起名词性作用的就叫“名语素”,在“前字”和“后字”字段中就填为“n”;起动词性作用的就叫“动语素”,在“前字”和“后字”字段中就填为“v”,如此等等。

(可参见俞士汶等1999)对于整个词语的结构性质,我们首先把合成词分为附加式、复合式、重叠式和简称四大类,然后在每个大类下面再细分成各种小类。

附加式分为前接式、后接式两小类;复合式分为联合式、连动式、定中式、状中式、述宾式、述补式、补充式、主谓式等八小类;简称可分为缩减式和标数式两小类。

为填写方便,一律使用简称。

“前”代表“前接式”,“后”代表“后接式”,“联”代表“联合式”,“连”代表“连动式”,“定”代表偏正式的“定中结构”,“状”代表偏正式的“状中结构”,“述”代表“述宾式”,“补”代表“述补式”,“充”代表“补充式”,“主”代表“主谓式”,“重”代表“重叠式”,“缩”代表“缩减式”,“数”代表“标数式”。

此外,对于三音节合成词还进行构词层次上的分析。

可分为三种情况。

第一种是1+2模式,如多媒体、单音节等;第二种是2+1模式,如消费品、救济粮等,这种模式还包括一种比较特殊的情况,即前两个字分别修饰第三个字,如“白矮星”中的“白”和“矮”分别修饰“星”,“左右手”中的“左”和“右”分别修饰“手”,在层次上也看作“2+1”模式;第三种是1+1+1模式,如短平快、高精尖等,这种模式还包括三个字之间的关系不容易确定的情况,如“安理会”是“安全理事会”的简称,简称后“安”与“理”不能组合,同样“理”与“会”也不能组合(这与动词性的“理会”不同),这种情况在层次上也看作“1+1+1”模式。

双音节合成词的儿化不作为三音节词,如“挨个儿”是“挨个”的儿化,所以对这类词不进行层次分析。

当然,如果三字词中的“儿”不是用来儿化的,还是应当分析其层次,如名词性的“早产儿”等。

同样三音节词的儿化仍作为三音节词,如“疤瘌眼儿”仍需进行层次分析。

按理说,四字词也应进行整体结构性质、组成部分的性质和层次的标注,但考虑到本项研究主要是针对中文信息处理中的未登录词的识别和复合词的构造规律,所以暂时没有对四字词进行进一步的标注。

3.构词库的各个字段现在的构词库共有40637个记录,每个记录有如下几个字段(其中的词语、读音、词类、同形、义项、备注这几个字段是利用的以前的成果):词语:《现代汉语语法信息词典》中的两字词和三字词。

读音:词语的拼音。

用1,2,3,4,5分别表示阴平、阳平、上声、去声和轻声。

词类:词语所属词类的代码。

同形:词类相同的同形词中,拼音不同后者词项不同的,分别标上A、B、C;词项相同而义项不同的,则填1,2,3;字母与数字同时存在时,则将字母置于数字之前,如A1、A2、A3、B1、B2、B3等。

构词:词语的结构类别。

义项:简单释义。

如对于同形字段中填1的“板栗”为“植物”,同形字段中填2的“板栗”为“果实”。

备注:用语举例或作其他说明。

如对于“板眼”,此字段填了“他~多/很有~”。

层次:用于描写三音节词的构造层次。

前字:用于描写双音节词的前字的所属的语素类。

语素类主要有名语素n,形容语素a,动语素v,副语素d,助语素u,前接成分h等等。

后字:用于描写双音节词的后字的所属的语素类。

语素类主要有名语素n,形容语素a,动语素v,副语素d,助语素u,后接成分k等等。

4.构词库的应用现代汉语构词库的开发无论是对本体研究,还是对应用研究都将起到推动作用。

限于篇幅,本文仅谈构词库对中文信息处理中的未登录词的处理和在对外汉语教学中的应用这两个方面。

4.1未登录词的识别中文信息处理中无可避免的未登录词是自动切分和词性标注中的瓶颈之一,不妥善地解决未登录词问题而进行机器翻译和信息提取都不会取得较理想的效果。

有了构词库后,就可以把构词库与以前做的语素库结合起来识别未登录词了。

语素库中的每个语素都标明了语法属性,构词库中的每个词都标注了构成的方式。

这样对于一个未登录词就可以从两个方面确定其语法属性。

首先,从整个两字词的构成模式入手。

可以利用构词库提取出汉语的所有的构词方式和频率,也就是把词类、构词、前字和后字这四个字段链结起来进行匹配,经初步检索共得到构词模式200多种,当然这其中有的数量比较多,有的数量比较少。

这里的构词模式是综合了词类、构词、前字和后字四个字段之后得到的,如“a联aa”(昂贵、矮小)就是指词类字段为a,构词字段为“联”,前字字段为a,后字字段为a的构词模式;又如“v 述vn”(昂首、拔河)是指词类字段为v,构词字段为“述”,前字字段为v,后字字段为n 的构词模式。

最常用的几种构词模式有如下几种:a联aa(1175个),n定nn(9570个),n 定an(3324个),n定vn(1534个),n联nn(1559个),n后nk(594个),n联vv(307个),v联vv(3114个),v述vn(2300个),v状vv(619个),v述vv(540个),v补vv (561个)。

从统计数字可以看出各种词类的主要构词模式,如双音节的形容词共有2147个,“a联aa”这种模式就占了1175个,约占54.73%;双音节的名词共有19367个,其中“n 定nn”这种模式占了9570个,约占整个名词的49.41%,“n定an”模式占了3324个,约占17.16%,“n联nn”模式占了1559个,约占8.05%,“n定vn”占了1534个,约占7.92%,“n后nk”模式占了594个,约占3.07%“n联vv”模式占了307个,约占1.59%,这五种模式合起来占整个名词构成模式的87.20%;双音节的动词共有8894个,其中“v联vv”模式3114个,约占35.01%,“v述vn”模式2300个,约占25.86%,“v状vv”模式619个,约占6.96%,这三种模式合起来占整个动词构成模式的67.83%。

相关文档
最新文档