AirKiss 库文件使用指南

AirKiss 库文件使用指南
AirKiss 库文件使用指南





AirKiss库文件使用指南  WIFI模组如何实现AirKiss、内网发现 

发布时间:2015-08-11

版本:2.2

版本记录 

作者  发布日期  版本  备注 

Zorrowu 2015-02-05 0.1 初稿,对应AirKiss库版本0.8

Zorrowu 2015-02-09 0.2 添加资源占用详情,增加路由器测试结果 Zorrowu 2015-02-12 1.0 确定发布版本,增加airkiss_version()接口 Zorrowu 2015-03-31 1.1 完善文档,添加流程图,Q&A

Zorrowu 2015-06-08 1.2 更新Q&A

Zorrowu 2015-06-30 2.0 增加解析手机数据包的算法和微信内网协议说

明,切换信道后增加清缓存接口

Oscarxie 2015-07-02 2.1 文档格式、样式更新

Zorrowu 2015-08-11 2.2 airkiss_change_channel参数说明错误修订 

评审记录 

评审人  评审时间  评审内容  评审意见 

Zorro 2015-07-02 全部文档

目标读者 

WIFI芯片开发人员,WIFI模块调试人员,微信内网发现、近场扫描开发人员  

目录 

1. 什么是AIRKISS?技术  .........................................................................  1 1.1 A IR K ISS技术使用场景 . (1)

1.2 A IR K ISS技术应用实例 (1)

1.3 微信内网发现协议的应用场景 (3)

1.4 A IR K ISS技术的优势 (3)

2. AIRKISS库组成结构介绍  .....................................................................  4 2.1 A IR K ISS库文件组成 (4)

3. AIRKISS库使用流程说明  .....................................................................  5 3.1 设备平台能力要求 (5)

3.2 A IR K ISS库使用说明 (6)

3.3 A IR K ISS库调用流程图 (7)

3.4 A IR K ISS库内网发现功能使用说明 (8)

3.5 A IR K ISS库内网发现功能调用流程图 (9)

4. AIRKISS库使用示例  ..........................................................................  11 4.1 内网发现功能实现示例 (18)

5. 注意事项  ............................................................................................  24

6. 实验测试结果  .....................................................................................  26

7. Q&A  .................................................................................................  27

1.什么是AirKiss?技术 

AirKiss是微信硬件平台提供的一种WIFI设备快速入网配置技术,要使用微信客户端的方式配置设备入网,需要设备支持AirKiss技术。目前已经有越来越多的芯片和模块厂商,提供了支持AirKiss技术的方案。 

1.1AirKiss技术使用场景 

AirKiss主要在如下场景中使用: 

1.待接入互联网的设备不具备输入输出能力,如空调、空气净化器、烟雾报警

器等。 

2.用户不具备通过设备热点的方式进行配置的能力,如老人、家庭主妇等缺乏

相关IT知识的用户人群。 

1.2AirKiss技术应用实例 

以智能插座为例,下文将说明AirKiss技术的应用方案和交互流程。智能插座属于物联网智能控制类设备,它可用于家电(比如电灯、热水器等)的智能化开关控制。智能插座的特点是小型化且低功耗,显而易见,该设备并不适合于配置屏幕与键盘等输入外设。在这种情况下,AirKiss技术能完美解决其SSID与密码的传输、设置问题。 



图1  AirKiss配置设备联网示意图 



AirKiss技术对应用设备的硬件几乎没有额外的要求,配置时需要设备能够进入AirKiss模式。在本例中,智能插座在按下了配置按键之后,指示灯闪烁进入AirKiss模式,成为了AirKiss技术中信息的接收方。用户则可以使用微信手机客户端,成为AirKiss技术中的信息发送方。 



图2  微信中使用AirKiss操作界面 



用户使用Air  K iss的交互流程如下: 

1.用户按下智能插座上的配置按键,AirKiss指示灯闪烁,智能插座进入信息

接收状态。 

2.用户打开微信手机客户端,进入设备的联网配置界面(设备厂商开发的

HTML5页面),唤起AirKiss的SSID与密码发送界面,当前无线网络环境下无线路由器的SSID已经默认选中,用户只需要填写密码,然后点击发送即可。 

整个AirKiss过程将在15秒内完成。 

1.3微信内网发现协议的应用场景 

    为了提供更好的用户体验,微信制定了一套内网发现协议并集成到了微信客户端内,只要设备实现了该内网协议并运行,就能被微信客户端所发现和绑定。AirKiss库目前已经集成了该内网协议,开发者可以不需要了解内网协议的详细细节,只需要按照下文所描述的流程调用即可。 

1.4AirKiss技术的优势 

相比其它配置方式,AirKiss技术有着以下几个显著的优势: 

1.用户可以使用最为熟悉的微信客户端来操作入网配置,无需下载额外的第三

方软件即可。 

2.用户无需首先将设备配置为热点模式并连接,在配置模式下可直接将无线路

由器的SSID发送至设备。 

3.信息传输安全,AirKiss支持AES-128加密,密钥可以由厂家自行设定。 

2.AirKiss库组成结构介绍 

2.1AirKiss库文件组成 

AirKiss库由以下文件组成:  

airkiss.h: 

    AirKiss库头文件,要使用AirKiss功能必须包含该头文件,主要定义了相关参数结构体及AirKiss库函数接口,AES加密功能启用宏也在该文件中。  libairkiss.a: 

不带AES加密功能的AirKiss静态库文件,如果厂家不需要AES加密功能则可使用本静态库,占用的资源比带AES功能的静态库更少,使用本静态库记得关闭airkiss.h中的AES加密功能宏。 

libairkiss_aes.a: 

支持AES加密功能的AirKiss静态库文件,如果厂家需要使用AES加密功能则需要链接本静态库,占用的资源相对libairkiss.a较多,使用本静态库记得开启airkiss.h中的AES加密功能宏。 

libairkiss_log.a: 

在libairkiss.a的基础上添加了log打印,可以用于debug。  libairkiss_aes_log.a: 

    在libairkiss_aes.a的基础上添加了log打印,可以用于debug。  

注意:airkiss.h需要添加到头文件路径中,libairkiss.a和libairkiss_aes.a只需要使用其中一个,根据具体需要选择,并设置好airkiss.h文件中的AES加密功能宏,出于安全考虑,建议使用AES加密功能的AirKiss静态库。 

3.AirKiss库使用流程说明 

3.1设备平台能力要求 

无法满足以下软件及硬件能力要求的设备或模块将无法使用AirKiss功能。 

硬件能力要求: 

1、能够切换信道; 

2、具备定时器功能,能够提供100ms的定时中断; 

3、能够设置为混杂模式,接收802.11网络帧; 

4、提供一种进入AirKiss模式的控制方式,例如一个按键; 

软件能力要求: 

1、能够提供类似标准memset函数的功能函数; 

2、能够提供类似标准memcpy函数的功能函数; 

3、能够提供类似标准memcmp函数的功能函数; 

4、能够提供至少232字节的全局缓冲空间(完成AirKiss后用户可

用于自己的应用程序或进行释放); 

5、带AES功能的静态库文件大小为32KB,不带AES功能的静态

库文件大小为13KB,实际链接以后占用资源不同,以ESP8266平

台为例,实现不带AES功能的AirKiss要占用2304字节,实现带

有AES功能要占用5456字节。以上统计包括实现AirKiss功能外

部逻辑函数代码。 

3.2AirKiss库使用说明 

使用AirKiss库实现AirKiss功能的流程如下(#include "airkiss.h"):  1、创建AirKiss全局缓冲区:airkiss_context_t akcontex;如果平台支

持malloc等动态内存申请,也可以通过动态申请的方式申请空间,完成AirKiss流程或超时(超时时长用户可以自定,建议30~40s)以后进行释放;  2、为AirKiss库配置与平台相关的接口函数结构体,可以为静态const类型,

下面示例中的函数都为标准C库中对应的函数名,如果平台没有该函数需要把平台实现相同功能的函数名填上,其中最后一项为打印函数,可以填0,其他为必填项,否则调用airkiss_init()接口会返回失败: 

const airkiss_config_t akconf = {

(airkiss_memset_fn)&memset,

(airkiss_memcpy_fn)&memcpy,

(airkiss_memcmp_fn)&memcmp,

(airkiss_printf_fn)&printf }; 

3、调用AirKiss初始化接口,接口参数为前两步创建的变量地址: 

ret = airkiss_init(&akcontex, &akconf);

如果ret返回值小于0则表示初始化失败,通常为参数错误,等于0为成功,如果用户在一次AirKiss的流程中想重新开始新流程,需要通过调用该接口实现。 

4、如果airkiss.h文件中开启了AES的宏并且链接了libairkiss_aes.a

静态库,则需要调用设置密钥接口,  key可以为局部变量: 

airkiss_set_key(&akcontex, key, strlen(key));



图3  代码示例 

5、完成以上初始化流程以后就可以开启100ms定时器,在定时中断函数中依

次切换信道; 

6、设置模块为混杂模式,接收802.11网络帧,每收到一帧数据,将数据起始

指针和数据长度传递给airkiss_recv()接口,并判断该接口的返回值,

如果返回AIRKISS_STATUS_CHANNEL_LOCKED则表示信道已经锁定了,需要关闭定时器停止切换信道,如果返回AIRKISS_STATUS_COMPLETE则表示AirKiss完成可以调用airkiss_get_result()接口读取参数,其他值可以不用进行处理,具体实现可以参考下一章节的使用示例。 

3.3AirKiss库调用流程图 

设备端调用AirKiss库实现AirKiss功能的流程图如下所示: 



图4  AirKiss工作流程示意图 

3.4AirKiss库内网发现功能使用说明 

微信内网发现功能与AirKiss是两个相对独立的模块,两者没有依赖关系,使用AirKiss库实现微信内网发现功能的流程如下(#include  "airkiss.h"): 

1、为AirKiss库创建与平台相关的接口函数结构体,可以为静态const类型,

下面示例中的函数都为标准C库中对应的函数名,如果平台没有该函数需要把平台实现相同功能的函数名填上,其中最后一项为打印函数,可以填0,其他为必填项,也可以复用在AirKiss流程中创建的变量: 

const  a irkiss_config_t  a kconf  =  {   

(airkiss_memset_fn)&memset,   

(airkiss_memcpy_fn)&memcpy,   

(airkiss_memcmp_fn)&memcmp,   

(airkiss_printf_fn)&printf  }; 

2、根据使用的平台自行创建UDP,对12476端口进行监听,ip地址不限制; 

3、将从12476端口接收到的数据包传给airkiss_lan_recv(const  void*  body, 

unsigned  short  length,  const  airkiss_config_t*  config)函数,body为UDP消息体数据的起始指针,length为数据的有效长度,config为第1步创建的变量,函数的返回值在头文件中进行了定义,这里暂时只需要处理返回AIRKISS_LAN_SSDP_REQ的情况,对于其他值用户可以选择打印出来方便调试; 

4、在上一步接收到AIRKISS_LAN_SSDP_REQ结果后,设备需要向数据包的发

送发回复响应包,即以数据包的源IP和源端口为目的IP和目的端口,响应包可以通过调用airkiss_lan_pack(airkiss_lan_cmdid_t  ak_lan_cmdid,  void*  appid,  void*  deviceid,  void*  _datain,  unsigned  short  inlength,  void*  _dataout,  unsigned  short*  outlength,  const  airkiss_config_t*  config);函数实现打包,ak_lan_cmdid为要打包的类型,appid为厂商公众号ID,deviceid为设备ID,_datain为要发送的数据,inlength为发送数据的长度,_dataout为打包后的数据缓冲区,outlength为缓冲区的空间,函数成功返回后将赋值为数据包的实际长度,config为第1步创建的变量,示例:airkiss_lan_pack(AIRKISS_LAN_SSDP_RESP_CMD,  "gh_27098xx","BD5D7xx",  0,  0,  l an_buf,  &lan_buf_len,  &akconf);因为响应包不需要其他数据,所以输入数据和长度都设置为0; 

5、airkiss_lan_pack返回AIRKISS_LAN_PAKE_READY后表明数据包打包完成

了,数据存放在第4步示例中的lan_buf中,有效数据长度为lan_buf_len,接下来用户根据使用的平台将数据通过UDP的方式发送给对方即可。  6、通过前面的步骤实现的是一问一答的服务发现模式,设备也可以直接向网络

发送上线通知数据包,无需等待前面提到的请求包。上线通知包的目的IP为255.255.255.255,目的端口为12476,消息包可以通过调用airkiss_lan_pack()函数生成,示例:airkiss_lan_pack(AIRKISS_LAN_SSDP_NOTIFY_CMD, 

"gh_27098xx","BD5D7xx",  0,  0,  l an_buf,  &lan_buf_len,  &akconf);函数返回AIRKISS_LAN_PAKE_READY后将数据通过UDP的方式发送到网络上即可。 

3.5AirKiss库内网发现功能调用流程图 

设备端调用AirKiss库实现内网发现功能的流程图如下所示: 



图5  内网发现工作流程示意图 

 







4.AirKiss库使用示例 

本小节将以ESP8266为示例平台,介绍如何利用AirKiss库实现AirKiss功能,完整的代码如下: 

//平台相关头文件

#include"ets_sys.h"

#include"driver/uart.h"

#include"osapi.h"

#include"ip_addr.h"

#include"user_interface.h"

//包含AirKiss头文件

#include"airkiss.h"

//当前监听的无线信道

uint8_t cur_channel = 1;

//用于切换信道的定时器,平台相关

os_timer_t time_serv;

//AirKiss过程中需要的RAM资源,完成AirKiss后可以供其他代码使用airkiss_context_t akcontex;

//另一种更节省资源的使用方法,通过malloc动态申请RAM资源,完成后利用free释放,需要平台支持

//示例:

//airkiss_context_t *akcontexprt;

//akcontexprt =

//(airkiss_context_t

*)os_malloc(sizeof(airkiss_context_t));

//定义AirKiss库需要用到的一些标准函数,由对应的硬件平台提供,前三个为必要函数

const airkiss_config_t akconf =

{

(airkiss_memset_fn)&memset,

(airkiss_memcpy_fn)&memcpy,

(airkiss_memcmp_fn)&memcmp,

};

/*

* 平台相关定时器中断处理函数,100ms中断后切换信道

*/

static void time_callback(void)

{

//切换信道

if (cur_channel >= 13)

cur_channel = 1;

else

cur_channel++;

wifi_set_channel(cur_channel);

airkiss_change_channel(&akcontex);//清缓存

}

/*

* airkiss成功后读取配置信息,平台无关,修改打印函数即可

*/

static void airkiss_finish(void)

{

int8_t err;

uint8 buffer[256];

airkiss_result_t result;

err = airkiss_get_result(&akcontex, &result);

if (err == 0)

{

uart0_sendStr("airkiss_get_result() ok!");

os_sprintf(buffer,

"ssid = \"%s\", pwd = \"%s\", ssid_length = %d,

"pwd_length = %d, random = 0x%02x\r\n",

result.ssid, result.pwd, result.ssid_length,

result.pwd_length, result.random);

uart0_sendStr(buffer);

}

else

{

uart0_sendStr("airkiss_get_result() failed !\r\n");

}

}

/*

* 混杂模式下抓到的802.11网络帧及长度,平台相关

*/

static void wifi_promiscuous_rx(uint8 *buf, uint16 len) {

int8_t ret;

//将网络帧传入airkiss库进行处理

ret = airkiss_recv(&akcontex, buf, len);

//判断返回值,确定是否锁定信道或者读取结果

if ( ret == AIRKISS_STATUS_CHANNEL_LOCKED)

os_timer_disarm(&time_serv);

else if ( ret == AIRKISS_STATUS_COMPLETE )

{

airkiss_finish();

wifi_promiscuous_enable(0);//关闭混杂模式,平台相关}

}

/*

* 初始化并开始进入AirKiss流程,平台相关

*/

void start_airkiss(void)

{

int8_t ret;

//如果有开启AES功能,定义AES密码,注意与手机端的密码一致

const char* key = "Wechatiothardwav";

uart0_sendStr("Start airkiss!\r\n");

//调用接口初始化AirKiss流程,每次调用该接口,流程重新开始,akconf 需要预先设置好参数

ret = airkiss_init(&akcontex, &akconf);

//判断返回值是否正确

if (ret < 0)

{

uart0_sendStr("Airkiss init failed!\r\n");

return;

}

#if AIRKISS_ENABLE_CRYPT

//如果使用AES加密功能需要设置好AES密钥,注意包含正确的库文件,头文件中的宏要打开

airkiss_set_key(&akcontex, key, strlen(key));

#endif

uart0_sendStr("Finish init airkiss!\r\n");

//以下与硬件平台相关,设置模块为STATION模式并开启混杂模式,启动定时器用于定时切换信道

wifi_station_disconnect();

wifi_set_opmode(STATION_MODE);

cur_channel = 1;

wifi_set_channel(cur_channel);

os_timer_setfn(&time_serv, (os_timer_func_t

*)time_callback, NULL);

os_timer_arm(&time_serv, 100, 1);

wifi_set_promiscuous_rx_cb(wifi_promiscuous_rx);

wifi_promiscuous_enable(1);

}

/*

* 硬件平台初始化,与AirKiss库使用无关

*/

void ICACHE_FLASH_ATTR

user_init(void)

{

uart_init(115200, 115200);

system_init_done_cb(start_airkiss);

} 



下面对上面的示例代码进行分析: 

文件开头定义并初始化了一些与AirKiss功能相关的全局变量: 



图6  代码示例 

ESP8266平台的入口函数为user_init(void),在该函数中只是初始了一下串口,并注册一个回调函数start_airkiss(),SDK完成初始化后会调用该函数。在该函数中将创建的变量的地址作为参数传递给了airkiss_init(),并判断该函数的返回值是否正确,接着判断airkiss.h头文件中是否开启了

AES加密功能,如果开启的话需要调用airkiss_set_key()设置一下密钥,该密钥要跟手机等发送AirKiss数据的设备保持一致。到这里AirKiss库的初始化就完成,下面开始是跟平台相关的初始化,主要有两个任务: 

一、设置一下要监听的信道,示例代码设置为信道1,同时启动一个定时器,定时器周期为100ms,定时时间到了以后会自动重载; 

二、设置模块为STATION模式(AP模式能够抓到包也可以),并开启混杂模式,注册了一个混杂模式收包的回调接口: 



图7  代码示例 

定时器中断处理函数代码如下,每次进到中断函数判断一下当前信道是否超出范围,如果是则重置为第1个信道,否则累加: 



图8  代码示例 

收到802.11网络帧以后的回调函数处理代码如下,将收到的数据起始指针和长度传递给airkiss_recv()函数,并判断该函数的返回值,如果返回

AIRKISS_STATUS_CHANNEL_LOCKED则关闭定时器,停止切换信道,用户也可以通过一个开关变量来实现,如果返回AIRKISS_STATUS_COMPLETE则表示AirKiss已经完成,可以读取SSID、密码和随机数了,本示例自定义了一个airkiss_finish函数来实现,读取完参数以后可以关闭混杂模式,如果用户没有关闭混杂模式,并且收到包以后继续调用airkiss_recv()函数的话,该函数同样会返回AIRKISS_STATUS_COMPLETE,除非用户重新调用一次airkiss_init()函数: 



图9  代码示例 

自定义的airkiss_finish()函数如下,在该函数内定义了一个局部变量airkiss_result_t result,然后通过airkiss_get_result()接口读取结果,如果返回成功,则通过平台提供的打印函数对数据进行序列化打印,最后输出到串口: 



图10  代码示例 

示例代码调试输出数据内容如下所示: 



BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

CNKI系列数据库应用指南.doc

CNKI数据库检索应用方法 1.登录数据库 登录https://www.360docs.net/doc/7b2302001.html,,凭机构用户登录帐号、密码或IP自动登录。 对于学校用户,可以先进入图书馆首页,从电子资源列表中选择“中国知网数字图书馆”或者《中国期刊全文数据库》等CNKI数据库,进入检索首页。 2.下载安装全文浏览器 如果您是第一次使用CNKI的产品服务,那么您需要下载并安装CAJViewer7.0,才能看到文献的全文。CNKI的所有文献都提供CAJ文件格式,期刊、报纸、会议论文等文献还同时提供PDF文件格式。我们推荐您使用CAJ浏览器,速度更快,针对学术文献的各种扩展功能更强。点击首页上方的“下载阅览器”,点击下载后,运行软件包,根据提示进行相应选择和安装浏览器。 在此下载CAJ阅览器登录区 3. 具体检索方法——检索、导航、知网节 读者要获取自己所需要的知识和文献,可通过以下三种途径: 途径一:检索——查 目标:最快、最方便地查到所有需要的信息。减少人工操作时间和系统等待时间;减少人工挑选的时间。 CNKI知识搜索是以学术文献为搜索内容的搜索引擎,搜索范围包括期刊文献、学位论文、会议论文、报纸文献、工具书、年鉴等。包括全文搜索、工具书搜索、数字搜索、学术定义搜索、图形搜索、翻译助手等诸多功能,简单易用,实现实时的知识聚类、多样化的检索排序和最丰富的知识链接。

单库检索 在CNKI 系列数据库中的任一单独的库内检索。 单库检索设置有初级检索、高级检索和专业检索三个界面,用户可根据检索条件与检索技术水平选择其中的一个界面操作。具体方法参照下文跨库检索中的介绍。 跨库检索 读者可选择多个数据库的资源进行检索,能够在同一个检索界面下完成对期刊、学位论文、报纸、会议论文、年鉴等各类型数据库的统一跨库检索,省却了原来需要在不同的数据库中逐一检索的麻烦。 跨库检索也包括初级检索、高级检索、专业检索三种方式: ◇初级检索:读者登陆CNKI 跨库检索首页后,输入检索词即可进行初级检索,读者也可以点击数据库名称,进入单库检索。 ◇ 高级检索:提供检索项之间的逻辑关系控制,如检索“题名=图书馆学”并且/或者/不 包含“作者=文庭孝”,将检索出关于图书馆学、作者是(非)文庭孝的文章。如果要提高查准率,则可以添加多个逻辑关系,进行多种的检索控制,如相关度排序、时间控制、词频控制、精确/模糊匹配等,适合于对检索方法有一定了解的人。 简洁方便的文献及知 识元搜索,直接获取埋藏在文献中的知识 打勾选择所要检索的数据库 检索项选择 在框内输入检索词,点击“检索“按钮,即呈现检索结果

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册 许家金 中国外语与教育研究中心 、访问及登录 访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。 图:主界面 、功能概要 按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。 ()在线生成语料库的词频表(); ()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果; ()计算特定词语在语料库中的典型搭配(); ()计算语料库中的核心关键词(),等。

、使用实例 标准查询模式 在简单查询模式()下,可输入单词、短语等进行检索。 图:语料库查询界面 图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。 新查询,返回语料库检索首页 查询结果随机抽样 频数分解、分解频数 查询结果的分布展示 查询结果排序设定 搭配计算 下载保存查询结果 (随机取样),比如,可从万行结果中,随机抽取行。 (频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。 图:动词查询(频数分解)结果示例 :按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图:语料库中"lov.*"的分布情况()

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

万方数据库使用指南【模板】

万方数据库使用指南 万方数据资源系统由科技信息子系统、数字化期刊子系统以及商务信息子系统构成。 科技信息子系统 科技信息子系统是中国唯一完整的科技信息群。汇集科技文献、科研机构、科技成果、科技名人、中外标准、政策法规等数百种数据库,信息总量达1100多万条,每年数据更新60万条以上,为科技工作者、高校师生提供最丰富、最权威的科技信息。主要包括:《中国科技成果库》、《中国学位论文库》、《中国学术会议论文库》、《中国国家标准》、《中国科技文献库》等。 数字化期刊子系统 数字化期刊目前已集纳了理、工、农、医、人文等5大类的2000多种科技期刊,实现了全文上网,主要有:中华医学会系列杂志、大学学报、中国科学系列杂志、科学普及期刊等。 商务信息子系统 商务信息子系统包括工商咨询、经贸信息、成果专利、咨询服务等服务内容,其主要产品《中国企业、公司及产品库》至今已收录96个行业近20万家企业的详尽信息,成为中国最具权威性的企业综合信息库。内容主要包括中国企业公司及产品数据库、经贸信息。 科大图书馆已经建立《万方数据资源系统》镜像站点,数据月更新,校内任何一台网络计算机都可通过校园网,免费检索数据库、浏览数字化期刊全文。建议用户使用IE4.0以上的网络浏览器。显示、下载全文,需先安装“Acrbat全文浏览器”。 一、进入检索界面 由图书馆主页的“电子资源”栏目下链接万方数据库或输入镜像站点网址http:/210.45.210.3:85/ ,进入《万方数据》镜像主页,再根据需要选择相应的子系统进入即可。 二、科技信息子系统及商务信息子系统检索方法: 1.选择数据库:进入相应栏目资源总览区直接点击选取数据库,如选择学术会议数据库; 2.确定第一个关键字的检索方式:在数据库检索提问表单的第一个字段选择列表框中按下拉箭头选择;比如选择“标题”; 3.输入第一个检索关键词(字):在数据库检索提问表单的第一个查询关键字框中输入关键词(字),比如“电机” 4.确定词间关系:在逻辑运算选择列表框中选择“与”、“或”、“非”,比如选择“与”; 5.确定第二个关键字的检索方式:在第二个检索字段列表框中做出选择,比如选择“全文”; 6.输入第二个检索关键词(字):在数据库检索提问表单的第二个查询关键字框中输入关键词(字),比

北京语料库检索使用说明

北京语料库检索使用说明 首页 一关于CCL语料库及其检索系统 二关于查询表达式 2.1 特殊符号 2.2 基本项 2.3 简单项 2.4 复杂项 2.5 过滤项 2.6 子句 2.7 查询表达式 三关于查询结果 四在结果中查找 五举例 一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括7个: | $ # + - ~ ! 这些符号分为三组: Operator1: | Operator2: $ # + - ~ Operaotr3: ! 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

数据库用户使用手册

目 录 1. 目的 (1) 1.1 阅读对象 (1) 1.2 如何使用本手册 (1) 1.3 相关文档 (1) 1.4 约定 (1) 2. 软件概述 (2) 2.1 功能和特点 (2) 2.2 新增特色 (2) 2.3 获取技术支持 (3) 3. 软件环境 (3) : rj - <项目名称> 用户使用手册 Version: 项 目 承 担 小 组: 撰 写 人(签名): 完 成 日 期: 评审负责人(签名): 评 审 日 期: 云南民族大学职业技术学

3.1 安装准备 (3) 3.2 硬件安装 (3) 4. 软件安装 (3) 5. 使用指南 (4) 5.1 概述 (4) 5.2 处理过程 (4) 5.2.1 XXXX.. 4 5.2.2 XXXX.. 4 5.3 出错处理 (4) 6. 附录 (5)

1. 目的 [说明本用户手册的编写目的。] [示例:“《用户手册》将向用户介绍TOP ABC 软件,并帮助用户迅速安装和运行该软件。通过本手册,您将学会如何使用视觉控制等崭新功能,并为您提供软件使用中遇到的问题的解决办法以及获得资源与帮助的渠道。” ] 1.1 阅读对象 [说明本手册的预期阅读对象。] [示例:“本手册的编写对象为期望通过Intranet 或Internet 进行动态数据操作的用户。手册中也为不太熟悉Internet 的用户提供了基本的教程。” ] 1.2 如何使用本手册 [说明本手册的阅读方法,要求针对不同类型的用户提供相应的使用指导。] [示例:“您既可按顺序阅读每一章,也可根据索引中的词条直接获得所需的信息。下表可以指导您使用本手册。] 1.3 相关文档 [说明与本手册使用相关的其他文档,包括名称、版本、与本手册的关系等。] [示例:“×××软件提供了纸制印刷文档(本手册)与多种在线格式的用户手册。在线用户手册内容更为完整和即时,如果本手册与在线用户手册有区别,您应按在线用户手册的说明进行操作。您可经常访问Web 站点: 1.4 约定 [说明有关本手册使用的一些约定,包括对用户了解相关知识的约定;本手册文字格式、图表含义的约定;有关本软件使用的惯用语法约定等。]

语料库检索程序concapp使用简介

Wikipedia:语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。百度百科:关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。 Concapp由香港理工大学虚拟语言学习中心发布,是一款针对语料库的检索软件,主要支持英语语料的处理,汉语和日语语料的处理不够理想。 Concapp在英文科技论文写作中,可以帮助我们了解其他文献(尤其是native speaker的论文)中一些词的用法。 使用: 1.concapp只能处理txt格式的文档,首先应将所用文献由pdf转为txt。 2.Concapp无需安装,直接双击exe文件(小于1M)即可运行。

3.单击菜单栏concordance选项,单击concordance search(F5)。 或直接单击菜单栏下的图标(图中标黑框)。 弹出对话框

其中Unicode是使用双字节对字符进行编码的统一码。一般选择ANSI,单击OK。 弹出对话框 对话框中,在Search string栏输入检索词。 File栏:Open是对打开的文件进行检索,Directory则是对目标文件夹中的文件进行检索。Search Option栏:Word/phrase: 搜索单词和短语,Prefix:搜索前缀,Suffix: 搜索后缀,Any string: 搜索出现在任何位置 例如,输入检索词efficiency。单击OK

弹出对话框 从中可以选择文件。可以选择一个或几个txt文档,或者单击最下面的Select all matching files,从而选中该文件夹中的全部txt文档。 弹出窗口

如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC) 一、绪言 语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。 语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。 二、网络语料库的运用 1.英语单语语料库 目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。如1亿词次的英语国家语料库(BNC)()和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www. Collins. https://www.360docs.net/doc/7b2302001.html,/corpus/CorpusSearch.aspx)。二者均是当今较权威的英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码(Part-of-speech tags)。这些在线检索提供通配符功能(wildcard)、连续和非连续的词组或搭配检索功能(word combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。

莫言作品_蛙_的语料库检索分析_陈婵

第5期总第128期 2014年9月浙江工商大学学报JOURNAL OF ZHEJIANG GONGSHANG UNIVERSITY No.5Vol.128Sep.2014收稿日期:2014-04-11 基金项目:国家社会科学基金项目 “英语学术论文语篇的话语策略研究”(13BYY157)作者简介:陈婵,女,浙江工商大学外国语学院讲师,主要从事语料库文体学和话语分析研究;程乐,男,浙江大学外国语言文化与国际交流学院教授、博士生导师,法律话语与翻译中心主任,主要从事语料库、符号学以及专门传意等研究,系本文通讯作者。 莫言作品《蛙》的语料库检索分析 陈婵1,程乐2 (1.浙江工商大学外国语学院,杭州310018;2.浙江大学外国语言文化 与国际交流学院,杭州310058) 摘 要:文章利用语料库检索软件Antconc ,对莫言的小说《蛙》从主题、故事情节和人物 形象塑造等方面进行了较为深入的分析。首先,利用Antconc 的主题词功能提取出主题词并进行归类,结果不仅印证了《蛙》的主题与计划生育密切相关,而且也反映出《蛙》与莫言其 他作品之间的延续性以及作品中乡土立场和人文立场的统一。然后,利用Antconc 的索引功 能对主要角色“姑姑”进行检索,对每一条检索结果根据其描述内容和情感倾向做了人工标 注并统计,分析结果显示,对“姑姑”的感情生活、容貌性情以及身世等方面看似与主题无关 的描写实际上对小说人物塑造、情节发展都起到了至关重要的作用。 关键词:语料库;莫言;蛙;主题词;检索 中图分类号:I06文献标志码:A 文章编号:1009- 1505(2014)05-0026-09A Corpus-based Analysis of Mo Yan's Novel Frog CHEN Chan 1,CHENG Le 2 (1.School of Foreign Languages ,Zhejiang Gongshang University ,Hangzhou 310018,China ; 2.School of International Studies ,Zhejiang University ,Hangzhou 310058,China ) Abstract :The present paper applies the corpus retrieval software ,Antconc ,to study Mo Yan's novel Frog from the per-spectives of theme ,plot ,and means of character shaping.The extracted keywords not only confirm the theme of Frog is closely related to family planning ,but also reflect the continuity between Frog and other works of Mo Yan as well as the unity of local standpoint and humanistic position in the novel.Furthermore ,by annotating manually all the retrieval results of the major role “Aunt ”according to their contents and emotional tendency ,the paper finds that the seemingly irrelative descriptions of aunt's love and family life ,appearance and temperament ,actually play a critical role in character shaping and plot development. Key words :corpus ;Mo Yan ;Frog ;key words ;retrieval

AntConc的详细使用说明

AntConc3.2.0的使用说明1 1.提取语境共现 1.1设置检索项 (1)单项检索 a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件 夹,可以选择open directory); b)在“Search Term”一栏键入要检索的词项,如go; c)在“Search Window Size”一栏设置每一共现行出现的词数; d)点击,开始检索。 检索结果如图 1.1所示: 图1.1单项检索结果 (2)多项检索 设置多项检索 除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。 例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes 1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。 其中限定范围的检索方法由香港城市大学 D.Lee博士提供,仅此致谢。

设置语境词检索 为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的 语境范围内出现。 例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项, 检索方法如下: a)在“Search Term”一栏键入a; b)点击“Search Term”旁的,进入“Advanced Search”界面, 如图1.2所示。点击“Use context words and horizons”,然后在“Context Words” 一栏键入of,点击。如要重新设置语境词,可先点击清除原来语境词, 后重复以上操作。另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右 图1.2 Advanced Search界面二位置,所以“Content Horizon”确定为,最后点击; c)回到语境共现的界面后,点击,开始检索。结果可提取 a lot of, a bit of 等词块。 设置多字语检索 在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适 合检索项数目较多的情况。 例:研究感官动词watch, sound, feel, hear, smell a)在TXT文本中键入所有要检索的词项,可多达250个词。然后为该文本起名保存。 需注意:键入的词项需以列的形式排列。如: feel

全文数据库简介及使用指南

CNKI全文数据库简介及使用指南 目录 一、CNKI数据库简介 二、CNKI操作指南 1、初次使用 2、单库检索 3、跨库检索 4、初级检索 5、高级检索 6、专业检索 7、文章下载 三、常见问题解答 一、CNKI数据库简介 中国知识基础设施工程,China National Knowledge Infrastructure,简称CNKI工程,是以实现全社会知识信息资源共享为目标的国家信息化重点工程,被国家科技部等五部委确定为“国家级重点新产品重中之重”项目。 CNKI工程于1995年正式立项。内容涵盖了我国自然科学、工程技术、人文与社会科学期刊、博硕士论文、报纸、图书、会议论文等公共知识信息资源;用户遍及全国和欧美、东南亚、澳洲等各个国家和地区,实现了我国知识信息资源在互联网条件下的社会化共享与国际化传播,使我国各级各类教育、科研、政府、企业、医院等各

行各业获取与交流知识信息的能力达到了国际先进水平。 CNKI全文数据库现已在我院建立本地镜像站点,该镜像站点内含《中国学术期刊全文数据库》、《中国优秀博硕士学位论文全文数据库》、《中国重要会议论文集全文数据库》、《中国工具书》四个子库。其中; 《中国学术期刊全文数据库》子库,是目前世界上最大的连续动态更新的中国期刊全文数据库,收录国内1979年至今约7000多种核心期刊与专业特色期刊的全文,所有文献按类分为理工A、理工B、理工C、农业、医药卫生、文史哲、经济政治与法律、教育与社会科学、电子技术与信息科等九大专辑,数据月更新。 《中国优秀博硕士学位论文全文数据库》子库:收录全国300家博士培养单位的优秀博/硕士学位论文,是目前国内相关资源最完备、高质量、连续动态更新的中国博硕士学位论文全文数据库,目前我馆已镜像有文史哲、政经法等社科专辑和图书馆专题的全文数据。 《中国重要会议论文集全文数据库》子库:收录我国1999年以来国家二级以上学会、协会、高等院校、科研院所、学术机构等单位的论文集。 《中国工具数据库》,镜像有常用的工具书109本。 进入CNKI全文数据库的方式:从学校的主页(https://www.360docs.net/doc/7b2302001.html,)进入,点击“图书资源”,进入图书馆主页,选择主页中的“中文电子期刊”下的“中国期刊网”(查询期刊全文)或“中外文电子图书”下的“中国优秀博硕士学位论文”(查询博硕士学位论文)进入。

基于语料库的《呼啸山庄》的检索分析

基于语料库的《呼啸山庄》的检索分析 随着语料库语言学的发展,越来越多的学者将语料库语言学融入文学作品进行研究。以往对于文学作品的研究,多以主观性的分析为主,而且局限于原文的部分词句,而语料库则能为文学作品的分析提供数据支持,而且可以对整体文本做出分析,从本质上弥补传统的文学作品研究的不足。《呼啸山庄》是世界文坛上不可多得的一枚瑰宝,对其进行的研究不胜枚举,但是从语料库视角研究《呼啸山庄》的文献却很少,因此,本文试图利用语料库文本检索软件AntConc3.2.4对文学作品《呼嘯山庄》文本的主题,情节等方面进行检索与分析。在运用语料库的同时也结合了以往传统的文学作品的研究方法,希望可以将两者有机结合,更好的研究分析《呼啸山庄》,帮助广大的读者更好的理解这部经典的文学作品。 标签:语料库,呼啸山庄,检索,分析 确定作品主题的可靠方法是提取主题词表。为进一步确定小说的主题,这里将《简爱》作为参照语料,打开AntConc的Tool Preferences窗口,选择Keyword List,并在Reference Corpus Options 处加载英文版《简爱》文本文件,点击Apply 按钮,回到AntConc主页面,选择Keyword List,点击Start按钮,便可得到主题词表,将“关键性”较高的主题单词进行归类整理,并在此基础上绘制分类主题词。 利用归类整理得到的行为者主题词可以得出此部小说的男女主角和次要角色,排名前三的人名依次是Heathcliff,Linton和Catherine。Linton是姓。File View 检索小说中有四个人的姓都是Linton(林敦先生,埃德加·林敦,伊莎贝拉·林敦,凯瑟琳·林敦),所以Linton的词频比较高,由此可以确认男女主角分别是Heathcliff和Catherine,而排在这两个人其后的人名分别是Hareton,Joseph,Earnshaw,Cathy,Edgar,Ellen,Nelly,Hindley,这些则是小说中的次要人物。 行为主题词,可以明显发现高频行为词主题词中,中性行为词(replied,answered,bid,settle,exclaimed)和消极性的行为词(crying,cried,muttered,compelled,weeping,sobbed)比较多,几乎没有积极性的动词(won)。描述类主题词大多都是消极意义的词(angry,worse,extremely,vexed,foolish,angrily,exceedingly),只有极少一部分是积极意义的词(young)。由此,可以明显看出相比《简爱》,《呼啸山庄》整体的语言风格呈现出沉闷,压抑,黑暗、恐怖、愤怒、复仇、爱恨交织的悲情氛围,将哥特式特征小说恐怖、神秘、超自然的描写风格淋漓尽致的表现了出来。 作者艾米莉·勃朗特在哥特式特征小说并不盛行的时期创作出这样优秀的作品,并被称为”奇书”,表现了其超人的写作天赋。作者不仅模仿了哥特式的写作风格,并且还对现传统风格有所突破,恐怖中反映现实,融合了现实元素,将哥特式特征小说发展到一个新的高度。《呼啸山庄》中除了哈里顿·恩萧与凯蒂在经历种种磨难后,最终结局还算不错,其他的人都经历了毁灭性的悲剧,所以,这

CCL使用说明书

一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个:| $ # + -~ ! : 这些符号分为四组:

Operator1: | Operator2: $ # + - ~ Operaotr3: ! Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项” 的定义见2.2) (1)| 相当于逻辑中的“或”关系。 (二)Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2)$ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3)# 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4)+ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5)- 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字 的范围内,-号右边的“简单项”不出现。 (6)~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字 的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7)! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。

相关文档
最新文档