那些助力英文语料库的标注利器:解锁CLAWS 和 USAS

发布日期:2024-12-05浏览次数:0

构建语料库之路,CLAWS、USAS 来相助~

当你想要创建一个自己的语料库时,语料处理环节可谓重中之重。在语料对齐之后,根据自己的研究目的,也可对之进行标注,使检索更具有目的性。最近,小编在语料库的浩瀚天地中寻觅到两款语料标注的得力助手,不用下载软件,操作简单还免费,快和小编一起来看看吧!

什么是语料标注?

语料标注是自然语言处理(NLP)领域中一个至关重要的过程。因为计算机本身无法像人类一样理解自然语言的丰富含义。通过标注,将文本的语法、语义等信息以机器可识别的方式呈现,从而使机器能够更好地处理文本相关的任务。
图片




语料标注类型

语音标注、词性标注、句法标注、语义标注、语用标注、情感标注等。现在,语料标注一般由机器+人工的方式进行,可以最大程度上提高效率并保证准确度。

今天,小编就为大家详细介绍两款在线英文语料标注工具——CLAWS和 USAS。

图片




工具介绍

1
CLAWS词性标注工具
1. 功能概述




CLAWS (Constituent Likelihood Automatic Word-tagging System)专注于词性标注工作。它能够对文本中的每个单词自动分配相应的词性标签,例如名词、动词、形容词、副词等,准确率可达96%-97%。我们可以免费访问最新版本的标记器CLAWS 4

2.工作原理




CLAWS采用了基于概率统计的方法来进行词性标注。它借助大规模语料库预先训练出单词与词性之间的概率模型。当面对新的文本时,软件会根据这个模型计算每个单词可能对应的词性概率,然后选取概率最高的词性作为标注结果。例如,对于单词 “run”,它可能是动词 “跑” 的意思,也可能是名词 “跑步”,CLAWS会依据上下文语境以及概率模型来确定其最有可能的词性。

3.页面介绍




首先进入CLAWS官网

https://ucrel.lancs.ac.uk/claws/

点击”Free CLAWS WWW tagger”。7103e5e396891cb200c44fe1a1c9771f

可到达图1-2界面,也可直接进入该网址

https://ucrel-api.lancaster.ac.uk/claws/free.html

c3305ad0fc74bcbac3c75dd2edfd4b54

①最多可以输入10万词英文运行文本。

②可选择C5C7标签集,C5格式相对简洁,使用的标签集规模较小,主要关注比较基础和常见的词性类别;C7格式则更详细,除了基本词性外,还会对一些特殊的词类或者词的语法功能进行细分。例如,对于动词,可能会进一步区分及物动词、不及物动词、助动词等。

③可选择三种输出样式,水平、垂直及伪XML样式。

④将干净的语料文本粘贴进入方框内后,点击“Tag text now”,就可得到词性标记后的内容。

⑤如需清除方框内的所有内容,可点击“Reset form”,一键清除。


4. 举例




以《西游记》开篇阐述道教宇宙观的文字为例,将其粘贴进入CLAWS词性标注工具方框内。

译文:We heard that, in the order of Heaven and Earth, a single period consisted of 129,600 years. Dividing this period into twelve epochs were the twelve stems of Zi, Chou, Yin, Mao, Chen, Si, Wu, Wei, Shen, Yu, Xu and Hai, with each epoch having 10,800 years. Considered as the horary circle, the sequence would be thus: the first sign of dawn appears in the hour of Zi, while at Chou the cock crows; daybreak occurs at Yin, and the sun rises at Mao; Chen comes after breakfast, and by Si everything is planned; at Wu the sun arrives at its meridian, and it declines westward by Wei; the evening meal comes during the hour of Shen, and the sun sinks completely at Yu; twilight sets in at Xu, and people rest by the hour of Hai. (余国藩版,第1卷,第99页)

首先,我们对比一下选择C5和C7格式输出结果

197a39814f7ddccc9d93bf26a5e8c6b3

9ccab3e5b06d1d4a1928ebfc68843f9d


分别对照CLAWS5和CLAWS7格式可知,PNP指personal pronoun (e.g. you, them,ours);PPIS2指1st person plural subjective personal pronoun (we),由此可见,CLAWS7格式分类更加详细精确

CLAWS5和CLAWS7的标签集网址在此附上

UCREL CLAWS7 Tagset:

https://ucrel.lancs.ac.uk/claws7tags.html

UCREL CLAWS5 Tagset:

UCREL CLAWS5 Tagset (lancs.ac.uk)

以下是三种输出格式的对比:

f59aed0f3b5a17f5d1f46dda44dd5ce3

f984be2261a494a632d7e5e7b56d1e47

f984be2261a494a632d7e5e7b56d1e47

78fbd71662f60b589a1037e97758f544

2
USAS语义标注工具


1. 功能概述




USAS(UCREL Semantic Analysis System)致力于语义标注任务。能够对文本中的单词或短语赋予特定的语义标签,有21大类语义标注框架。通过语义标注,我们可以深入挖掘文本背后所传达的语义信息,实现对文本语义层面的理解与分析。同样也有免费版供我们使用。4ff45ac5c85029654b5898ed2962d8f8

2.工作原理




CLAWS类似,USAS同样基于大量的语料进行人工标注和分析,构建起语义标签与单词、短语之间的映射关系。然后,当处理新的文本时,软件会根据已有的映射规则以及文本的上下文信息,为文本中的元素确定合适的语义标签。


3.页面介绍




进入USAS官网

https://ucrel.lancs.ac.uk/usas/,

点击”English tagger demo”。

ddee60449e7df65effc19a398de6d4b9f37b847b846cef7c1336bb466b2bbb6c

CLAWS词性标记工具类似,USAS语义标记工具同样最多可以输入10万词的英文运行文本,可输出三种不同格式。


4. 举例




同样以上文提到的《西游记》英译选段为例,粘贴进USAS语义标注工具内,以下为三种不同的输出格式对比。d0e29abba3edc9f03018cce2ce25ee63

406e24af8c3edd3a2ad4c06b3fdf3785

dedf98283ebc55188e1256abaac371d5

通过对比我们发现,横向输出方式只显示最可能的语义标记;垂直输出方式会给出多个语义标记的可能性,并按可能性大小依次排列;伪XML输出方式不仅给出对应的语义标记,还给出了详细的词性标注





服务热线

4001531538

扫一扫,微信咨询