语言与信息联通世界
那些助力英文语料库的标注利器:解锁CLAWS 和 USAS
发布日期:2024-12-05浏览次数:0
构建语料库之路,CLAWS、USAS 来相助~
当你想要创建一个自己的语料库时,语料处理环节可谓重中之重。在语料对齐之后,根据自己的研究目的,也可对之进行标注,使检索更具有目的性。最近,小编在语料库的浩瀚天地中寻觅到两款语料标注的得力助手,不用下载软件,操作简单还免费,快和小编一起来看看吧!
语音标注、词性标注、句法标注、语义标注、语用标注、情感标注等。现在,语料标注一般由机器+人工的方式进行,可以最大程度上提高效率并保证准确度。
今天,小编就为大家详细介绍两款在线英文语料标注工具——CLAWS和 USAS。

CLAWS (Constituent Likelihood Automatic Word-tagging System)专注于词性标注工作。它能够对文本中的每个单词自动分配相应的词性标签,例如名词、动词、形容词、副词等,准确率可达96%-97%。我们可以免费访问最新版本的标记器CLAWS 4。
CLAWS采用了基于概率统计的方法来进行词性标注。它借助大规模语料库预先训练出单词与词性之间的概率模型。当面对新的文本时,软件会根据这个模型计算每个单词可能对应的词性概率,然后选取概率最高的词性作为标注结果。例如,对于单词 “run”,它可能是动词 “跑” 的意思,也可能是名词 “跑步”,CLAWS会依据上下文语境以及概率模型来确定其最有可能的词性。
首先进入CLAWS官网
https://ucrel.lancs.ac.uk/claws/,
点击”Free
CLAWS WWW tagger”。
可到达图1-2界面,也可直接进入该网址
https://ucrel-api.lancaster.ac.uk/claws/free.html
①最多可以输入10万词的英文运行文本。
②可选择C5或C7标签集,C5格式相对简洁,使用的标签集规模较小,主要关注比较基础和常见的词性类别;C7格式则更详细,除了基本词性外,还会对一些特殊的词类或者词的语法功能进行细分。例如,对于动词,可能会进一步区分及物动词、不及物动词、助动词等。
③可选择三种输出样式,水平、垂直及伪XML样式。
④将干净的语料文本粘贴进入方框内后,点击“Tag text now”,就可得到词性标记后的内容。
⑤如需清除方框内的所有内容,可点击“Reset form”,一键清除。
以《西游记》开篇阐述道教宇宙观的文字为例,将其粘贴进入CLAWS词性标注工具方框内。
译文:We heard that, in the order of Heaven and Earth, a single period consisted of 129,600 years. Dividing this period into twelve epochs were the twelve stems of Zi, Chou, Yin, Mao, Chen, Si, Wu, Wei, Shen, Yu, Xu and Hai, with each epoch having 10,800 years. Considered as the horary circle, the sequence would be thus: the first sign of dawn appears in the hour of Zi, while at Chou the cock crows; daybreak occurs at Yin, and the sun rises at Mao; Chen comes after breakfast, and by Si everything is planned; at Wu the sun arrives at its meridian, and it declines westward by Wei; the evening meal comes during the hour of Shen, and the sun sinks completely at Yu; twilight sets in at Xu, and people rest by the hour of Hai. (余国藩版,第1卷,第99页)
首先,我们对比一下选择C5和C7格式输出结果
分别对照CLAWS5和CLAWS7格式可知,PNP指personal pronoun (e.g. you, them,ours);PPIS2指1st person plural subjective personal pronoun (we),由此可见,CLAWS7格式分类更加详细精确。
CLAWS5和CLAWS7的标签集网址在此附上
UCREL CLAWS7 Tagset:
https://ucrel.lancs.ac.uk/claws7tags.html
UCREL CLAWS5 Tagset:
UCREL CLAWS5 Tagset (lancs.ac.uk)
以下是三种输出格式的对比:
USAS(UCREL Semantic Analysis System)致力于语义标注任务。能够对文本中的单词或短语赋予特定的语义标签,有21大类语义标注框架。通过语义标注,我们可以深入挖掘文本背后所传达的语义信息,实现对文本语义层面的理解与分析。同样也有免费版供我们使用。
与CLAWS类似,USAS同样基于大量的语料进行人工标注和分析,构建起语义标签与单词、短语之间的映射关系。然后,当处理新的文本时,软件会根据已有的映射规则以及文本的上下文信息,为文本中的元素确定合适的语义标签。
进入USAS官网
https://ucrel.lancs.ac.uk/usas/,
点击”English tagger demo”。
与CLAWS词性标记工具类似,USAS语义标记工具同样最多可以输入10万词的英文运行文本,可输出三种不同格式。
同样以上文提到的《西游记》英译选段为例,粘贴进USAS语义标注工具内,以下为三种不同的输出格式对比。
通过对比我们发现,横向输出方式只显示最可能的语义标记;垂直输出方式会给出多个语义标记的可能性,并按可能性大小依次排列;伪XML输出方式不仅给出对应的语义标记,还给出了详细的词性标注。