摘要:中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如“美丽”与“贼眉鼠眼”的相似度为0.814 815,与“优雅”的相似度为O.788 360,“深红”与“粉红”的相似度仅为O.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
关键词:计算机应用;中文信息处理;知网;词语相似度;义原;词语极性识别
中图分类号:TP391
文献标识码:A
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
相关热词搜索: 语义 词语 改进 计算 知网上一篇:人生总得“爆发”一回