汉字结构部件问题

您好，我使用爬虫获取了汉字部件构造，为什么在weibo数据集resume数据集上都不能达到论文中所描述的结果？
weibo数据集上的f1值平均在0.59左右，resume数据集上f1值也只能在0.94-0.95。
还有个问题，数据集中存在繁体字，这部分没有匹配的汉字部件构造，原实验中是否对这部分也进行了拆分，会不会是因为这部分影响了实验的结果？