自动化知识图谱构建项目
总体任务:完成自子任务并撰写Markdown文档实现。
1、【数据爬虫】 完成一个高效的爬虫,自动遍历新闻网站的文章和下载,需要具备出现异常不中断、自动重试、接入数据库管理爬取记录、正文提取的功能。
2、【知识抽取】 设计一个高效的框架,以分词-词性标注-匹配的传统“规则”方法实现知识的挖掘,完成基本框架+20条高质量规则最多5分,每10条额外高质量规则1分。
项目整体流程为:
数据爬取今日头条的各类新闻文章 -> 分词+词性标注 -> 基于人为设置的规则进行匹配 -> 得到 (头实体, 关系, 尾实体)的三元组知识 -> 知识存储
可运行demo.py,查看整体流程效果
python demo.py这边录制了一个动图展示实际运行效果: https://picbed.octalzhihao.top/img/test.gif