Knowledge_Graph_Construction

自动化知识图谱构建项目

总体任务：完成自子任务并撰写Markdown文档实现。

1、【数据爬虫】完成一个高效的爬虫，自动遍历新闻网站的文章和下载，需要具备出现异常不中断、自动重试、接入数据库管理爬取记录、正文提取的功能。

2、【知识抽取】设计一个高效的框架，以分词-词性标注-匹配的传统“规则”方法实现知识的挖掘，完成基本框架+20条高质量规则最多5分，每10条额外高质量规则1分。

项目整体流程为：

数据爬取今日头条的各类新闻文章 -> 分词+词性标注 -> 基于人为设置的规则进行匹配 -> 得到 (头实体, 关系, 尾实体)的三元组知识 -> 知识存储

可运行demo.py，查看整体流程效果

python demo.py

这边录制了一个动图展示实际运行效果： https://picbed.octalzhihao.top/img/test.gif

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
framework		framework
new_spider		new_spider
.gitignore		.gitignore
README.md		README.md
demo.py		demo.py

Provide feedback