Knowledge Graph & NLP Tutorial-(BERT,spaCy,NLTK)
NLP处理阶段 词法:切分为token uneasy” can be broken into two sub-word tokens as “un-easy”. 句法:1.检查句子结构有问题与否;2.形成一个能够体现词间句法关系的结果 eg: “The school goes to the boy” 语义:语义是否正确 semantic analyzer would reject a sentence like “Hot ice-cream” Pragmatic :歧义,中选择一个意思 知识图谱 存储提取的信息的一种方式。存储结构一般包括:a subject, a predicate and an object(主谓宾) 这些技术用于构建知识图谱 sentence segmentation, dependency parsing, parts of speech tagging, and entity recognition. 抽取实体 从句子中抽取主语和宾语,需要特殊处理的是复合名称和修饰词。 抽取关系 从句子中提取“主要的”动词 完成此二者之后便可进行知识图谱的构建,构建时最好将每个关系单独构建一个图谱,这是为了更好可视化。 BERT 适用于少数据集,question answering and sentiment analysis 任务 ...