论文阅读04 知识图谱可视化查询技术综述
当前知识图谱可视化及可视化查询工作可以分为三个方面:
- 基于已有可视技术对知识图谱的可视化表示:用于辅助用户理解知识图谱
- 大规模知识图谱的可视化查询语言及查询系统:针对大规模数据的理解、查询和分析
- 知识图谱间的联合可视化查询分析:跨数据集的联合查询
1 知识图谱可视化
1.1 数据类型
多为一般图模型 $ G = (V, E)$ 的扩展形式:
RDF 图:有限个 $(s, p, o)$ 三元组的集合,$s$ 代表主语,$p$ 代表谓语,$o$ 代表宾语;
属性图:相较于一般图模型,为顶点和边增加了属性(键值对形式);
有向标签图:相较于一般图模型,顶点增加标签,属于特殊的 RDF 图;
异构信息网络图:相较于一般图模型,为顶点和边增加了一个对象或链接类型,类型总数超过1则可称作异构信息网络。
1.2 可视表达
基于节点-链接的可视技术:点或圆圈表示节点,边表示节点间链接,可利用颜色、半径等信息表示实体类型。此外还有根据胡克定律及库仑定律提出的力导向布局算法,通过赋予节点引力与斥力的方式让节点处于平衡状态,类似的模型还有 FR 模型、应力模型等。
基于邻接矩阵的可视技术:节点-链接的可视技术存在交叉重叠等难以避免的问题,而邻接矩阵可以有效规避此类问题,使数据更具备可读性。邻接矩阵图通过行列向量的交叉反应节点间关系,其可视化效果很大程度上受节点排序影响。邻接矩阵图缺点在于无法直观了解图的拓扑结构以及图中存在的隐含关系,不适用于路径匹配类的查询任务,在此基础上有混合布局邻接矩阵;结合桑基图、柱状图的多视图可视化系统;结合树的多变量图可视化系统等。
大规模知识图谱可视化技术:
目前已经有了大量公开发表的大规模知识图谱,如 WordNet、DBpedia、UnitProt、SciKG等,在这些数据集基础上,通过定义抽象层、不同布局模型等方式,可以构建相应的知识图谱可视化系统。
2 可视化查询
由于知识图谱没有统一数据模型,对于不同数据模型的知识图谱需要使用不同的查询语言。
SPARQL(SPARQL Protocol and RDF Query Language)是 W3C 制定的 RDF 知识图谱标准查询语言。
Cypher(Neo4j)和 Gremlin(Apache TinkerPop)是在属性图上的查询语言。
此外还有按例查询的 Query By Example(QBE) 方法,无需用户进行专业学习和训练。
2.1 知识图谱可视化查询语言
2.1.1 基于 RDF 图的可视化查询语言
RDF-GL:矩形和有向线段的组合构成基本查询模式,使用圆形表示 UNION、OPTIONAL运算符,将 COUNT、LIMIT 等操作符内置于矩形之中。不具备良好可学习性和可读性。
QueryVOWL:基于 SPARQL 和 VOWL,通过圆圈和有向线段的组合形成复杂查询模式,用矩形表示 RDF 图中的字面量,圆圈中的数字表示 COUNT 的查询结果。
KGVis:将中检结果存储在查询模式中,实现查询模式与查询结果间的双向转换。
2.2.2 基于属性图的可视化查询语言
属性图相较于 RDF 图在节点和边上内置了属性信息,在工业界广泛采用,但还未形成统一工业标准,近年来 LDBC 正在进行标准化工作。
V1:通过矩形和线段组合表示属性图的基本图模式,用颜色区分节点类别。不基于任意一种图查询语言,采用算数与逻辑运算符 &、||、X 而非采用某一特定查询语言中的 “AND” 等运算符。
2.2 知识图谱可视化查询系统
2.2.1 基于关键字的可视化查询系统
与搜索引擎的关键字查询类似,只需用户输入关键字即可查询,但由于实体于实体间往往不止一种关系,基于关键字的可视化查询系统使用并不广泛。
GQBE:以用户输入的实体元组作为关键字,计算实体元组构成的加权隐藏最大子图,通过计算查询结果与关键字的相似度对结果进行排序。
2.2.2 基于过滤的可视化查询系统
通过不断过滤用户的筛选条件反复细化查询结果,通常以实体或类型作为查询起点,适用于星型查询模式。
Grafa:预先查询并存储下一步查询结果,将不为空的关系或属性以选项的形式供用户进行选择。
2.2.3 基于模板的可视化查询系统
从 QBE 发展而来,不需要通过算法预测用户查询意图,也不同于基于过滤的查询方法只能支持简单星型查询。
VISAGE:通过子图匹配查询将查询结果可视化给用户。
VIGOR:在 VISAGE 基础上提出,在 DBLP 的共同作者知识图谱以及网络安全数据集上进行了实验。
生物信息可视化查询:通过矩形和有向线段的组合表示查询模式,QD 代表一直实体,TD 代表希望查询的结果。
ProvRPQ:交互式可视化正则路径查询工具。
SPARQLVis:交互式可视化查询工具,支持关键字、过滤、正则路径查询。
KG3D:运用 3D 可视化技术的交互式 3D 可视化工具。
2.3 本体的可视化查询
2.3.1 基于层次结构的可视化查询
Protégé:基于 JAVA 语言开发的本体编辑和知识获取软件,针对本体层次结构可视化。属性图和欧拉图是体现层次结构最佳的可视化模型。
2.3.1 基于非层次结构的可视化查询
Onto Plot:采用并主图为主要可视化方法,在保留本体主要层次机构的同时,对查询结果中涉及不到的节点进行视觉压缩,查询结果基本处于同一层次的高度,从而实现大规模本体数据上单非层次关联查询。
可视化查询技术对比总结
数据类型 | 可视化查询技术 | 优点 | 缺点 |
---|---|---|---|
知识图谱 | 基于 RDF 图的查询语言 | 有标准文本查询语言 SPARQL,有一定理论依据 | 不支持复杂图模式查询;可读性弱 |
基于属性图的查询语言 | 以逻辑运算为根本理论依据,表达力强 | 可学习性低 | |
基于关键字的查询 | 用户无需输入完整问题;满足用户对知识图谱背景知识的需求 | 查询准确率低;不支持复杂图模式查询 | |
基于过滤的查询 | 以关键字和类型进行查询;适用于星型查询和链式查询 | 不支持复杂图模式查询 | |
基于模板的查询 | 有较高可用性和可学习性;满足用户对知识图谱背景知识的需求;可根据需求找到合适的模板,查询准确率高 | 需要不断完善模板;不支持其他类型查询 | |
本体 | 基于层次结构的查询 | 能够有效展示本体数据中存在的层次关联;支持对多重继承复制概念 | 不支持非层次关联问题的查询 |
基于非层次结构的查询 | 支持对非层次关联问题的查询 | 不能保留本体中完整的层次结构;不能有效表达多重继承关系 |
3 领域知识图谱可视化查询
通用的可视化查询方法不能有效地针对各个领域的特定问题进行描述,因此针对领域的知识图谱可视化查询成为一项重要挑战。
应用包括:学术知识图谱可视化、社交网络可视化、网络空间安全可视化、生物信息领域可视化、电商领域可视化、社会舆情可视分析、地理空间数据可视分析、电网运行状态可视分析等等
4 未来研究方向
- 对已有的知识图谱数据模型设计统一的知识图谱可视化查询语言
- 将可视化前沿技术与知识图谱的数据模型结合,从而更好地展示知识图谱丰富的语义信息
- 对已有知识图谱可视化技术优化,以适配领域特定知识图谱可视化查询
- 针对大规模知识图谱数据,实现大规模知识图谱的高效可视化查询
- 针对知识图谱的领域特性,实现跨领域知识图谱间的联合可视化查询