4月16日,由清华大学金融科技研究院金融大数据研究中心主办、未央网联合主办、百融云创承办的“金融科技在线大讲堂”第六期成功举行。平安科技知识图谱技术团队副总工程师汪伟以“知识图谱原理、特性与金融业应用实践”为主题,从当前AI技术认知逻辑框架与局限、知识图谱的意义和实战应用分析三个方面带来精彩分享。以下整理来自嘉宾分享实录:
当前AI技术关于认知的逻辑框架与局限
在AI技术关于认知这个模块,从业者经常碰到诸如此类的问题,我们为什么要去做标注?为什么要喂大量的样本给机器?为什么机器得出来的结果是一个百分之多少的可能性?为什么样本量要足够大?如果不够大又会产生什么样的效果?这就要回到问题的原点,了解了背景,才能够明白底层的逻辑。
1.学习模式差异
第一个是学习模式的差异。学习模式主要有两种,一种叫外延式学习,另一种叫内涵式学习。现在所有的机器学习、数据挖掘和人工智能,都是基于外延式学习的。其优点是只需要告诉它事物明显的特征即可,不触及本质的内在结构,方便学习,成本很低。比如我们教小朋友认识事物,指着告诉他这是桌子,这是椅子就能懂了。但这种学习模式也有缺陷,就是在推广的时候有一些特殊情形,可能容易看错。内涵式学习,比如关于人的定义,古希腊说人是一种理性的动物,后来马克思说人是一切社会关系的总和。像这样的描述,的确触及到了事物的本质,但它不好的地方就是你把这个东西告诉计算机,它却没办法计算、没法工作。内涵式学习有一个很好的地方,就是定义清楚之后,它的泛化或者说推广能力非常强,这样的话只需要学很少的样本,它就可以推广出去。
2.推理模式差异
第二个是推理模式的差异。推理也有两种方式,一种是演绎推理,一种是归纳推理。演绎推理就是所谓的三段式推理。一个经典例子:人是要死的,苏格拉底是人,所以苏格拉底一定会死。注意一下最后的推理结论,它一定是一个确凿的,而不是概率性的结论。而归纳推理,比如说男生的头发通常是短的,张三的头发也很短,张三很可能是男生。最后的结论是一种程度的描述——很可能是男生,这个概率可能是70%,也可能是80%。但如果这个时候加一些描述,比如说张三穿了一件红色的衣服,戴了一副耳环,最后的结论就会发生变化,这是归纳推理所特有的性质。前面说的机器学习、人工智能和数据挖掘运用的都是归纳推理。在风险测量或者定价的时候,增加因子数量的多少,输入信息的变化会影响最终判断结果。
知识图谱技术的原理、特性
1.关联-从数据表到数据链
知识图谱有一个很重要的特性,就是关联。在现实工作生活中,无论做企业分析还是个人分析,都会涉及到数据表。比如去办事,会被询问身份证、手机号、姓名、年龄、生日等信息,这些信息是拿来做关联的。但这种关联本身有局限性,比如很多东西关联不上,或者说关联没那么紧密。这种情况下该怎么办呢?我认为随着5G的发展,我们将从“主键关联”迈向“万物互联”,即物与物、设备与设备之间的关联,进而演进为“万数互联”的形态。
为什么说万数互联是一种趋势,或者说万数互联有怎样的意义?一方面,关联面变大。举个例子,我们经常在新闻里听到面粉会发生粉尘爆炸,很少听到小麦会燃烧爆炸。这是由于小麦磨成面粉之后,它的表面积变化了,这个比表面积变化的量级是百倍级的,麦粒表面接触到的氧原子(在它磨成面粉之后)的接触面积变大了,导致物质的性质发生了质变——变得易燃易爆。另一方面,关联力度变细。比如说一家公司和另一家公司可能不会发生关联,但是公司和事件可以关联吗?事件和事件可以关联吗?这种关联在现有的表关联的结构体系中是很少出现的,但在知识图谱里他们可以被关联起来。
2.推理-从大数定理到逻辑完备性链条
我们现在的技术,所有的统计分析,基本上都是从大数定理或者中心极限定理来的。但这两个定理有一个前提条件,样本量要足够大。在做信贷审核的时候,分析个人信用都不成问题,因为个人信息很多。但是做企业信用评级就很麻烦,不同行业的差异性很大,要在里面找一些违约样本或者破产样本很难。这里我提出了一个数学公理和天文学原理。什么意思呢?天文学有一个非常重要的特征就是用极少的信息,来还原宇宙完整的真相。第二个特征就是天文学只是一次性的发生,比如说宇宙大爆炸就发生一次,它没办法反复做实验。如果只发生一次,也就是说有些样本只有一个,需要解决在这种情况下如何分析的问题——这就是天文学特有的分析方法论——模型嵌套思想。
3.从相关性到因果性强AI发展路径
现在所有的机器学习分析,数据挖掘也好,深度学习也好,其实都是基于相关性的角度去做工作,很少去讲为什么会这样?它的因果性是怎么样的?知识图谱或许能够回答这样的问题。
在因果分析里其实有三个东西,第一是相关性,比如说太阳升起和公鸡打鸣经常伴随发生的;第二个是干预,如果鸡多叫两声太阳是不是升得更快,或者是太阳升得更大?干预一个因素,导致另外一个因素有没有相关的变化?第三个是反事实推理,假设这个鸡不叫了,太阳是不是就不升起了?这是一个现实当中不会发生的想象事件,但是它存在一个逻辑。因果性的存在有很重要的原因,因为因果性非常符合人类大脑的工作框架,人很容易或者很习惯地去问为什么。
银行业的应用实践
企业客户关联图谱及风险画像
1)需求背景
2)设计思路
3)企业经营分析-全方位多维度的银行综合竞争力评价
4)企业经营分析-银行经营分析
5)展示形式