Chinaledger技术委员会主任白硕:智能金融,你准备好了吗?

 
 

    编者按:

    一段时间以来,人工智能的概念又热了起来,这股热潮在金融领域也有很多表现。在历史上,人工智能曾经有过几波热潮和热潮之后的冷却期。在中国科学院大学金融科技研究中心主任、manbet-manbetx官网-manbetx董事长刘世平博士主编的《大数据在金融行业实用案例剖析》中,由Chinaledger技术委员会主任、前上海证券交易所总工程师白硕博士编写的《智能金融:你准备好了吗?》一文,将为读者回顾一下人工智能的冷热史,有助于我们正确认识眼下这股人工智能热的实质,开创智能金融的新局面。

    一、 人工智能历史

    (一)第一波热潮

    从1956年达特茅斯会议正式确立人工智能学科起,第一波热潮中的很多成果已经写进了教科书,包括能够进行线性分类的感知机、会自我学习的跳棋机、会跟人类东拉西扯的自然语言对话程序Aliza、会在积木世界中根据自然语言指令操纵积木块的SHRDLU系统以及号称适合人工智能编程的LISP语言等。从今天的角度看,除了LISP语言之外,这些系统充其量可以称之为玩具系统。终结这波热潮的杀手锏成果,是马文明斯基关于“异或”逻辑不可能用感知机实现的论断。此后,人工智能大体上结束了玩具系统的时代。进入低潮。

    (二)第二波热潮

    第二波热潮的缘起,归功于“专家系统”的部分成功。在医学、石油勘探等领域使用人类专家的领域知识和经验,将之在计算机内形式化表示并进行有限度的推理,取得了一定的进步,增强了人工智能脱离玩具时代、进入实用时代的信心。这种信心从美国跨越太平洋传播到日本,使日本的计算机科学界为之振奋,弄出了一个聚焦计算机逻辑推理能力的名为“第五代计算机”的庞大计划。我们不否认这个计划对于提振日本在计算机科学技术领域水平的重要作用,但从整体上说,这个计划是失败的,甚至可以说是学术领域的一个知名度很高、负面影响很广的巨大泡沫。随着机器推理能力的提升遇到计算理论上难以克服的本质性局限以及用传统思路处理以图像、语音的识别和自然语言理解等典型的所谓“非良定义问题”效果不佳的困扰,这个泡沫最终破裂,人工智能再次陷入低潮。

    (三)热潮原因

    这一波人工智能热潮的来袭,牵动了更加广泛人群的神经。在产业界,各种“大脑”、各种机器人项目比翼齐飞。在投资界,所谓“人工智能概念股”首次在资本市场登堂入室。在学术界,真脑、仿脑、电脑的研究者都认为自己对人工智能的话语权当仁不让。在传媒界,各种跟人工智能有关的八卦、科幻和过敏性恐慌耸人听闻。究其原因,一是硬件的进步使得机器的计算、存储、传输等性能均有了数量级的提升,仿神经器件的研制也有了突破性进展;二是算法的进步使得“深度学习”的方法大行其道,在让计算机获得图像、语音识别和自然语言处理等非良定义问题的模型方面有了实质性的进步;三是大数据的积累使得机器学习不再是无源之水无本之木,而成为了提升实用效果的主要依靠;四是神经科学、认知科学、生命科学甚至物理学的各路学者面对深度学习的成功全都不甘寂寞,纷纷将焦点和研究资源对准人工智能。


    (四)热潮表现


    “深度学习”方法促成计算机应对“非良定义问题”的能力全面提升,是最为要害的关键所在。什么是“非良定义问题”?

    总的说来,“非良定义”问题具有以下三个特点:(1)整体性。局部虽然不确定性较大,但这样的局部所组成的整体不确定性却相对较小。(2)主观性。局部的物理信号说了不全算数,不同个体之间存在着个体差异。(3)模糊性。模式之间不存在截然的边界,无法用公式、规则进行形式化定义,简单规则只能覆盖少数情形,其余则是各种“长尾”。

    用机器学习的方法应付“非良定义”问题,可以概括为在三个空间、三个阶段组合而成的九宫格,见下图:


    三个空间依次是问题空间、特征空间和解空间。其中,原始在问题空间表示,对问题的表示进行适合机器学习的转换和近似后进入了特征空间(一般是欧氏空间),问题的解则放到解空间表示。学习的三个阶段依次是建模、调参和运行。建模确定问题表示的一般框架,即问题“长什么样”;调参确定问题表示中的细节待定参数;运行则是学习结束后解决问题的程序。其中,建模需要较强的洞察力,而调参则可以在已有标注的样本数据基础上交给机器学习算法进行。

    从上面的分析不难看出,非良定义问题的解决,与良定义问题的解决相比存在一定的风险:建模有可能失真;采样有可能造成分布误差;标注可能有错误;学习有可能“过拟合”。但是,只要这些风险被控制在一定可容忍范围内,就不妨碍其结果的应用。人工智能的第三波热潮,主要地是依靠非良定义问题的解决方案达到了应用相对可容忍的成熟水平而兴起的。

    回顾历史是为了面向未来。为了更加直观地解释我们对人工智能未来的发展方向的预判,让我们先来看一下从“计算的难易程度”和“表示的清晰程度”两个维度绘制的“人工智能研究领域参考图谱”。


    从这张图上可以清楚地看到:人工智能第一波热潮,首先突破了左上角,也就是计算上相对容易、表示上相对清晰的一些“玩具系统”。人工智能第二波热潮,突破了计算上难度适中、表示上基本清晰的一些领域,如公式推导、专家系统、智能控制等,但在向左、向下两个方向都遭遇了瓶颈。人工智能第三波热潮,率先向右下角突破,使语音识别、图像识别和浅层自然语言理解达到了基本实用化的水平。剩下来难啃的骨头,在右下角有深层自然语言理解、情感与自我意识,在右上角有推理和规划,在中路有常识获取。我们的预判是:对于良定义问题,将以常识获取为枢纽从“硬算”转而向“巧算”做文章;对于非良定义问题,将更多地从浅层走向深层、从静态转向动态、从调参转向建模。基于欧氏空间的特征表示有可能进一步引入时序,使基于统计的方法和基于规则的方法达成新的统一和互补。

    二、金融领域智能应用


    (一)金融监管

    2016年我国股市出现了重大的异常波动的一个直接的起因就是高杠杆场外配资的崩盘。而场外配资发展到足以引发连锁反应的程度,包括交易所在内的核心机构对其规模缺乏及时的掌控和判断。从事后分析看,首先,涉及场外配资的账户和不涉及场外配资的账户,在交易行为模式上是有很大差异的。试想,如果采用人工智能特别是机器学习的大数据分析技术,对两类账户做出有意义的区分,从而动态掌握场外配资的人数规模和资金规模,我们就可以对平仓警戒线提前做出预判,避免踩踏现象的发生。其次,已经做大的场外配资业务,在舆情上已经有很多表现,拉配资的广告充斥网络,关于配资业务的包括杠杆率在内的各类细节描述铺天盖地。如果采用人工智能特别是自然语言处理、情感分析等技术,对场外配资业务在舆情上的表现及早进行分析处理,对已经接入配资的交易通道体现在舆情上的蛛丝马迹进行定向搜寻,我们就可以及早发现场外配资的业务模式和接入方式提前做出预判,赶在风险集中爆发之前打掉这个毒瘤。再有,现货和期货交易所之间存在着复杂的业务联动关系和套利模式,一些明显违规的程序化交易策略也都具体化为可追踪、可识别的微观执行模式。如果采用人工智能特别是时间序列深度分析技术,我们就可以对恶意做空势力实施高效识别和精准打击。所以,场内的历史数据、场外的非结构化数据以及跨交易所融合的实时交易数据如能充分利用起来,辅之以人工智能的手段,可以提高智能监管的水平,防患于未然。

    (二)金融非现场业务

    以开户为例,非现场开户具有很好的便捷性,可以大大提升用户体验。但是,远程“刷脸”被认为有较高信息安全风险,被监管部门叫停。其实,刷脸的最大问题,是不能准确识别对面的影响是来自文件还是真人,真人是戴的面具还是真实肌肤。所以,在远程刷脸的同时,如果能辅之以自然语言对话等手段,让用户从不同通道、不同角度自证与经营机构共享的秘密,对用户真实身份的确认,风险性就会大大降低。

    (三)金融客户培训

    我们上交所为了推出期权业务,编写了很多教材供培训使用。但无论是教学环节、练习环节还是考试环节,手段都是传统的,没有发挥出信息时代特别是人工智能的威力。

    如果采用人工智能当中的知识图谱技术,把题目的知识点和学员对知识点的掌握情况都用知识图谱来表示,就可以实现智能化教学、因材施教,提升培训的信息化、智能化水平,提高教学效果,也便于学员自学。

    三、智能金融崛起

    总而言之,随着人工智能技术的进展及其向各个应用领域的渗透,我们称之为“智能金融”的新型业态正在崛起。它充分对接移动互联基础设施,充分利用业务大数据,合理吸纳机器学习、自然语言处理、知识图谱等人工智能技术,贴近用户主动服务,进而获得对金融业务更加深刻的理解,形成一个不断自我正反馈的良性循环。我们应该积极做好技术、业务和客户准备,迎接智能金融时代的到来。

 
 

时间:2017年8月31日

 
    返回