人们在果树上摘果子的时候,总会发现一些果子结在较低位置,伸手可得,这在经济学上称为“低垂的果实”,目前也泛指那些工作难度不大,只需付出较小努力便能办成的事情。如果说RPA是人工智能领域一颗低垂的果实,那么在人工智能领域那些更复杂、更难的技术能辅助RPA做什么呢?这就是在所谓的“智能自动化阶段”需要考虑的问题。 IPA中需要解决的问题仍然还是上面谈到的数据获取问题和决策判断问题。因为OCR还只是能解决图像中文字的识别,而如果需要对照片或影像进行识别,就需要采用计算机视觉技术。自然语言处理只能够处理静态扫描件,如果涉及机器人和人的交流过程,还需要用到对话机器人。对于自动化流程中更高难度的决策判断,我们则需要采用专家系统。 1 计算机视觉 计算机视觉(Computer Vision)是一门研究机器如何“看”的科学,是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并用计算机进一步对图像做出处理,最终将目标处理成更适合人眼观察或符合仪器检测的图像。计算机视觉由硬件、软件等元素组成,比如图像采集设备、镜头控制及相应算法(基础算法是深度学习)。 流程自动化领域通常与计算机视觉里的图像分类和图像检测识别技术相辅相成。 图像分类通常是与OCR技术结合使用。因为图像在OCR识别之前必须要明确图像的类别,比如在一堆发票中需要分辨出哪些是增值税发票、哪些是出租车票,然后利用OCR技术识别票面中的要素。计算机实现分类时并不能像人眼一样直接对图像本身分类,因为算法只能对数据分类,所以需要将某一类图像所拥有的独有属性作为图像特征,然后依据人工智能算法利用图像特征进行分类。目前,较为流行的图像分类架构是卷积神经网络(CNN),它是将图像送入CNN网络,然后由网络对图像数据进行分类,这样处理之后方便OCR对分类后的图像进行文字识别。 图像检测是指对图像中的对象进行识别,以识别各种不同模式的目标和对象。图像分类关心的是图像的整体,给出的是整张图片的内容描述,而检测则关注特定的物体目标,要求同时获得这一目标的类别信息和位置信息。图像检测在自动化领域用于RPA机器人自动操作行为的触发,如在视频或图像中检测到目标物体,则触发机器人的自动化处理。 目前,计算机视觉技术主要的应用领域是物理机器人行业,如机器人按照路线行进和躲避障碍物等,如图3-18所示。相信随着人工智能技术的进一步成熟,计算机视觉技术能够顺利地融入更多人工智能产品中,也会与流程自动化领域结合得更紧密。因为计算机视觉技术是把物理世界转换为数字化世界的重要一环,也是RPA从虚拟的软件环境连接到真实环境的重要手段,如路标的识别、汽车牌照的识别、商家招牌的识别,以便于后续统计和分类的自动化。
图3-18 图像检测识别示例 2 对话机器人 对话机器人(Chatbot)其实也是一种软件机器人,其核心技术就是自动问答,即利用计算机自动回答用户所提出的问题以满足用户知识需求。它不同于现有搜索引擎,不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。在自然语言处理研究领域,问答系统被认为是验证机器是否具备自然语言理解能力的四个任务之一,其他三个任务是机器翻译、复述输入文本和自动生成文本摘要。2011年,以深度问答技术为核心的IBM Watson自动问答机器人在美国智力竞赛节目Jeopardy中战胜人类选手,引起了业内的巨大轰动。后来,以苹果公司Siri、Google Now、微软小冰等为代表的移动生活助手爆发式涌现。 但是,对话机器人在自动化领域的应用与个人移动助手式的应用有明显的区别。在自动化领域,对话机器人主要被当作人机协作的交互界面使用,从而替代传统系统中的用户界面。例如,当RPA机器人自动处理一笔采购订单时,订单中的某项内容不符合业务规范,常规做法是业务人员介入修改这项内容,然后RPA机器人进行操作。如果采用对话机器人,这时RPA机器人就可以将消息发给对话机器人,假如对话机器人已经安装在业务人员手机端,那么业务人员就可以通过自然语言对这笔订单进行修改,而不必回到RPA操作的计算机前来处理。类似的例子还有很多,总之是将那些原来不得不由手工操作的动作转换为人机自然语言对话。 也许你会有疑问,目前的一些个人智能助手回答正确率并不是很高,如果将它们用于工作环节,是不是会带来很大的风险。其实,这也是个人领域与商业领域对话机器人应用的不同,商业领域应用的对话机器人大多是在某一特定领域,如财务报销的发票处理、新人入职时的问答等,而特定专业领域是有专业术语、业务规则、业务规范的,相当于大大缩减了双方沟通的话术和词语范围。另外,办公人员为了更好地完成工作任务,也不会特意“为难”对话机器人,因此,这和我们平时生活中碰到的情况是不同的。 根据目标数据源的不同,自动化领域的机器人主要采用检索式问答和知识库问答。检索式问答是从一系列可能的回答中选出一个与问句最相关的答句,很多为儿童讲故事的陪伴型机器人都属于此类。知识库问答采用的是知识图谱或知识库,对话机器人的任务就是要根据用户问题的语义直接在知识库查找、推理出相匹配的答案。因此,如何把用户的自然语言问句转化为结构化的查询语句是知识库问答系统的核心所在,关键在于对自然语言问句进行语义理解。 对话机器人中一项技术就是语音交互,这项技术不管是中文还是英文交互都已经非常成熟。语音交互主要包括语音识别(Speech Recognizer)、语言生成(Language Generator)和语音合成(Speech Synthesizer)模块。语音识别是实现语音输入到文字识别的转换,即把用户说的语音转成文字;语言生成是根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言,即把回答的机器语言再转换成口语;语音合成是将模块生成的句子转换成语音输出,即把口语再转化成语音。这种语音交互能力最适合的载体是个人移动设备,而不是桌面电脑,因为个人移动设备距离人最近,也最容易产生交互。但是,RPA机器人却可以在桌面电脑上为你服务。所以,比较好的结合方式就是,利用移动设备上的对话机器人与桌面电脑中RPA机器人进行交互。 目前,我们并不相信所谓的通用对话机器人会出现,也就是那种可以与你随时对话、交流各种话题的全能对话机器人。但是,各种专业化领域的对话机器人却会逐渐出现,如负责售后、财务报销、采购答疑等机器人,它们谙熟于所擅长的领域,专心成长为某一领域的问答专家。这种专业型对话机器人也会与专业型RPA机器人相互配合工作。 5 与其他领域的技术结合 除了人工智能技术,我们也可以设想在其他领域的一些技术能够与RPA结合使用。例如,利用物联网技术为RPA获得更多的数据;利用虚拟现实技术来控制RPA机器人的操作;利用RPA机器人协助实现办公环境下的数字孪生;利用“脑机”接口技术来控制RPA机器人。除了与物联网技术的结合已经有了现实意义外,RPA与另外三项技术结合的距离还尚远。但我们仍然有理由相信随着自动化技术的推广,市场逐步拓展,凭借RPA内在的吸引力,更多技术会投入自动化技术的怀抱中。 1.物联网技术 物联网(Internet of Things,IoT)是指一个物物相连的互联网。物联网利用互联网把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相联,实现信息化、远程管理控制和智能化的网络。其中,包括具备“内在智能”的传感器、移动终端、工业系统、楼控系统、家庭智能设施、视频监控系统,以及贴上RFID的各种资产、携带无线终端的个人与车辆等。 RPA与物联网结合后带来的第一个提升就是利用物联网技术采集到的数据为RPA机器人提供输入,比如当设备传感器给出物料不足的消息后,RPA即可接收到消息,并自行下单采购。然后,RPA根据采购结果自动调度生产排程,再将信息反传给物理设备上的处理器,实现从办公领域到生产领域的全流程自动化处理,实现现实世界与计算机虚拟世界的数据传递。 第二个提升是改进信息的处理能力,因为物联网技术可以方便地增加产品和业务运营之间的联系。例如,公司可以使用传感器和执行器准确跟踪产品供应链,甚至可以监控客户逛零售店时的运动轨迹。这些数据会加载到应用系统,再交由RPA来处理。 第三个提升是打通软硬件的界限。RPA可以帮助管理物联网平台,能接收传感器被触发后所发出的通知,这些通知可能是记录的某个事件或对某个问题的警报。这些通知大部分是重复的,传统自动化高度依赖于后台员工来处理,但RPA可以处理此类信息。RPA能够提高企业在应急事件管理的自主反应能力。 在日益数字化和互联化的世界中,特别是考虑到物联网的兴起,捕获的物理世界的数据量会呈指数级增长。如果这些数据都交给人来处理,完全是不现实的,那么,通过RPA来处理分析这些数据就变得非常有意义。 2.虚拟现实 虚拟现实(Virtual Reality,VR)技术是一种可以创建和体验虚拟世界的计算机仿真系统。它利用计算机生成一种模拟环境,并使用户沉浸到该环境中。虚拟现实技术主要由模拟环境、感知、自然技能和传感设备等组成。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。 我们可以设想将虚拟现实下的各种感知操作直接与RPA相连,为机器人提供操作指令,然后将机器人的操作过程和结果再通过虚拟现实技术返给监控者,实现虚拟世界与计算机世界的关联。 3.数字孪生 数字孪生(Digital Twin)技术通常是指针对物理世界的物体,通过数字化手段构建一个一模一样的虚拟模型,借此来实现对物理实体的了解、分析和优化。2002年,密歇根大学教授Dr.Michael Grieves在一篇文章中第一次提出了“数字孪生”概念,如目前GE能够用数字技术模拟出一台真正的飞机发动机。 现在更加创新的观念认为,数字孪生既可以实现物理资产的模拟,如传感器或车辆,也可以实现逻辑资产的模拟,如业务流程或服务。数字孪生在未来很可能会应用于对办公环境的模拟,如业务流程模型仿真设计、业务流程的运营模拟,在数字孪生环境下实现对业务流程的优化。这样,RPA与数字孪生结合在一起,在各个环节都会发挥其巨大的作用,如利用RPA实现模拟环境下流程的运行,利用RPA抓取运营数据反馈给数字孪生环境等。 4.脑机接口 脑机接口(Brain-computer Interface,BCI)有时也称作“大脑端口”或者“脑机融合感知”,它是指在人脑或动物脑(或者脑细胞的培养物)与外部设备间建立的直接连接通路。单向脑机接口允许计算机接收脑传来的命令,或者发送信号到脑(如视频重建),但不能同时发送和接收信号。而双向脑机接口允许脑和外部设备间的双向信息交换。目前,一些实验室已实现在猴子和老鼠的大脑皮层上记录信号,以便操作脑机接口完成运动控制。在实验中,研究人员让猴子只是通过回想给定的任务(而没有任何动作发生)来操纵屏幕上的计算机光标,实现机械臂控制,最终完成简单的任务。 虽然脑机接口技术还处在初级阶段,但未来该技术成熟以后,提供给RPA机器人的指令完全可以从大脑直接发出,甚至可以绕开前面谈到的自然语言。