在人工智能科技行业,实在智能以其自研的通用人工智能(AGI)大模型和超自动化技术,占据了重要的市场地位,并在人机协同领域展现出稳健的发展势头。
自进入RPA行业以来,实在智能通过连续的技术革新,推出了三代RPA产品,逐步塑造了其在行业中的影响力。特别是第三代产品进一步将大模型技术与RPA结合,推动了RPA行业向Agent智能体时代的转变,实现了更高层次的人机交互体验。
2023年8月,实在智能正式对外发布了其自研的“塔斯(TARS)大语言模型”,并推出了行业领先的TARS-RPA-Agent产品,即实在RPA Agent智能体。这一产品通过自然对话式交互和超自动化执行,进一步简化了数字员工的构建过程,使得技术更加易于被广泛用户所采用。
近期,实在智能副总裁陈伟接受非凡产研的邀请,分享了公司在Agent领域的实践经验和成果。
以下是访谈实录:
实在智能关于Agent的落地实践
Q :实在智能早期致力于研发RPA(机器人流程自动化)技术工具,且已经先后推出了三代RPA产品。如今,又在此基础上进行了进一步升级,发展到智能体(Agent)的阶段。您能否为我们分享一下发展过程中的一些关键点?另外,我们目前在Agent领域有哪些成熟的实践经验?
陈伟:实在智能涉足Agent领域的决策,实际上是基于公司长期以来在人工智能技术方面的深厚积累。自成立之初,实在智能便专注于人工智能技术的研发。在深入探索人工智能的过程中,我们意识到RPA(Robotic Process Automation)作为一种自动化工具,能够为客户提供一个较为便捷的起点,以便快速实现基于自动化技术的数字化场景应用。
相较于智能化,后者对数据基础的要求相对更高,需要更为扎实的数据支撑。因此,RPA成为了帮助客户在数字化转型初期阶段,快速落地自动化项目的优选方案。
我们第一代 RPA 产品大约在 2020年推出,主要面向专业开发者。这款工具可以将电脑中的操作,例如 Excel 处理、网页浏览、Word 文档操作等,抽象成一个个动作组件。用户只需通过拖放这些组件,就可以完成自动化流程的编辑。
在这一代产品中,我们积累了约 400 个预设组件,以及数千个丰富的业务组件。然而,我们发现这种方式虽然简化了开发过程,但仍有一定的学习成本,特别是对于业务人员来说,使用起来仍然存在一定挑战。
为了降低使用门槛,我们在第二代RPA产品中进一步引入了人工智能技术。通过将基于智能屏幕语义理解技术的智能组件推荐融入开发过程,能够根据用户在计算机系统中鼠标指向的操作对象,提供最推荐的操作组件建议。这一变化使得用户不再需要从数千个组件中手动查找所需的组件,而是可以在操作过程中根据 AI 的推荐完成流程的开发和记录。
如果第一代可以叫做“拖拉拽”,那么这种新方式就可以被称为“点选用”,用户无需深入学习工具即可上手使用。尤其是我们引入了“智能屏幕语义理解”这项专利技术,它能够帮助数字员工动态识别桌面上的元素,就像人眼一样去识别出操作对象的输入框和按钮等元素。
在第二代产品的基础上,我们又考虑将大模型的生成能力结合进来。基于现有的 RPA 工具和智能屏幕语义理解技术,我们开发了第三代产品——Agent 智能体数字员工。这一代产品利用大模型来理解任务和操作流程,将任务描述转换为具体的计算机操作步骤。
例如,用户可以输入指令“查询某个公司最近的 20 条新闻”,系统会将其分解为具体步骤:打开浏览器、搜索关键词、点击资讯按钮、收集相关信息等。
在电脑执行这些步骤时,系统会调用相应的 RPA 组件,如“打开网页”组件,接着利用智能屏幕语义理解技术定位输入框并输入内容。大模型根据这些信息生成相应的操作组件,如在输入框中输入搜索关键词、点击搜索按钮等。
通过这种方式,我们的第三代产品能够实现更为智能和自动化的任务执行,大幅提高了操作效率和用户体验。
Q:客户一般是在什么什么场景里面会用到这个能力?
陈伟:我来举一个典型的应用场景。我们首先落地的应用场景就是在运营商的客服业务中。我们知道,如果客户只是咨询一些知识问答类型的问题,通过智能客服技术就能轻松解决,机器人会根据用户提出的问题,从知识库中提取信息并作出回答。
然而,有一些业务场景,比如用户拨打10086后想要变更宽带业务。虽然宽带变更所需的信息可以通过问答的形式告知用户,但在确认变更信息后,传统方式需要客服人员将变更需求手动录入后台工单系统,然后将这项业务分派给前端的业务人员进行实际的宽带变更。原本这些工单操作类的任务只能由人工完成的,但现在结合大模型能力的RPA-Agent可以代替客服人员自动完成这些工单录入工作。
通过与客户的对话交流,RPA-Agent能够获取客户的真实、准确和全面的业务需求,替代人工进行工单录入。这样一来,宽带变更的全过程就可以交由数字员工完成,无需人工干预。
第二类应用场景则体现在数字员工在不同系统之间的学习和操作能力。比如,我们给一个Agent学习了用友或者金蝶财务系统的操作。但客户使用的是浪潮财务系统,如果该Agent已经熟悉了前面两种财务系统,它可以基于对财务系统操作经验和财务业务流程的理解,迅速上手浪潮系统,继续执行财务专业业务。通过这种学习机制,数字员工能够迅速接管新财务系统的操作,比如生成凭证或报表等。而且,Agent能够不断学习并沉淀最优操作路径,从而在未来执行同类业务时,达到最高效率。
因此,未来许多系统操作任务都可以通过语言指令来完成,由数字员工执行,人类员工只需为数字员工制定工作计划,并检查执行结果,这可以极大地释放人力资源。我们将这类工作定义为通过结合大模型的RPA-Agent技术来实现的系统操作接管。
除此之外,实在智能的Agent还具备检索增强生成的能力。这意味着它可以无需预先训练,直接通过访问企业的知识库进行专业知识问答,类似于让大模型进行开卷考试。传统智能客服通常需要将知识点转化为“问答对”并进行训练,训练成本较高且更新难度大。而现在,通过给大模型外挂知识库,企业可以随时更新知识库内容,直接上传新信息后即可实现新知识的问答。这类基于外挂知识库的增强检索架构在企业内部制度问答中尤为实用。
例如,员工可以询问公司的报销制度,或某个地方的出差补贴标准。这种方法使问答系统能够动态更新外部知识库,并对新知识进行实时回答,训练成本低,效果良好。
同时,我们还可以将这种技术反向应用到审核流程中。例如,在财务报销流程中,可以让Agent基于公司的财务制度来审核提交的报销申请内容,判断其是否符合规定,从而代替人工审核。
最后,智能Agent还能与数据分析工具结合,按要求自动从数据库或数据中台中提取需要分析数据,并生成可视化图表。举例来说,我们可以让Agent分析1到7月的用户分布数据,Agent可以将从数据库中查找到的数据生成堆积图、折线图等适合的图表,同时大模型还可以分析数据趋势或问题,从而实现更即时的个性化数据分析。
Q:您刚刚提到财务系统的应用场景,以此类推,未来我们是不是可以直接训练一些具备不同能力的数字员工,然后将这些数字员工封装起来,供企业直接使用?
陈伟:您说得非常对。目前,大多数厂商仍然在销售传统的工具软件产品。然而,未来的发展趋势可能将不再局限于单纯销售工具软件,而是转向提供经过训练的数字员工。这些数字员工将掌握所有财务或其他流程类工作所需的技能。这种转变使我们实际上成为了一种新型的人力外包公司,为企业提供真正的数字员工。
这一变革意味着,我们能够为客户提供一组虚拟的数字员工,这些员工可以处理80%以上的基础业务工作。与传统的人类员工相比,这些数字员工的成本大大降低,在提升业务处理效率的同时,还能显著降低投入成本。
Q:您刚刚提到实在智能在外挂知识库领域的创新。您能分享一下你们是怎么做的,具体领先优势是什么吗?
陈伟:我们的外挂知识库的创新涉及多个方面,主要体现在以下几点:
首先,大多数外挂知识库系统主要都是基于检索增强生成(RAG)架构。我们在这个基础上,进行了许多改进。具体来说,在知识构建过程中,检索增强需要对知识库进行向量化和预处理。
由于语言类大模型通常只能处理文字内容,因此针对图表和图片等多模态内容,我们使用了IDP(智能文档处理)技术、OCR(光学字符识别)等能力,以及表格识别插件,以确保知识内容的准确提取。此外,我们还能处理页眉页脚、特殊符号等干扰内容理解的信息,以确保知识库的内容结构和完整性,从而提高大模型的处理效率。
其次,在一些专业领域,我们积累了大量的专业知识。例如,在财务和合同审核领域,我们已经建立了丰富的审核要点和规则知识库。这些经验在通用场景下几乎可以实现开箱即用,为客户提供了性价比更好的的选择。在这些领域的深厚积累也使我们在市场上获得了竞争优势。
此外,我们还在这套架构中增加了针对高频问题的FAQ沉淀优化路径。通过分析用户提问的频率和内容,总结出了用户高频问题并通过大模型提炼出标准答案,形成一个高频FAQ知识库。
这样,当用户提出相同的问题时,系统会优先从FAQ库中寻找答案,而不必重新生成响应,从而提高了模型的运转效率。这种机制不仅能有效减少大模型的计算负担,还能具象化用户关注的问题,让企业直观地了解用户关心的问题和这些问题的处理效果。
Q:可以看出我们的解决方案很成熟,包括整个应用落地的方式等已经非常体系化。
陈伟:这些优势源于我们的经验积累和强大的算法能力。在同等规模的公司中,我们拥有近30位算法人员,这在业内具有显著的竞争力。相比之下,大多数RPA厂商甚至没有算法人员或相关专利,而我们在这一领域的储备量非常高。
另外,我们在自然语言处理(NLP)和机器视觉(CV)领域具有深厚的积累。这种积累使我们能够在大模型技术于2021年迅速崛起后,及时跟进并推出自己的垂直领域大模型,并将其与我们原有的RPA(流程自动化)、IDP(智能文档处理)和BI(商业智能)等产品紧密结合,为原有客户提供了大模型升级解决方案。
举例来说,虽然许多大模型厂商也在开发类似的技术,但他们通常要从零开始寻找应用场景。而我们则能够直接将大模型技术应用于已经存在的RPA、IDP和BI客户,帮助他们立即享受到大模型带来的红利。这使得我们与客户的沟通门槛相对较低,开发新客户的挑战也相对较小。
Q:有了 Agent 技术之后,RPA 的应用空间是否会受到限制?此外,针对已经部署了传统 RPA 的客户,你们是如何进行Agent升级替代的?
陈伟:在技术发展的历程中,我们见证了操作系统从DOS命令行界面向Windows图形用户界面的转变,这一变革极大地促进了计算机的普及。比尔·盖茨曾预言,未来所有计算交互都将转向Agent模式。这种转变意味着,随着所有功能接口的API化,传统的RPA(Robotic Process Automation,机器人流程自动化)需求可能会减少,因为大型模型可以直接调度API化的系统应用功能。
然而,这一转变并非一蹴而就,而是一个渐进的过程。在可预见的未来,计算机屏幕和基于屏幕的操作仍将存在。目前,将API能力集成到大型模型中,是一个技术领域内相对容易实现的目标,任何企业都具备这个能力。然而,要让大型模型控制RPA操作桌面,则涉及到更为复杂的技术挑战,有很高的技术壁垒。
首先,我们公司拥有成熟的RPA产品,并在行业内处于领先地位,产品能力在数千家客户使用中得以验证。
其次,目前主流的大型模型供应商尚未展现出对图像级桌面元素识别的能力,这限制了它们在操作桌面领域的应用。我们的核心竞争力之一就是对屏幕的语义识别能力,这涉及到多模态技术,即通过视觉识别来定位和控制桌面元素。
再者,我们的大型模型已经在流程知识领域进行了预训练和微调,这使得它在处理流程相关问题时的表现优于其他超大规模模型。这种经过专业训练的模型,即使在体量上不如GPT-4等模型,也能在特定场景下实现理想的应用效果。
因此,我们相信,在API化尚未完全实现的未来,通过RPA调动桌面操作可能仍是目前唯一的替代方案。随着我们关于业务逻辑和知识的不断沉淀,我们的大模型将能够无缝地接管原本由RPA执行的任务。与此同时,那些仅专注于API的Agent厂商,如果没有积累足够的业务经验,即使具备调用API接口的能力,其大模型的业务理解能力也可能存在局限。
展望未来,我们预计RPA将逐渐从前台工具转变为系统底层功能。目前,我们也正在与系统厂商探索合作,进一步将RPA集成到系统中,使系统具备RPA操作的基础能力。这样,系统只要开放其底层的RPA控制能力供大型模型调用,结合API接口控制能力,就能共同实现对桌面各类系统的控制。这种集成方式既稳定,又能在过渡期内提供良好的应用效果。这便是我们对Agent和RPA相关应用的长远规划。
Agent应用发展趋势解读
Q:您怎么看国内 Agent 的发展现状?
陈伟:在人工智能领域,Agent的发展经历了几个显著的阶段。最初,Agent的概念可以追溯到2021年之前,那时的Agent主要基于传统的聊天机器人技术,通过集成一些已经开发好的应用流程接口,实现基本的命令执行。这种Agent的响应非常机械和固定,技术难度不高,但规则死板,只能执行与知识库匹配的特定服务。
2021年至2024年进入第二阶段,随着大型模型的兴起,许多厂商开始探索Agent的落地应用。例如,主流的AI-Agent的工具,通常都是基于LangChain 技术去配置 API 接口或者大模型能力的工作流方式形成一些智能体。我们更倾向于将这其定义为一种响应式智能体,它集成了众多API接口,根据用户的要求来执行这些接口功能。
但是,这个智能体的能力是有限的,它只能完成最初集成的API接口所提供的功能。换句话说,它的功能取决于它被设计时所集成的API能力,因此它在创新或自我迭代方面的能力受到限制。
而我们在做的则是赋予Agent两项核心能力:一是学习人类业务的能力,二是控制计算机的能力。通过学习业务知识,Agent能够根据人的计划或任务要求,自主规划并执行相应的任务。
这种智能体,我们倾向于定义为自主式智能体,它不仅知道业务如何操作,还能自行规划计算机操作以实现业务动作。例如Agent学会了财务系统的基本操作,它也能通过桌面识别和自主学习,在从来没见过的财务系统中自主学习并执行类似的操作,理论上显示出无限的学习能力。
Agent的下一阶段发展是协同智能。在这个阶段,原本在不同领域自主学习的智能体已经成为不同领域技能的专家,而协同智能阶段则是精通不同技能的智能体互相协同和交互,共同实现更高效的工作流程和更广泛的场景应用。
Q :您之前提到的“能力边界”是一个关键概念。我不确定部分客户是否对AI Agent有过高的期望,或者在实际应用中期望与现实之间有巨大GAP?此外,企业在部署Agent时可能会遇到哪些挑战?
陈伟:大模型兴起初期,尤其是去年,许多头部客户投入了大量资源尝试先进的大模型。客户初期的期望值都比较高,实际效果却并不总是符合预期。面对这种情况,我们对客户进行预期管理时,采取了不同的策略。即倾向于基于已有的产品能力,帮助客户实现技术的升级,而不是一味地引入全新的技术。
客户在使用传统的 RPA 流程自动化或IDP文档处理技术时,已经感受到了一定的价值。通过将大模型技术与这些基础能力结合,能够显著提升原有技术的效果。这种提升使得对客户预期更加可控。例如,原本训练一个专家模型可能需要投入大量技术和人力资源,而使用大模型只需简单的一句话命令就能实现显著的效果提升。
尽管大型模型在处理各种任务时表现出强大的能力,但它们并非无所不能,也存在能力边界。例如,在大模型RAG检索增强架构中,大型模型并不总能准确无误地检索到所有知识。这意味着我们需要帮助客户对知识进行梳理,改进其表现形式或输出结构,甚至可能需要对知识片段进行额外的标注工作。
但在执行这些任务时,与传统的模型训练和开发相比,已经简单许多。这个过程更像是与客户就业务逻辑本身进行交流,并将这些逻辑转化为提示词。最简单的提示词就是用户的输入语句,而每个客户都能够无门槛地提供这样的输入,使得所有客户都可以积极参与到这一过程中。
此外,客户还能在我们不干预的情况下,自行使用这些Agent智能体开发工具,对特定场景进行调整或创新。这种参与和自主性为客户提供了更大的灵活性,使他们能够根据自己的需求和偏好,优化和创造更符合实际应用场景的解决方案。
在定价策略上,我们的目标是设定一个合理的价格,以鼓励更广泛的客户使用。我们旨在通过技术上的领先地位来赢得市场份额,并与客户建立起信任关系,这将为我们在未来长远的发展中创造更多的机遇。
虽然我们最初推出的大型模型可能并未完全达到预期效果,但是随着RAG检索增强生成架构以及Agent智能体架构等其他技术的应用,我们的客户已经开始感受到产品性能的显著提升。
具体到RPA流程自动化的应用实践中,用户经常面临众多特定但使用频率较低的长尾场景。若针对这些场景逐一进行定制开发,每个场景都会产生额外的开发成本,从成本效益角度考虑,这种做法对客户并不具有吸引力。这种情况尤其常见于业务人员,他们可能经常需要使用某些自动化流程,但又不具备自主开发这些流程的技术能力。
在这种情况下,使用RPA-Agent来辅助开发这些简单业务流程显得尤为有效。业务人员只需通过口述的方式描述其业务流程。在首次描述时可能需要更详细一些,然后由“数字员工”来执行。
如果在执行过程中遇到障碍,Agent会请求人工辅助,或者询问是否需要调整步骤。通过这样的交互,智能代理能够学习并掌握业务人员的需求并沉淀为流程知识,在再次执行相同任务时,根据已有学习基础,将大大提高生成效率,有效解决了长尾场景的建设问题。
另外,在RPA场景中,还存在一些原本RPA技术难以应对的场景,例如需要动态规划的场景。以客服工单为例,这需要根据客户的不同需求重新规划录入要素,并将其录入到不特定的界面中。这些场景展示了Agent智能体在处理复杂和动态任务中的潜力和必要性。
例如,我们曾经为医院实施的智能调度系统,利用 Agent 技术处理护工的调度问题,通过实时分析护工当前位置进行最优路径的任务分配,可以大大提升服务效率和响应速度。再如,在数据监控类场景中,Agent 能够自动检测数据的异常变化并提供智能分析,这些都是传统 RPA 难以实现的功能。
Q:目前市场上有各种各样的 Agent,未来这些 Agent 是否能够整合形成一个自动化的工作流呢?如果可以,大致需要多长时间可以实现?
陈伟:实现各种 Agent 集合形成一个统一的自动化工作流面临两个主要挑战。
首先,从信息共享的角度来看,由于掌握这些资源的企业通常不愿完全开放其数据,许多大平台和系统会逐渐加强对其有价值的数据和知识资源的保护。在激烈的商业竞争环境中,这种现象在行业内相当普遍。因此,实现全面的数据整合和共享将是一个长期的挑战。
不仅涉及技术层面的难题,还包含商业利益和数据隐私等因素。这意味着,实现全面统一的自动化工作流可能需要较长的时间,且非常依赖于行业内逐步建立的合作机制和数据共享标准。
其次,从行业应用角度来看,不同行业和应用场景将催生各具特色的专业智能体,这些智能体在特定领域中表现出色。虽然这些智能体可能不会形成完全统一的行业标准,但其在各自领域中领先的智能体将发挥关键作用。根据“二八法则”,20%的领先智能体可能会创造80%的生产力。
在这种情况下,行业内的头部智能体将主导技术进步和标准制定,推动智能体之间的协作。随着标准的逐步确立,智能体之间的协作能力将显著提升,从而形成更为协调的自动化工作流。
Q:大模型和Agent 时代,企业原来的数据积累、数据治理、数据管理过程,会有哪些新的变化?
陈伟:我们之前提出了“企业大脑”解决方案,旨在通过整合大模型与企业内部的运营架构,彻底颠覆传统的信息系统。这一方案将操作系统交由Agent智能体接管,从根本上改变原有的信息系统架构。
传统的信息系统设计起初是为了便于人工处理信息,但结果却导致了更高的操作成本和更低的使用效率,因为这些系统处理的数据维度复杂,可能还需要一些专业技能。大模型的引入,改变了这一现状。“企业大脑”实际上为每位员工提供了一个以企业为维度的知识专家库。无论是业务知识还是数据知识都能转化为系统化的知识运营。未来企业的核心竞争力将取决于掌握和运用的行业专家知识。
企业大脑可以将庞大的知识资源高效运转起来,提升了知识的运用效率。未来的信息系统将变得更为简化,所有功能性界面将通过一个统一的对话入口进行操作。举例来说,客户传统报销系统由于复杂的审核规则和配置,操作非常繁琐。如今,员工只需通过一个聊天入口上传单据,大模型便会自动匹配相关记录,处理报销申请审核工作。
Q:Agent 能力很大程度上这个上限它取决于大模型,您怎么看待二者之间的关系。另外如果大模型的发展变慢,会不会影响到Agent的商业落地应用,您怎么看待这个事情?
陈伟:目前大模型发展正在朝两个主要方向。一方面是超大规模模型,例如 GPT-4o、GPT-5 等。这些模型类似于强大的发动机,适用于范围广泛或高价值目标的通用业务场景,它们在处理复杂任务方面表现卓越。然而,在具体业务场景中,我们不一定需要这样的大型模型。对于可预期的价值边界,我们可能会选择体量较小的模型,这些模型在实现特定任务时更加高效,成本也更低。我们会将这些较小的模型在企业内部进行自我迭代和训练,尽管这些模型无法比肩大规模模型的成长速度,但在具体业务处理上会更加适用。
因此,我们重点考虑的是不是将大模型的能力强融合,而是进行解耦,以为客户提供灵活的选择。用户可以选择我们的模型,也可以选择其他模型,我们则负责其部署、服务、训练和调优。让客户通过多个大模型和专业领域模型的协作,完成特定任务,并通过我们的Agent工作流来实现业务目标。
此外,解耦的优势在于,企业可以灵活地接入最新的大模型。企业内部知识库以及外部工具能力也可以持续积累和复用,这种积累对企业来说可能比大模型的底座能力提升更为重要。大模型的能力提升本身不会直接为企业业务创造实际价值,尤其是考虑到性价比和运维成本的问题。
而对于极特殊的能力需求或有很充足的数据积累,我们才会建议客户训练专属的垂直行业大模型。这类模型一旦训练完成,将不仅服务于客户自身,还可以贡献于行业,赋能更多企业。
文章来源“非凡产研”,作者“Qiuping”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则