AI 智能体(Agentic AI)现状:创始人篇

作者:MMC

如果你不知道 Clippy (回形针) 是什么(或者更幸运,从没见过它),那你真是走运了。Clippy 是 1996 年微软 Office (就是我们现在用的 Word、Excel 的老祖宗) 中引入的,那个臭名昭著、烦人的数字回形针,它总是不请自来地给用户提建议,并迅速成为全球最讨人嫌的虚拟助手。我们为什么要在 2007 年就被关掉的、备受诟病的 1996 年的虚拟助手呢?因为历史从不重演,但总押着相同的韵脚。

鉴于围绕 AI 智能体 (agentic AI) 的所有热议(以及 Gartner 预测 到 2027 年底,超过 40% 的基于智能体的 AI 计划将被放弃),我们问自己:要怎样才能让 AI 智能体在大型企业的生产环境中真正落地?要怎样才能让智能体产品和“副驾驶”(Copilot) 真正受到员工的喜爱和使用(而不是像广受诟病的 Clippy 那样)?

为此,我们调查了欧洲 30 多位顶尖的 AI 智能体初创公司创始人,并采访了 40 多名从业者,不仅是为了构建一幅关于 AI 智能体现状的图景,更是为了根据我们观察到的成功智能体初创公司所采用的通用实践,创建一份“实战手册”。我们还包含了调查中原始、未经过滤的评论。先给你“剧透”一些我们的发现:

  • 创始人在生产环境中部署 AI 智能体时遇到的最大挑战,实际上并非技术层面的,而是:

    • 工作流集成和人机界面(60% 的初创公司)

    • 员工抵触和其他非技术因素(50%)

    • 数据隐私和安全(50%)

  • 因此,最成功的部署策略涉及一种**“从小处着想”(Think Small)** 的方法,从低风险、中等影响、易于验证的任务开始,快速展示清晰的投资回报率 (ROI)。如果它能自动化一个人类用户讨厌的任务,并且被包装成**增强(而非替代)**人类的“副驾驶”,那就更好了。

  • 62% 的 AI 智能体初创公司已经开始动用业务线 (Line of Business) 或核心支出预算,证明该技术正超越实验阶段。

  • 尽管定价策略在不断演变,但**“混合型”(Hybrid)** 和**“按任务收费”(Per Task)** 是最常用的(各占 23%),而“按结果付费”(Outcome-based) 这一“终极圣杯”目前只有 3% 在使用,因为不同客户看重不同的结果,而且很难归因、衡量和监控这些结果,这使得定价变得不可预测。

  • 由于生态系统处于萌芽阶段,大多数 (52%) 初创公司完全或主要在内部 (in-house) 构建其智能体基础设施。

  • 初创公司正专注于可靠性,超过 90% 的公司报告其解决方案的准确率至少达到 70%。虽然医疗保健初创公司报告的准确率最高(这不奇怪),但对于那些输出易于验证的、更简单的低风险用例,中等准确率是可以接受的,前提是自动化的高容量抵消了较低的准确率,或者 AI 实现了以前完全不可能的全新功能。

基于我们的发现和对企业从业者的采访,我们概述了对成功部署智能体的驱动因素的观察,涵盖了从用例的战略推广到(我们称之为)**3E 框架(教育 Education、娱乐 Entertainment 和预期管理 Expectation management)**的所有内容。你是一家正寻求克服企业部署挑战的 AI 智能体初创公司吗?请直接跳转到我们的观察这里

如果你是在这个领域创业的创始人,请联系 AdvikaSeviMina —— 我们很乐意与你聊聊。

什么是 AI 智能体?我们为什么需要它?

关于 AI 智能体的定义五花八门,但为了我们的讨论,我们描述其关键属性:

  • 目标导向 (Goal orientation):AI 智能体被分配了特定的任务或目标,它们的行动与实现这些目标保持一致。

  • 推理 (Reasoning):智能体会制定计划以实现上述目标,并将不断变化的现实世界背景纳入其规划中;它们将主要目标或复杂问题分解为更小、可管理的任务,并思考下一步的最佳步骤。

  • 自主性 (Autonomy):AI 智能体独立行动,无需人类的持续输入/指示;它们根据周围变化的世界做出决策并采取行动(通过工具调用 (tool calling))。鉴于由生成式 AI (GenAI) 驱动的智能体尚处早期,围绕它们存在各种可靠性问题(以及企业从业者对部署完全自主系统的谨慎态度),我们对智能体的定义并要求完全自主。因此,“副驾驶” (co-pilots) 也包含在我们的定义中(只要它们满足我们列出的其他标准,如目标导向、推理和通过工具使用采取行动)。

  • 持久性 (Persistence):智能体具有记忆力,或者说能够记住它们之前的经历,并在跨会话(session)(例如你关掉聊天框再打开) 期间保持对长期目标的关注。这也被称为状态管理 (state management)

AI 智能体与基础的大语言模型 (LLM) 聊天机器人不同,因为状态管理和工具调用是更难的工程挑战,使其部署更加棘手。这方面的一个进化是多智能体系统 (MAS, multi-agent systems),在系统中,智能体可以拥有共享内存、总体目标,并相互协调。这些 MAS 涉及具有专业能力(或负责更广泛目标的独特子组件)的单个智能体协同工作,以解决复杂问题,甚至跨越组织边界。

鉴于 MAS 将认知负荷**(也就是“脑力活儿”)** 分配给多个智能体(每个智能体都针对特定子任务进行了优化),它们在处理复杂、开放式问题时已证明优于单一智能体方法。它们提高了效率,降低了成本,并提供了更好的容错性和灵活性——这意味着它们在整体性能上优于单一智能体系统。

但为什么到底要用 AI 智能体呢?为什么不用 RPA (Robotic Process Automation,机器人流程自动化) 或其他传统自动化形式?这是因为 AI 智能体更擅长处理需要认知能力、推理和适应性的复杂、动态和非结构化任务。与遵循僵化、预定义规则的 RPA 不同,AI 智能体可以朝着一个目标进行推理,动态地即时决策,并随着时间的推移学习或改进——这使它们能够处理边缘情况 (edge cases) (也就是意料之外的特殊情况) 和环境变化而不会“罢工”。

AI 智能体在企业中的落地情况如何?

某些调查,例如 KPMG 的《2025 年第三季度 AI 季度脉搏》,指出 AI 智能体的部署几乎翻了两番,现在有 42% 的组织已经部署了“至少一些智能体”,高于两个季度前的 11%。虽然这听起来很鼓舞人心,但我们认为“至少部署了一些智能体”这个指标并不能很好地反映真实的应用情况。我们与从业者的对话表明,是的,大多数大型企业正在生产环境中部署 AI 智能体,但这些部署通常规模相当小。它们也主要集中在(相对)更成熟的领域,如客户支持、销售和营销、网络安全和技术(例如 AI 编程智能体)。

我们认为通过以下视角来思考采用情况会更有用:

  • 有多少团队和员工真正在日常工作中使用 AI 智能体普华永道 2025 年 5 月的一项调查指出,对大多数受访者 (68%) 而言,只有一半或更少的员工在日常工作中与智能体互动。尽管如此,我们与从业者的对话表明,在企业没有采用该技术的地方,员工正在使用个人账户,这引发了**“影子 AI”(Shadow AI)** (即员工私自使用未经公司批准的 AI 工具) 问题,导致合规问题泛滥。

  • 员工在多大程度上将 AI 智能体用于他们“可被自动化”的工作流(是极少数工作流、一部分还是大多数):我们强调“可被自动化”这一点,因为并非每个工作流都适合自动化,而且 AI 智能体也不一定是该特定任务的最佳自动化技术。    虽然收集实际已自动化的工作流 vs. 潜在可自动化的工作流的数据具有挑战性,但 KPMG(在同一调查中)关于“AI 智能体在员工中的接受程度如何?”的观察是一个相对有用的参考:只有 10% 的受访者表示“显著采用”,即员工热情地采用了 AI 智能体并将其完全整合到工作流中;而 45% 的人则表示“轻微采用”,即员工开始接受 AI 智能体并将其整合到工作中(其余的人则表示反响不一)。

  • **为每个工作流赋予 AI 智能体的自主程度(它在给定工作流中是只能执行某些任务,还是可以端到端地驱动整个工作流):**我们与企业从业者的对话表明,他们正在采取一种保守的方法。即使 AI 智能体解决方案理论上可以在 80% 的自主水平上可靠运行,大多数从业者也会倾向于更高级别的人类介入(human-in-the-loop),并让解决方案在 50% 的自主水平上运行。

调查发现

我们调查了 30 位欧洲的 AI 智能体初创公司创始人,并采访了 40 多位企业从业者和创始人,以确定:

  • 他们的 AI 智能体解决方案运行的准确率和自主性水平

  • 创始人最常使用的定价策略

  • AI 智能体初创公司能够动用的预算(仅仅是创新预算,还是核心的业务线预算)

  • 初创公司创始人在大型企业部署 AI 智能体解决方案时通常遇到的挑战

  • 创始人内部构建的智能体基础设施,以及他们使用的第三方工具

自主性与准确率

自主性和准确率是相互关联的维度——毕竟,你只会自动化到你能从 AI 智能体那里获得可靠和准确输出的程度。在一个理想的智能体世界里,我们将同时拥有极高水平的准确率和自主性。我们所说的准确率,是指智能体执行的任务中,带来成功或被接受的结果的百分比(即 0 表示完全被人类否决,10 表示无需修改被完全接受)。

虽然我们还没到那一步,但我们发现,目前 > 90% 的 AI 智能体初创公司的准确率至少达到 70%,但只有 66% 的 AI 智能体初创公司在至少 70% 的自主性下运行。不出所料,可接受的准确率水平因行业和用例而异——例如,金融服务业的平均准确率为 80%,医疗保健行业为 90% 等等。更有趣的问题是:在什么情况下,中等水平的准确率是可以接受的?

鉴于准确率和自主性之间的相互作用,我们确定了初创公司主要所处的三种配置:

中等准确率,高自主性 (Medium Accuracy, High Autonomy):如果用例满足以下条件,中等水平的准确率(60-70%)是可以接受的:

  • 低风险,且其输出结果易于人类验证和修改;并且

  • 较低的准确率被非常高的自动化水平所抵消,所以如果这是一项耗时且量大的任务,你会选择更高的自动化水平,以便你能处理海量工作,只专注于智能体无法处理的边缘情况;或者

  • 这是一项以前不可能实现的全新功能,所以权衡之下,你宁愿能以 70% 的准确率执行某项活动,也不愿根本无法执行。

高准确率,低自主性 (High Accuracy, Low Autonomy):这一类别主要包括智能体医疗保健初创公司,其典型的准确率和自主性水平分别为 90% 和 40%——这些都是用于更高风险的用例(例如临床试验研究、心理健康护理),在这些用例中,准确率至关重要。正如一位创始人(在谈到其智能体 AI 解决方案 >85% 的准确率时)所指出的:

高准确率,高自主性 (High Accuracy, High Autonomy):这一类别中的大多数初创公司都在 80-90% 的准确率和自主性水平上运行,通常专注于金融服务用例(例如合规)以及 AI 部署的相对更成熟领域,如客户支持、网络安全和研究。在这些案例中,我们观察到创始人越来越多地将概率性的大语言模型 (LLM) 与更具确定性 (deterministic) (也就是结果更可控、更稳定的) AI 方法相结合,以提高准确性,从而进一步提高自主性。

以下是智能体初创公司主要所处的三种准确率/自主性配置的可视化摘要:

   随着我们越来越多地在多步骤问题上部署智能体或引入多智能体系统,对准确率的要求只会越来越高——比如,当你把一个 90% 准确率的智能体和另一个 90% 准确率的智能体链接在一起时,会发生什么?每一步的错误都会累积。这会引发一种叫做级联失败 (cascade failure) 的现象,我们将在即将发布的研究报告中探讨这个问题(以及知识图谱和神经符号 AI (一种结合了神经网络和符号逻辑的 AI 方法) 是如何成为前进的方向)——敬请期待!

定价策略

鉴于 AI 智能体生态系统尚处早期阶段,我们采访的大多数创始人都将他们的定价策略视为需要随着时间推移而演变的东西,我们认为这个定位是合理的。例如,“按用户”(per user) 定价在较低的自主性水平上是合理的(因为“副驾驶”需要人类用户在旁),但在较高的自主性水平上,一个智能体可以执行员工的大部分任务(并解锁新功能),“按智能体”(per agent) 定价并附带结果奖金可能更合理。

由于 SaaS 许可证和基于 API 使用量的定价模式已广为人知,我们在这里重点关注其他定价策略及其影响:

按结果付费 (Outcome based)

按结果付费经常被吹捧为 AI 商业化的“终极圣杯”,因为它让客户只在实现了特定的、预先定义的业务结果时才付费。一个很好的例子是 Intercom,它对其 Fin AI 智能体自主成功解决的每一次对话收取 0.99 美元,确保客户只在智能体交付成果时才付费。这样,价格就与交付的业务价值挂钩,客户的风险更低,而且因为它与有形的产出相联系,客户理解起来相对比基于 Token (也就是 AI 处理的文本单位) 的计算(感觉不直观)更容易。

然而,在实践中,由于多种原因,按结果付费很难实现。首先,你需要就客户重视哪些结果达成一致(而且不同客户可能重视不同的结果,所以你最终可能会有大量定制合同)。其次,你需要解决归因问题——例如,对于一个销售“副驾驶”,很难归因一个新客户的赢单有多少是由 AI 智能体驱动的,又有多少是由人类销售代表驱动的。与此相关的是如何衡量结果的问题——所有这些都使计算更加复杂。最后,它可能是不可预测的,因为很难提前预测某些结果(例如节省成本的百分比)——也就是说,你不仅不确定结果的大小,还不确定结果出现的时间(它可能会延迟)。以下是一位创始人的说法:

在以下情况下,按结果付费更容易实施:

  • 期望的结果定义明确,并且在你的客户中是相似的;

  • 智能体端到端地操作整个工作流或任务,因此更容易归因;并且

  • 当结果易于实时测量和监控时(就像 Intercom 的结果是二元的——要么智能体解决了,要么没解决,并且反馈很快就能收到)。

因此,我们预计会看到更多的混合模式,而不是纯粹的按结果付费,即“按智能体”的定价模式辅以结果奖金,而不是只为结果付费。

按用户付费 (Per user)

从预算分配的角度来看,这更容易让客户理解,而且对于“副驾驶”来说也是合理的,因为“副驾驶”必须有人类用户在旁。这种定价模式的缺点是,它没有区分你智能体 AI 解决方案的重度用户和轻度用户,导致轻度用户补贴了那些利润较低或负利润的重度用户。然而,如果你“副驾驶”产品的价位足够高,甚至可以覆盖支持重度用户的成本,那么这是一个很好的起点。正如一位创始人所说:

此外,如果你的智能体解决方案在自动化大量任务方面非常成功,它最终会减少你所能拥有的席位 (seat) (也就是付费用户数) ——因此它不适合高度自动化的解决方案。话虽如此,我们采访的大多数创始人都打算将他们的定价演变为混合模式,尤其是当他们实现更大自主性时。

按智能体付费 (Per agent)

当你自动化某个特定员工执行的绝大多数任务时,这是一种直观的定价模式;这样你就取代了一个人,这笔费用来自人力预算。它也是可预测的,易于客户理解。然而,我们观察到(采用这种定价模式的)创始人如何定位它的一个有趣维度——他们不是将产品定位为人类员工的替代品(或关注员工当前执行的任务),而是专注于 AI 智能体解锁的、人类员工无法实现的全新功能,这使他们能够收取更高的溢价。

按任务付费 (Per task)

这在直觉上很容易理解,因为它直接将使用量与成本联系起来(因此客户只需为他们使用的内容付费)。在难以预测要执行任务的频率和数量的情况下,这尤其有帮助。因为它与执行的任务相关联,它还帮助初创公司动用服务预算。

混合模式 (Hybrid)

我们越来越多地看到创始人选择混合策略,这通常涉及某种基础费用,外加可变定价,并设有套餐等级和超额费用。或者它可能是按智能体收费外加基于结果的奖金。或者它可能是按智能体收费外加按量计费的专用工具(所以这有点像一个人类员工要求 SaaS 工具来执行他们的工作)。如你所见,实施混合定价模型有多种方式。

它的好处是更灵活,并通过限制使用量来保护利润(因此初创公司可以控制成本并降低无利可图客户的风险)。然而,它可能很快变得复杂,帮助客户预测消耗量是关键——无论是通过对可能被自动化的现有工作量进行安装前分析,还是设置使用提醒和硬性使用限制,或信用结转,具体取决于混合模型的实施方式。

AI 智能体正越来越多地纳入业务线预算

我们问创始人:“你们目前在动用哪些企业预算?” 我们很高兴地看到,AI 智能体初创公司主要是在向业务线 (Line of Business) 或核心支出预算销售。这表明我们正在超越纯粹的实验阶段(那是创新预算的用武之地),AI 智能体正在对真实的业务用例或核心活动产生影响。这是追踪 AI 智能体主流化的一个绝佳方式——尽管目前的部署是“广”而不“深”,但这无疑是积极的。

我们的发现也得到了其他面向企业的调查的证实:

智能体部署的挑战

我们在调查中问创始人:“在为客户部署 AI 智能体时,你们遇到的最大问题是什么?请按严重程度排序(例如,第 1 位是最大的问题)”

前 3 大问题的结果很有启发性:我们经常听说集成遗留技术栈和处理数据质量问题很痛苦。这些问题并没有消失;它们只是被其他主要问题盖过了风头。即:

  • 难以将 AI 智能体整合到现有的客户/公司工作流中,以及人机界面的问题(60% 的受访者)

  • 员工抵触和非技术因素(50% 的受访者)

  • 数据隐私和安全(50% 的受访者)

工作流集成和人机界面

我们这里指的是概念层面(例如,我的流程、工作流甚至角色应该如何演变以适应 AI?AI 智能体可以在哪里以及如何帮助我?)和实践层面(例如,UI (用户界面) 应该是什么样子?)。

在概念上,终端用户需要一些时间来适应这种新范式。首先是接受并意识到流程需要改变,其次是弄清楚它们需要如何改变。这不仅需要终端用户弄明白,也需要为 AI 智能体解决方案做购买决策的团队弄明白。

在实践中,初创公司正专注于确保他们的智能体部署在用户需要的上下文中,并也出现在其他 UI 中(例如 ServiceNow、Slack),跨系统的工作流中。基本上,就是在用户所在的任何地方满足他们,使采用智能体的过程尽可能无摩擦。这也关乎确保工作流和输出是为人类用户定制的。正如一位创始人观察到的:

员工抵触和非技术因素

我们在调查结果中观察到一个有趣的模式,那些智能体自主性水平更高(9/10 或更高)的初创公司,更有可能报告员工抵触是一个更大的问题。那些在监管严格的行业和领域(医疗保健、合规)运营并因此需要高准确率的公司也指出,客户对智能体解决方案持怀疑态度。我们关于自主性、准确率及其对员工抵触影响的发现,都指向同一个问题:信任问题

这些信任问题不可避免地还有其他表现形式。我们与企业从业者的对话表明,人机协作并不总是运作良好;要么人类过度依赖 AI 导致 AI 给出错误的回应,要么他们过度不依赖 AI 并反复检查 AI 所做的一切,从而降低了效率。这种现象在麻省理工学院的一项研究中也观察到了,该研究表明,人机协作的表现往往不如 AI 或人类单独工作。其原因包括存在沟通障碍、信任问题、伦理担忧以及人与 AI 系统之间缺乏有效协调。正如一位创始人所说:

创始人指出的另一个主要非技术因素是,客户往往缺乏连贯的 AI 和数据战略,导致出现了大量的用例和测试试点,但没有大规模采用 AI 的统一计划。公平地说,另一位创始人强调:

与遗留技术栈的集成

这不是一个新问题;我们在企业软件上总是有这些问题。但这里有一个有趣的事实——42% 的企业需要访问八个或更多的数据源才能成功部署 AI 智能体。当你真正去解决这一切时就没那么有趣了:遗留技术栈并不总是有 API,文档缺乏,客户依赖各种超级封闭的古老应用程序,这些程序将公司知识封锁起来,所以数据是孤立和分散的……这样的例子不胜枚举。我们在这里不分享创始人的引述了,因为他们说的都大同小异,这说明了这种痛苦经历的普遍性,无需进一步阐述。

可观测性、监控和评估

在我们之前关于“负责任的 AI”的研究中,我们探讨了为什么确保 AI 系统按预期运行,以及解释 AI 模型做了什么和为什么这么做是如此困难。解释单个 LLM 驱动的智能体的行为已经够难了,但当多个智能体异步、动态地相互交互时,这种复杂性更是成倍增加。每个智能体都可能有自己的记忆、任务目标和推理路径,因此追踪导致最终决定或失败的事件链非常困难。而且,你在多智能体系统中可能会遇到级联错误,它们最终会相互强化彼此的错误决策。除非你有持续的监控和强大的评估 (eval) 机制,否则所有这些都很难被发现。通过确保 AI 智能体按预期工作,可观测性 (Observability)、监控和评估能给客户信心,让他们敢于向终端用户推出这些产品。这也关乎可追溯性。正如一位创始人强调的:

这里有个有趣的插曲:作为我们调查的一部分,我们问创始人:“你希望通过我们对 AI 智能体的研究了解到什么?什么对你最有帮助或最有用?” 令人惊讶的是,大量问题都围绕着可观测性和评估。敬请期待,我们将在即将发布的研究中涵盖它。

数据隐私和安全

这里有实际问题,也有感知到的问题。在实际问题方面,创始人谈到了一切,从为了满足大型金融服务机构对他们能或不能发送给 LLM 的数据的要求而进行大量工程(包括几次完全推倒重来),到为了克服医疗科技客户的问题而获得 ISO 27001 认证。然而,即使数据受到了保护,仍然存在感知到的问题,导致对智能体解决方案的抵触或推广缓慢。用一些创始人的观察来说明:

数据质量、数据基础设施问题

就像集成问题一样,数据质量和数据基础设施问题也不是新问题。我们调查中几乎所有的创始人都谈到,为了获得可靠的智能体工作流,他们不得不做大量的“数据清理”工作。然而,这个问题被加剧了,因为 AI 智能体旨在处理实际执行的任务,而客户的流程文档通常很差或已过时。更不用说,还有大量关于流程的隐性知识 (embedded knowledge) 存在于用户的脑海中。

基础设施成本

Sam Altman 在他的博客中指出:“使用给定水平 AI 的成本大约每 12 个月下降 10 倍,而更低的价格导致了更多的使用。” 尽管(对于给定水平的 AI)每个 Token 的价格已经下降,但更新的前沿推理模型更昂贵,并且消耗的 Token 数量猛增。Epoch AI 发现,推理模型的平均输出长度以每年 5 倍的速度增长(而“非推理”模型为 2.2 倍),并且推理模型总体上表现出更长的响应长度——平均比非推理模型多 8 倍的 Token。即使是一个简单的查询,内部可能也会使用大约 5,000 个推理 Token,才能返回一个仅 100 个 Token 的响应。Token 膨胀 (token bloat) 是一个真正的问题,而对高质量(和一致)模型输出的追求加剧了这个问题,正如一位创始人所呼吁的:

智能体基础设施主要在内部(in-house)构建

我们问创始人:“在构建、部署、监控智能体时,你们使用了哪些第三方的 AI 智能体基础设施解决方案?例如:用于记忆、工具调用、智能体框架、浏览器基础设施、智能体支付等的解决方案。”

根据他们的回答,我们发现 52% 的受访创始人(主要或完全)在内部(in-house)构建他们的 AI 智能体基础设施。我们认为这主要是由于智能体生态系统尚处萌芽阶段。

以下是我们创始人调查的一些摘录(点击轮播箭头查看更多引述):

在最常被提及的第三方工具中,ChatGPT 和 Claude 模型与 Google Agent Development Kit 一起最常被提及,而 LangChain(毫不奇怪)作为最受欢迎的框架出现。其他获得点名的工具包括:框架和编排平台 (Pydantic, Temporal, Inngest, Pipecat);监控、可观测性和评估 (Langfuse, Langtrace, Coval);智能体浏览器 (Browserbase, Browser Use, Strawberry) 和向量数据库 (Qdrant)。

我们的观察

基于我们对 40 多位企业从业者和初创公司创始人的采访,我们概述了初创公司在企业中成功部署 AI 智能体所采取的共同方法。

用例的战略性推广

我们所见过的最成功的部署策略始于:

  • 简单、具体、具有明确价值驱动因素的用例,低风险但中等影响

  • 不会对现有工作流造成重大干扰;

  • 最好是自动化一个人类用户讨厌(或是已外包)的任务;

  • 工作流的输出可以被人类轻松/快速地验证其准确性或适用性;并且

  • 快速展示清晰的投资回报率 (ROI)

鉴于当前的技术发展水平,AI 智能体在狭义地应用于非常具体的任务并在特定上下文中操作时效果最佳。例如,我们在医疗保健的收入周期管理流程(理赔和拒付管理)中看到了这一点,这些流程医疗系统已经外包给第三方提供商。

AI 智能体的“落地与扩张”(land-and-expand) 策略与传统 SaaS 非常不同。鉴于企业越来越受到 C 级别高管 (也就是 CEO, CFO, CTO 等最高管理层) 的压力,要求将 AI 融入他们的工作,初创公司“落地”的机会很多,但“扩张”要困难得多——不仅如此,即使他们想要扩张,也需要更长的时间,因为这是一个逐个用例推广的过程。就像大众汽车那标志性的广告一样,有时候最好“从小处着想”(Think Small),首先建立信任,而不是一上来就尝试太多用例(以及过于复杂的用例)。

“手把手”的贴身服务

AI 智能体在企业中的成功部署需要大量的“手把手”指导和教育。这主要是因为企业通常不完全清楚应用 AI 智能体的最佳用例、技术的机遇和局限性、如何最好地使用这些工具、如何重新设计工作流……更关键的是,如何评估和购买 AI 智能体产品。

研讨会和咨询式 GTM (Go-to-Market, 市场推广策略):在最初阶段进行安装前分析和研讨会,对于设定和管理预期至关重要,涵盖从识别智能体能或不能提供帮助的领域,到预先明确预期使用量和定价等所有方面。例如,Health Force(在医院自动化日常行政任务的 AI 智能体)会免费进行 AI 准备度评估,并帮助医院确定 AI 智能体在哪些工作流中最有益。或者 Runwhen(服务于开发者体验的 AI 智能体)会对现有的警报或聊天进行安装前分析,并衡量哪些可以通过 Runwhen 实现自动化。使用咨询式的 GTM 方法也让企业对第三方解决方案的可定制程度感到放心(每个组织都有一些独特的工作流,纳入他们的特定需求是推动采用的关键)。

前线部署工程师 (FDE, Forward Deployed Engineers) 推动采用:前线部署工程师 (FDE) 是一种直接与客户合作的软件工程师,通常嵌入到他们的团队中,以解决复杂的现实世界问题——因此这是一个混合角色,FDE 既是软件开发人员、顾问,也是产品经理,三位一体。

我们交谈过的大多数智能体初创公司发现,在向那些数据复杂且分散在不同数据源的企业/中端市场客户销售时,Palantir 式的前线部署(也就是派工程师常驻客户现场)很有用。但还存在其他形式的复杂性,例如产品复杂性和流程复杂性,这需要在一开始就与客户建立更深的合作伙伴关系,以确保智能体解决方案正在实现预期的结果。数据集成、产品和业务流程越复杂,就越需要 FDE 来帮助推动客户实现最佳结果。

人机界面和 3E(教育 Education、娱乐 Entertainment 和预期管理 Expectation management):正如我们前面观察到的,我们的调查表明 60% 的 AI 智能体初创公司在工作流集成和人机界面方面遇到困难。像 Strawberry(浏览器上的 AI 智能体)这样的初创公司正致力于构建这个问题的多个维度,例如:(a) 超越仅仅是聊天机器人式的界面;(b) 让 AI 智能体自己教育客户他们能做什么或不能做什么,并就如何更好地使用产品给出建议,同时管理期望;(c) 让 AI 智能体变得有趣或引人入胜。就我们而言,我们被 Strawberry 的智能体逗乐了,比如“领英莱纳斯”(LinkedIn Linus)、“竞对卡米尔”(Competition Camille) 或“数据提取丹尼斯”(Data Extraction Denise)(如你所见,我们对押头韵情有独钟)。

除了(以引人入胜的方式)教育客户如何最好地使用智能体和管理期望外,创始人还专注于使人类用户能够教育智能体,以便用户可以引导智能体的行为,以反映不断变化的优先级和工作量,并捕捉用户独特的工作风格。用户需要足够喜欢与智能体一起工作,才会去主动推广它(显然,不能再有 Clippy 了!)

产品定位

我们从 AI 智能体创始人那里收到的一个常见问题是,当每个人的营销听起来都一样时,如何定位他们的产品。此外,许多解决方案声称使用 AI 智能体;他们过度承诺却交付不足,导致买家疲劳和怀疑——从而为真正高质量的 AI 智能体解决方案创造了一个难以脱颖而出的挑战性环境。采取一种咨询式、协作式和问题导向的方法来展示真正价值至关重要(我们上面已经描述过),但定位的各个维度(我们将在下面讨论)也同样重要。我们完全承认,定位很大程度上是当前认知和技术发展水平的产物;随着这些系统获得更主流的接受,并且智能体能够可靠地实现更高水平的自主性,毫无疑问,定位策略也会随之演变。

提不提 AI,这是个问题:我们观察到定位策略中一个有趣的二分法。在像医疗保健这样的垂直领域,创始人们正在积极淡化在他们的解决方案中使用 AI 智能体。正如医疗保健领域的两位创始人所观察到的:

然而,在金融服务等垂直领域,创始人们正在突出展示他们的“AI 智能体”主张,因为 AI 优先的定位能与用户和买家产生共鸣。好消息是,在(医疗保健之外的)大多数垂直领域,“AI 智能体”的定位反响良好(前提是它满足我们在“用例的战略性推广”一节中概述的所有标准)。

自主性水平:我们交谈过的大多数创始人都选择使用“副驾驶”(co-pilot) 的方法来销售,即使他们的解决方案有能力实现更高水平的自主性。这主要是为了与客户建立信任。例如,Juna AI(其智能体在重工业中优化复杂的制造流程)就是从“副驾驶”方法开始的,智能体向客户提供有关如何以最佳方式运行系统的建议,而客户仍然可以选择是否实施它。虽然最终目标是实现更高水平的自主性(该解决方案当然有这个能力),但目前还只是在“小步快跑”。

我们交谈过的大多数从业者觉得他们正处于一个学习旅程中,相比完全自主的方法,他们更喜欢“副驾驶”的方法(尽管这同样取决于 3 个因素:被自动化任务的关键性/影响,审计 AI 可能犯的错误并在它造成任何伤害前捕获它们的难易程度,以及它是否解锁了一项全新的能力,例如执行一项人类以前无法完成的任务)。然而,能够轻松审查 AI 智能体的输出是至关重要的。

增强,而非替代:与前一点关于较低自主性水平相关,那些将自己定位为“增强”而非“替代”现有员工或遗留技术栈的初创公司,发现更容易在大型企业中站稳脚跟。如果他们推出的是以前不可能实现的全新功能,那就更好了。从技术角度来看,“推倒重来”(rip-and-replace) 对于那些在现有 ERP(如 SAP)之上构建了复杂下游工作流的客户来说是困难的,而初创公司(例如采购领域的 askLio)则专注于与现有技术合作,以实现更快的部署。从员工的角度来看,我们还没有达到大多数 AI 智能体足够可靠或能胜任如此多自动化端到端工作流的水平,以至于企业可以考虑真正替换全职员工 (FTE, Full-Time Equivalent)。或者,即使这两点都成立(回到我们早先关于自动化水平的观点),企业从业者对高度自主的部署也更加谨慎。

价值主张和 ROI 的阐述:我们可以从两个方面分析这个问题:(1)价值主张已广为人知,因此相对容易阐明 ROI;或(2)AI 智能体解锁了全新的能力(因此很难与现有解决方案比较),从而更难描述 ROI。

让我们来看第一种情况,即用例更容易理解且 ROI 更容易阐明,因为它是一个既定的工作流。在这里,通常是关于宣传节省时间和成本和/或提升收入。例如,Covecta(用于金融服务的 AI 智能体)谈到在起草详细信贷申请等任务上节省了 70% 的时间,而 Biorce(加速药物开发的临床 AI 平台)则从劳动力成本节省和加快上市时间 (time-to-market) 两方面来谈论 ROI(Biorce 的计算是,在其平台上花费一小时可节省 720 个人工小时),而更快的上市时间本身就创造了收入加速的机会。信贷申请和药物发现仍然是很好理解的;但像生成式 UI (Generative UI) 这样的全新发展呢?

这就带我们到了第二种情况。像 Architect 这样的初创公司提供 AI 智能体来为每个访问者构建、个性化和优化你的网页——我们称之为“生成式 UI”,因为网站的视觉呈现、内容和访问者体验会根据观看者是谁而即时改变。鉴于解决方案的新颖性,推销产品可能具有挑战性,但 Architect 通过将产品定位为广告系统/平台(如 Google AdWords)的补充来克服这一点,并通过转化率的提高来衡量成功(强调实用性,而不仅仅是新颖性)。

鉴于我们在 2019 年就投资了 Synthesia(一个生成逼真虚拟人表演的 AI 视频平台),我们亲眼目睹了拥有高度新颖技术的初创公司如何通过强调实用性而非新颖性来获得广泛采用。我们不认为(针对全新用例的)AI 智能体浪潮会有任何不同。

迈向理想的终局

今天的 AI 智能体在很大程度上仍然是被动的,因为它们是响应人类的提示或明确的用户指令来行动的。然而,在未来,我们期望看到更多的环境智能体 (ambient agents)主动智能体 (proactive agents),它们能自己发起任务,并能更有效地围绕边缘情况进行推理,以便即使在不确定的情况下,任务执行也是稳健的。这意味着智能体需要具有适应性而又不失可靠性,它们需要持续学习并长期保留这些记忆(就像一个人类同事了解你的组织一样)。今天,它们在组织内部更受约束和受控的环境中运作,但我们看到智能体最终会与“开放”环境互动——跨越不同组织与其他智能体接触和谈判,雇佣其他智能体,并像人类同事一样与更广泛的世界互动。

问题是:我们如何到达那里?我们将在关于 AI 智能体系列的接下来 3 个部分中探讨这一点,我们将重点关注那些正在做以下事情的技术和初创公司:(a) 使 AI 智能体能够访问准确、相关和最新的信息,以及管理上下文工程 (Context Engineering) 和记忆;(b) 使智能体能够可靠地执行操作,无论是通过安全的工具执行还是智能体浏览器来帮助智能体像人类一样在视觉世界中导航;(C) 确保智能体是可信、可靠的,并且对对抗性攻击 (adversarial attacks) 或意外的故障模式具有鲁棒性 (robust) (也就是“抗打击能力”)。

如果你是一位正在构建能让我们更接近理想终局的产品的创始人,请联系 AdvikaSeviMina —— 我们很乐意与你聊聊。


来源:https://mmc.vc/research/state-of-agentic-ai-founders-edition/