如何管理生成式AI

2024-03-11 51CTO

作者丨Dom Couldwell

编译丨诺亚

出品 | 51CTO技术栈（微信号：blog51cto）

根据麦肯锡公司的估计，生成式人工智能预计每年将为全球经济带来2.6万亿至4.4万亿美元的经济效益。这一预测基于63个新的应用场景，这些场景有望在多个市场中为客户带来改进、效率提升和新产品。这对于开发者和IT领导者来说都是一个巨大的机遇。

生成式AI的核心在于数据。数据赋予了生成式AI理解和分析我们周围世界的能力，并与之互动，为其变革性的能力提供动力。要在生成式AI领域取得成功，公司需要妥善管理和准备数据。

同时，你还需要为构建和运营大规模的AI服务打下基础，并以明智且可持续的方式为生成式AI项目提供资金支持。缓慢起步并逐渐减弱的方式无法赢得这场人工智能竞赛。这意味着你不仅要在数据层面做好充分准备，还要有策略地扩大AI服务规模，并确保项目资金来源稳定，以支持长期发展和持续创新。

如果我们不改进数据管理方式，或未能采取正确的方法来应对规模扩大和成本控制问题，那么生成式AI蕴含的巨大潜力将会被白白浪费掉。以下是一些关于我们如何改进数据管理方法以及如何长期支持生成式AI项目的思考。

1.数据从哪里来

数据以多种形态存在，每种形态的数据如果使用得当，都能提升生成式AI洞察的丰富性和质量。

第一种形式是结构化数据，它以规则有序且一致的方式组织起来，包括产品信息、客户人口统计资料或库存水平等项目。这类数据提供了有组织的事实基础，可以添加到生成式AI项目中以提高响应的质量。

此外，您可能还有外部数据源可以补充内部结构化数据源，例如天气报告、股票价格或交通流量等。这些数据能够为决策过程带来实时和真实世界的背景信息，将其融入项目可提供额外高质量数据，但可能没有必要自行生成这类数据。

另一种常见的数据集是衍生数据，涵盖了通过分析和建模场景创建的数据。此类深度见解可能包括客户意图报告、季节性销售预测或群体分析等。

最后一种常见数据形式是非结构化数据，与分析师习惯的常规报告或数据格式不同，这类数据包括图像、文档和音频文件等格式。这些数据捕捉到了人类沟通和表达的细微之处。生成式AI程序常常围绕图像或音频工作，它们是生成式AI模型的常见输入和输出。

2.要让生成式AI实现大规模应用

所有这些多样的数据集各自存在于自己的环境中。为了使其对生成式AI项目有用，关键在于使这一多样化的数据景观在实时情况下可供访问。由于涉及如此大量的潜在数据，任何方法都必须能够在需求增长时动态扩展，并在全球范围内复制数据，确保资源在接到请求时能靠近用户，从而避免停机时间并减少交易请求中的延迟。

此外，还需要对这些数据进行预处理，以便生成式AI系统能够有效利用。这涉及到创建嵌入（embeddings），即代表语义含义的数学值，即向量。嵌入使得生成式AI系统能够超越特定文本匹配，而是涵盖数据内含的意义和上下文。无论原始数据形式如何，创建嵌入意味着数据能够被生成式AI系统理解并使用，同时保留其意义和上下文。

通过这些嵌入，企业可以支持跨所有数据的向量搜索或混合搜索，同时结合价值和意义。然后将这些结果收集起来传递回用于整合结果的大规模语言模型（LLM）。通过从多个源头提供更多数据，而不是仅仅依赖LLM本身，你的生成式AI项目就能为用户提供更准确的结果，并降低虚构内容的风险。

为了在实践中实现这一点，必须选择正确的底层数据架构。在这个过程中，应尽可能避免数据分散在不同解决方案中形成碎片化拼凑，因为每一个这样的解决方案都代表着一个需要长期支持、查询和管理的数据孤岛。用户应该能够快速向LLM提问并迅速得到回应，而不是等待多个组件响应并由模型权衡其结果。统一的数据架构应当提供无缝的数据集成，使生成式AI能够充分利用所有可用的数据频谱。

3.模块化方法的优势

为了扩展生成式AI实施，需要在加快采用速度与保持对关键资产的控制之间取得平衡。采用模块化的方式来构建生成式AI代理可以使这个过程变得更容易，因为它可以分解实施过程，避免潜在的瓶颈。

类似于微服务设计在应用程序中的应用，AI服务的模块化方法也鼓励围绕应用程序和软件设计的最佳实践，消除故障点，并让更多潜在用户能够接触这项技术。这种方法还使得监控整个企业中AI代理的表现变得更容易，能够更精确地找出问题发生的位置。

模块化的第一个好处是可解释性，因为参与生成式AI系统的各组成部分彼此分离，这样就更容易分析代理是如何运作和作出决策的。AI通常被视为“黑箱”，而模块化使得跟踪和解释结果变得更加容易。

第二个好处是安全性，因为各个组件可以通过最佳认证和授权机制进行保护，确保只有授权用户才能访问敏感数据和功能。模块化还使得合规和治理变得更容易，因为个人身份识别信息（PII）或知识产权（IP）可以得到保障，与底层LLM保持分离。

4.提供持续灵活的资金模型

除了采用微服务方法之外，还应在整体生成式AI项目中采用平台思维模式。这意味着取代传统的基于项目的软件项目资金模型，转而提供一种持续和灵活的资金模型。这种方法赋予参与者基于价值做决策的能力，能够响应新兴机会，并发展最佳实践，而不受制于僵硬的资金周期或商业案例。

以这种方式管理预算还能鼓励开发人员和业务团队将生成式AI视为组织已有的基础设施的一部分，从而更容易平滑规划工作负载的高峰和低谷，更容易采取“卓越中心”的方法并在长期内保持一致性。

类似的做法是将生成式AI视为企业自身运营的产品，而非单纯的软件。AI代理应作为产品来管理，因为这更能有效地体现其所创造的价值，并使整合、工具和提示方面的支持资源更容易获得。简化这种模式有助于在整个组织内普及对生成式AI的理解，促进最佳实践的采纳，并营造出共享专业知识和协作的生成式AI开发文化。

生成式AI具有巨大的潜力，各公司正竞相在其运营中实施新的工具、代理和提示。然而，要将这些潜在项目投入生产，就需要有效管理数据、奠定系统规模化发展的基础，并建立合适的预算模型以支持团队。合理安排流程和优先级将有助于你和你的团队释放这项技术的变革潜力。

参考地址：https://www.infoworld.com/article/3713461/how-to-manage-generative-ai.html