使用 Amazon SageMaker 和 Amazon CodeWhisperer，解锁数据见解_数据分析

关键字: [amazon web services re:invent 2023, amazon kendra, generative ai, amazon sagemaker, amazon kendra, amazon bedrock, vector databases]

本文字数: 1700, 阅读完需: 8 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/bv19j41157ux

导读

由于数据准备、清理、探索和可视化效率低下，从数据中获取见解可能是一项挑战。在本论坛中，了解 amazon sagemaker 与 amazon codewhisperer 的功能如何彻底改变数据准备和数据管理工作流。探索数据准备过程，以及如何使用特定于领域的数据集微调基础模型。通过 amazon sagemaker 了解如何使用具有定制数据、向量数据库和开放访问大语言模型，发挥生成式 ai 的价值。

演讲精华

以下是小编为您整理的本次演讲的精华，共1400字，阅读时间大约是7分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

在这个视频中，超过100名与会者聆听了亚马逊云科技开发者关系团队的victoria和linda的介绍。他们分享了如何运用生成性ai服务，尤其是amazon sagemaker和amazon codewhisperer，从数据中提取有价值的信息。

作为re:invent的常客，victoria在会议上热情地欢迎了首次参加峰会的与会者。她注意到很多人举手表示赞同，并提到尽管她已经参加了三次峰会，但每年的活动都在不断改进。她鼓励与会者在会后提出任何问题，承诺她和linda会非常乐意提供关于会议期间的高级技巧或有趣活动的指导。

作为一名亚马逊云科技开发者关系团队的一员，victoria和linda非常享受他们的工作，因为这使他们有机会参加各种活动、创建教育内容，以及最重要的是收集用户反馈，以便与客户一起推动产品创新。例如，医疗保健提供者可以提供关于改进医学成像分析的意见，而制造业公司可能提供关于预测性维护使用情况的见解。她邀请观众在活动期间向他们提供任何他们希望分享的产品反馈。

在深入讨论议程之前，victoria向观众提问，是否有人还记得曾经需要翻阅图书馆的实体书籍来查找单一信息的时期。当听到有些人能够回忆起这种过时的经历时，她将之与将大量数字文档、研究论文和网站汇集到一个机器可读格式的可能性进行了对比。例如，一位生物学专业的学生可以将所有的教科书和笔记输入到一个由生成性ai驱动的系统中。通过为这些生成性ai基础模型补充这种聚合数据，可以立即提供答案，而不是需要进行广泛的搜索。她为如何在即将进行的演示中展示实现这些功能的技术设定了基调。

维多利亚详细地阐述了传统ai与生成性ai之间的差异。在过去，为了实现单一任务（如物体识别）而开发ai解决方案需要经过数月的时间，包括数据准备、标注、模型训练和调整优化等环节。然而，现在通过在大规模数据集（包含数十亿参数）上训练的生成性ai基础模型，一次就可以解决多种任务。例如，银行可以利用预训练的模型来分析客户交易数据，而不需要从头开始构建定制的欺诈检测模型。她强调，本次会议的重点是利用企业数据来定制这些通用模型。

在介绍支持生成性ai应用的技术栈时，维多利亚描述了顶层用户面向的应用程序（如alexa或chatgpt），它们是由中间的基石模型驱动的。她将基石模型分为专有模型（如amazon titan，拥有700亿参数）和anthropic claude以及可以通过模型中心自行管理和访问的开源模型。技术栈的底层包括云平台（如亚马逊云科技亚马逊云科技），它提供工具、硬件和基础设施来训练和提供服务这些模型。

维多利亚通过一个示例展示了人类如何与这个技术栈互动：从包含指令、背景信息和用户问题的提示开始。该提示被大型语言模型用于生成输出响应。虽然这个界面可能看起来神奇，但她警告说这是一个仍有幻觉倾向的不完美技术，即模型编造出的完全错误的回应。例如，当被问到“什么是amazon bedrock?”时，模型给出了一个听起来合乎逻辑但完全是虚构的错误解释。她强调，我们需要设置护栏并确保质量保证，而不是盲目信任这些模型。

为提高模型准确性，她提出了三种方法：优化提示以调整输入模型的提示；提供额外的训练数据；将模型连接到外部数据源进行信息检索。信息检索将成为演示的重点，展示如何整合真实的企业数据。

为了实现高效的信息检索，维多利亚在堆栈中引入了一个新的协调层，从而在qa流程中实现了基础模型与数据源的连接。她重点关注了诸如amazon codewhisperer等新兴开发者工具，这些工具能够在不使用实际代码的情况下，通过通俗易懂的英语进行编码。例如，开发人员可以用自然语言描述所需的功能，而codewhisperer将会生成相应的代码。了解了生成性人工智能领域的知识后，她进行了现场编码演示。

linda在现场演示中，使用了来自亚马逊kendra的企业数据来扩充基础模型，展示了构建一个高度准确的qa系统的过程。她概述了用于模型构建、训练、部署以及与sagemaker jumpstart中的生成模型集成的亚马逊sagemaker。因此，一位制造工程师可以快速部署一个用于检测生产线图像中缺陷的模型。

linda还展示了亚马逊kendra的50多个无代码连接器，用于从csv文件和网站抓取器中摄取美国通货膨胀数据，并将其创建为可搜索的索引。此外，她还添加了一份包含100多页的年度报告pdf，以展示kendra处理非结构化数据的能力。这使得一名财务分析师能够迅速为易于分析的盈利报告建立索引。通过使用通过sagemaker部署的拥有70亿参数的llama基础模型端点，她展示了在没有提供任何企业数据背景的情况下查询可能失败的情况。

linda随后使检索工作流程能够将来自kendra的背景信息传递回llama基础模型api，以便获得准确的响应。她仅用几行代码就回答了关于2022年8%的通货膨胀率和星巴克报告中的2022年开业437家商店等指标的问题。这展示了将相关企业数据扩充到生成性模型的强大能力。

维多利亚对linda在各种数据源的利用表示赞赏。接下来，她接手介绍了另一种使用向量数据库和亚马逊bedrock的替代方法，以解决不同的用例。为了解决之前给出的不正确亚马逊bedrock解释问题，维多利亚决定使用正确的文档来修复模型的响应。

她选择了向量数据库作为解决方案，解释原因是其优化了相似性搜索，支持多种数据类型，并能处理高维数据。这种向量数据库有助于基因检测公司快速找到相似的dna序列。她展示了更新后的架构，并提到了使用pinecone向量数据库和llm chain在数据库和amazon bedrock间协调数据检索的过程。

维多利亚描述了amazon bedrock作为一种无状态api，无需管理部署基础设施，如sagemaker端点。移动应用开发者可在不配置任何后端服务器的情况下访问bedrock api。bedrock的实验环境允许在使用编程方式实现之前交互地比较模型，例如anthropic、ai21和stabilityai。

在她的演示中，维多利亚下载两份每份超过100页的bedrock文档，并将每份文档分成每个1000个标记的片段以适应模型限制。使用具有8000个标记容量的amazon titan模型，她将片段转换为1536维的向量嵌入并将其加载到pinecone中。通过集成llm chain和bedrock api，她展示了如何通过从pinecone检索相关向量来修复bedrock的解释并提供有用上下文。

总结两个演示，维多利亚概述了sagemaker和bedrock访问基础模型间的差异，以及kendra和向量数据库在实现信息检索方面的差别。她的结论是，根据使用情况与数据反向选择服务将是最佳组合。

在结束语中，琳达总结了三个关键收获。首先，基础模型存在局限性，需要通过技术如信息检索来提高准确性。其次，选择合适的应用场景将决定服务和数据源的选择。最后，企业数据的定制化是将通用应用与定制解决方案区分开的关键。她鼓励与会者开始使用sagemaker、bedrock和codewhisperer等资源来开展项目。

维多利亚与琳达通过令人信服的表现展示了生成性人工智能的功能，给人们留下了深刻印象。他们有效地强调了亚马逊一系列服务如何通过积木般的方式组合在一起，以创建个性化的ai应用，从而从数据中提炼出见解。毫无疑问，与会者们受到了这一承诺的激励，并渴望运用这些工具来解决实际问题。

下面是一些演讲现场的精彩瞬间：

来自亚马逊云科技的开发者关系团队的专业人士邀请了与会者分享他们的产品反馈。

会议议题涵盖了利用生成性ai服务挖掘数据洞察、通过amazon sagemaker和amazon kendra进行现场编程展示、运用amazon bedrock和向量数据库优化检索生成方法以及总结主要收获。

这一体系包含三个层面——基于基础模型面向用户的应用程序，这些应用部署在提供硬件和工具的云平台之上。

领导者们解释了基础模型有时会提供虚假答案的原因，并强调了质量保证的重要性。

他们探讨了三种提高模型准确性方法：提示工程、精细调整和信息检索。

亚马逊云科技的领导者们强调了如何通过amazon sagemaker轻松获取基础模型以应用于机器学习。

演讲者还介绍了与演示内容相符的三个实用研讨会——sagemaker、bedrock和codewhisper——让与会者能够进一步探索实践。

总结

维多利亚与琳达来自于亚马逊云科技的开发者关系团队，他们在会议上展示了两个项目，揭示了如何通过使用生成性人工智能和企业数据来构建高度精确的ai系统。

在第一个项目中，琳达向大家展示了如何利用amazon sagemaker、amazon kendra和codewhisperer共同构建一个能从多种数据来源检索相关信息并回答关于美国通货膨胀率问题的系统。她使用sagemaker部署了一个基本模型，并将各种数据源如csv文件、网页和pdf等连接到kendra索引，再通过kendra的检索api搜索索引并对基本模型的回答进行优化。这种技术使得企业可以利用自身数据进行定制化系统的开发。

在第二个项目中，维多利亚则展示了如何使用亚马逊bedrock和pinecone的向量数据库来解决关于bedrock的定义问题。她通过bedrock api访问基础模型，而不需要在sagemaker中部署模型。接着，她将文档转换成向量并将其储存在pinecone的向量数据库中进行快速相似性搜索。通过协同运作向量数据库、bedrock和基础模型，她从文档中提取相关上下文提供给bedrock，从而生成准确的摘要。

总的来说，尽管基础模型具有一定的局限性，但通过定制化等方式可以克服这些限制；不同类型的数据显示了它们在不同应用场景下的价值；企业自身的数据对于构建精准且个性化的系统起着至关重要的作用。会议中还提供了相关资料，以帮助大家开始构建自己的生成性ai应用。

演讲原文

想了解更多精彩完整内容吗？立即访问re:invent 官网中文网站！

2023亚马逊云科技re:invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（amazon web services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。

使用 Amazon SageMaker 和 Amazon CodeWhisperer，解锁数据见解

2024年08月04日 • 数据分析 •我要评论

视频

导读

演讲精华

总结

演讲原文

想了解更多精彩完整内容吗？立即访问re:invent 官网中文网站！

即刻注册亚马逊云科技账户，开启云端之旅！

亚马逊云科技是谁？

相关文章:

hive架构详解：HQL案例解析(第15天)

搭建HBase2.x完全分布式集群（CentOS 9 + Hadoop3.x）

有哪些人工智能/数据分析领域可以考取的证书？

【人工智能】-- 搜索技术（状态空间法）

发表评论


验证码：