可以说,如果把LLM比作是容易失忆的大脑,那么向量数据库就是这个大脑的海马体。

对此,亚马逊云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。
Amazon Aurora/Amazon RDS PostgreSQL,能够兼容开源PostgreSQL,易于学习。
Amanzon OpenSearch具备向量和倒排召回能力,可利用现有集群,同时能提供日志检索能力。
Amazon Kendra是基于机器学习的端到端智能检索服务,能够帮助用户使用自然语言搜索非结构化文本。
场景四:输出结果缓存
缓存,是一种存储数据的组件,作用就在于能够让数据的请求更快地返回。
直白讲,我们每次用网页查询后的信息,都会被缓存,当下次再访问的时候,加载就更快了。
对于生成式AI应用来说,用户发出请求时,需要调用模型,输出结果。
但是,就像ChatGPT这样的爆火应用,每天收到大量请求,就会出现高并发阶段,存储数据量暴增,数据库的磁盘IO就成为了瓶颈。
因为,数据库的速度和吞吐量,是影响生成式AI应用程序整体性能的重要因素。
这时,就需要一种访问更快的组件——缓存,来提升系统的整体性能。
就是将之前调用LLM输入输出结果进行缓存,当后续请求与之前输入「相似」时,直接就返回内存数据库调用结果,完成输出。
这样一来,就做到了就无需调用模型就能得到结果,不仅提高了应用的反应率,还降低了模型的调用成本。

亚马逊云科技对此提供了三种解决方案。
通过针对Redis或Memcached引擎的亚毫秒级的响应时间,Amazon ElastiCache可用作高可用性内存缓存,以减少访问延迟、提高吞吐量并减轻关系数据库或NoSQL数据库的负载。
Amazon ElastiCache for Redis可以提供查询结果缓存、持久会话缓存和整页缓存。

另外,Amazon MemoryDB for Redis专为带有微服务架构的现代化应用程序而构建,与Redis兼容、持久的内存数据库服务,可提供超快的性能。
通过解决这四大场景的需求,亚马逊云科技也就保障了每个企业都可以充分利用核心的数据,来构建自己独有的优势。
数据质量决定了模型质量,是构建应用的关键
数据质量,不仅决定了模型质量,同时也是构建生成式AI应用的关键。
而数据治理,便是这些应用落地的保障。

Gartner数据显示,到2025年,寻求扩大数字业务规模的组织中有80%将因不采用现代的数据和分析治理方法而失败。
只有实施正确的管理策略,团队才能随时访问高质量的数据。

但是在实践中,创建正确的管理控制,往往既复杂又耗时。
ETL是指数据的提取、转换和加载过程。以往,业务数据往往需要通过ETL,才能进行分析从而提供洞察。
然而,这一过程非常耗时且复杂,需要管理复杂的转换代码和数据管道,以及投入一批具备专业ETL技能的工程师,曾被亚马逊云科技CEO Adam描述为「不讨好、不可持续的黑洞」。

数据集成不应是一项人工工作的无底洞,我们需要快速、轻松地连接到所有数据,并加以使用。
而「Zero ETL」,就是亚马逊云科技迈出的关键一步。
Amazon Zero ETL能够大大帮助客户简化数据ETL,减少数据质量问题。
具体来说,它没有ETL流水线,可以实现交易数据的实时分析和机器学习,还能综合来自多个Aurora数据库的数据见解。

此外,亚马逊云科技数据服务可以与外部数据库实现Zero的集成。
让数据实现一体化融合,将其数据库、数据服务底层打通,由此,数据就实现了「无感知」流动。
另外,亚马逊云科技提出了敏感数据保护方案——Amazon DataZone。
它使用内置治理的统一平台,能够跨组织边界解锁数据价值。
它支持整个集团的数据发现、管理跨部门的访问和使用生命周期,对数据的共享方式和授权人进行全面的控制和知晓审计的能力。
在以往,数据协作过程中,往往存在着重重困难。

微信扫一扫 