mysql 9.0 正式版已经发布,其中一个亮点就是向量(vector)数据类型的支持,本文给大家详细介绍一下这个新功能。
向量类型
mysql 9.0 增加了一个新的向量数据类型:vector。它是一种可以存储 n 个数据项的数据结构(数组),定义方式如下:
vector(n)
其中,每个数据项都是一个 4 字节的单精度浮点数。默认的数据项为 2048 个,最大值为 16383。
向量类型的数据可以使用二进制字符串或者列表分隔的字符串表示,例如:
create table t(id int, rgb vector(3)); insert into t values (1, to_vector('[255,255,255]')); insert into t values (2, to_vector('[128,255,0]')); insert into t values (3, to_vector('[0,65,225]'));
向量函数
mysql 9.0 同时还增加了一些用于操作 vector 数据的向量函数。
首先,string_to_vector 函数用于将字符串形式的向量数据转换为二进制,例如:
select hex(string_to_vector("[1.05, -17.8, 32]")); hex(string_to_vector("[1.05, -17.8, 32]"))| ------------------------------------------+ 6666863f66668ec100000042 |
string_to_vector 函数的参数是一个字符串,包含一组由逗号分隔的浮点数,并且使用方括号([])进行引用。
to_vector 函数是 string_to_vector 函数的同义词。
其次,vector_to_string 函数用于将向量数据转换为字符串,例如:
select vector_to_string(string_to_vector("[1.05, -17.8, 32]")); vector_to_string(string_to_vector("[1.05, -17.8, 32]"))| -------------------------------------------------------+ [1.05000e+00,-1.78000e+01,3.20000e+01] | select vector_to_string(0x00000040000040400000a0400000e040); vector_to_string(0x00000040000040400000a0400000e040)| ----------------------------------------------------+ [2.00000e+00,3.00000e+00,5.00000e+00,7.00000e+00] |
输出结果中的浮点数使用科学计数法表示。
from_vector 函数是 vector_to_string 函数的同义词。
最后,vector_dim 函数用于返回向量数据的维度,也就是数据项的个数。例如:
select vector_dim(rgb) from t; vector_dim(rgb)| ---------------+ 3| 3| 3|
使用限制
vector 数据类型存在以下限制:
- vector 数据不能和其他类型的数据进行比较,vector 数据只能和其他 vector 数据进行等值比较。
- vector 类型的字段不能作为任何类型的键值,包括主键、外键、唯一键以及分区键。
- vector 类型的字段不能作为直方图的统计源。
- 一些 mysql 字符串函数可以使用 vector 数据作为参数,包括 bit_length()、char_length()、hex()、length() 以及 to_base64()。其他字符串函数不支持 vector 类型的参数。
- vector 数据可以作为以下加密函数的参数:aes_encrypt()、compress()、md5()、sha1()、sha2()。其他加密函数不支持 vector 类型的参数。
- vector 数据可以作为 case 运算符和 coalesce()、ifnull()、nullif() 以及 if() 函数的参数。
- vector 数据可以作为 cast(expression as binary) 的参数,结果返回 vector 数据的二进制字符串。cast 函数不支持将数据转换为 vector 类型,推荐使用 string_to_vector 函数。
- 除了count 函数之外,vector 数据类型不能作为其他聚合函数或者窗口函数的参数。
- vector 数据不能作为以下函数或运算符的参数:数字函数和运算符、时间函数、全文检索函数、xml 函数、位操作函数以及 json 函数。
总结
首先,对于向量数据的支持是一个重大的改进,可以为 mysql 增加向量存储功能。
不过,目前 mysql 9.0 只有简单的 vector 数据类型和转换函数,还没有提供向量相似度(余弦相似性、欧氏距离、内积相似性等)检索功能,以及优化查询性能的向量索引,距离一个实用的向量数据库还有一些差距。
到此这篇关于mysql9.0新特性向量存储的使用的文章就介绍到这了,更多相关mysql 9.0 向量存储内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论