MongoDB中单对象大小超16M的存储方案_Nosql

在 mongodb 中，单个文档的大小限制为 16mb。如果某个对象（文档）的大小超过 16mb，可以通过以下几种方案解决：

1. 使用 gridfs

适用场景：需要存储大文件（如图像、视频、文档等）。

原理

mongodb 的 gridfs 是一种专门用于存储超过 16mb 文件的工具。
它会将大文件分割成多个 chunk（默认大小 255kb），并存储在两个集合中：
- fs.files：存储文件的元数据（如文件名、大小、类型等）。
- fs.chunks：存储文件的内容分块。

实现步骤

存储大文件 使用 mongodb 驱动的 gridfs 工具存储文件。

python 示例：

from pymongo import mongoclient
from gridfs import gridfs
 
client = mongoclient("mongodb://localhost:27017")
db = client.mydatabase
fs = gridfs(db)
 
# 存储文件
with open("large_file.bin", "rb") as f:
    fs.put(f, filename="large_file.bin")

读取大文件

# 读取文件
file_data = fs.get_last_version(filename="large_file.bin")
with open("output.bin", "wb") as f:
    f.write(file_data.read())

2. 将文档拆分为多个小文档

适用场景：文档包含大量嵌套数据，导致总大小超过 16mb。

解决思路

将大文档拆分成多个子文档。
使用字段（如 _id 或 parentid）将这些子文档关联起来。

实现步骤

示例：拆分用户日志记录 原始大文档（超 16mb）：

{ "_id": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }

拆分为多个小文档：

// 主文档

{ "_id": "user1", "type": "usermetadata" }

// 子文档

{ "parentid": "user1", "logs": [ { "timestamp": "2025-01-01", "action": "login" }, ... ] }

查询时合并：

db.metadata.find({ _id: "user1" });

db.logs.find({ parentid: "user1" });

3. 使用 bson 对象数组存储引用

适用场景：需要在文档中存储大量关联对象。

解决思路

将大数组分割到其他集合中，主文档存储引用。

示例

大文档超限前：

{ "_id": "project1", "name": "big project", "tasks": [ /* 超大量任务数据 */ ] }

优化后：

// 主文档 
{ "_id": "project1", "name": "big project" } 
// 任务文档 
{ "projectid": "project1", "taskid": 1, "taskname": "task 1", ... }

查询时通过 projectid 关联：

db.projects.find({ _id: "project1" }); db.tasks.find({ projectid: "project1" });

4. 压缩数据

适用场景：文档中包含重复数据或可压缩结构（如 json 数据）。

解决思路

在存储之前压缩数据（例如使用 gzip、zlib 等）。
查询时解压数据。

示例

python 实现：

import zlib
from pymongo import mongoclient
 
client = mongoclient("mongodb://localhost:27017")
db = client.mydatabase
collection = db.mycollection
 
# 压缩存储
data = {"key": "value" * 10000}
compressed_data = zlib.compress(str(data).encode("utf-8"))
collection.insert_one({"_id": "compressed_doc", "data": compressed_data})
 
# 解压读取
doc = collection.find_one({"_id": "compressed_doc"})
decompressed_data = zlib.decompress(doc["data"]).decode("utf-8")

5. 修改数据结构

适用场景：文档设计冗余或结构不合理。

解决思路

简化嵌套层级。
使用更紧凑的数据类型（如数组代替对象）。

优化前：

{ "_id": "order1", "customer": { "id": 1, "name": "john doe" }, "items": [ { "productid": "p1", "productname": "product 1", "quantity": 2 } ] }

优化后：

{ "_id": "order1", "customerid": 1, "items": [ { "p": "p1", "q": 2 } ] }

6. 使用文件系统或其他存储服务

适用场景：非结构化大数据（如媒体文件、大型json）。

解决思路

将大数据存储到文件系统、amazon s3、azure blob 等。
在 mongodb 中存储文件路径或 url。

总结

优先选择方案：
1. 使用 gridfs 存储大文件。
2. 拆分文档 或 分表设计 解决超大文档问题。
3. 结合压缩或外部存储进一步优化。

以上就是mongodb中单对象大小超16m的存储方案的详细内容，更多关于mongodb单对象大小超16m的资料请关注代码网其它相关文章！

HBase是如何实现高效的列式存储的？

hbase列式存储结构详解hbase，作为一款高性能的分布式nosql数据库，其核心优势在于其高效的列式存储机制。与传统的关系型数据库（如mysql）的行存储方... [阅读全文]

HBase的列式存储机制究竟是如何提升数据存储和访问效率的？

hbase高性能秘诀：深入解析列式存储hbase，基于hadoop的分布式nosql数据库，其高效的列式存储机制是其核心竞争力。本文将深入浅出地讲解hbase的... [阅读全文]

多数据源分页：有哪些高效的策略？

多数据源分页：如何高效处理海量数据？在大型应用系统中，列表页数据常常来自多个数据源（如数据库或api），如何高效分页是一个关键挑战。本文探讨几种常见策略，并提供... [阅读全文]

前端Pyodide性能优化：如何利用IndexedDB缓存Wasm模块提升加载速度？

前端pyodide性能优化：利用indexeddb缓存wasm模块，提升加载速度在前端使用pyodide运行python代码时，反复加载庞大的numpy和sci... [阅读全文]

如何利用IndexedDB缓存Pyodide的Wasm包以提高加载速度？

pyodide 与 indexeddb：提升 webassembly 加载速度的探索在前端运行 python 算法，利用 pyodide 能够实现强大的功能。然... [阅读全文]

如何设计并实现可维护表单页面的数据库？

构建可维护表单页面的数据库方案本文介绍一种高效的数据库设计方案，用于创建和维护表单页面。表单模板表设计下表定义了存储表单模板信息的数据库表结构：字段名字段中文名... [阅读全文]


验证码：

验证码：

MongoDB中单对象大小超16M的存储方案

2025年02月13日 • Nosql •我要评论

1. 使用 gridfs

原理

实现步骤

2. 将文档拆分为多个小文档

解决思路

实现步骤

3. 使用 bson 对象数组存储引用

解决思路

示例

4. 压缩数据

解决思路

示例

5. 修改数据结构

解决思路

6. 使用文件系统或其他存储服务

解决思路

总结

相关文章:

发表评论