mongodb初识

一、技术背景

1-1、介绍

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。MongoDB的数据模型和持久化策略的设计目标是提供高读写吞吐量，在易于伸缩的同时还能进行自动故障转移。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

灵活的文档模型JSON 格式存储最接近真实对象模型，对开发者友好，方便快速开发迭代高可用复制集满足数据高可靠、服务高可用的需求，运维简单，故障自动切换可扩展分片集群海量数据存储，服务能力水平扩展高性能mmapv1、wiredtiger、mongorocks（rocksdb）、in-memory 等多引擎支持满足各种场景需求强大的索引支持地理位置索引可用于构建各种 O2O 应用、文本索引解决搜索的需求、TTL索引解决历史数据自动过期的需、Gridfs解决文件存储的需求aggregation & mapreduce解决数据分析场景需求，用户可以自己写查询语句或脚本，将请求都分发到 MongoDB 上完成。mongodb4.0支持多文档事务。

1-2、适用场景

以下是几个实际的应用案例。

游戏场景，使用 MongoDB 存储游戏用户信息，用户的装备、积分等直接以内嵌文档的形式存储，方便查询、更新

物流场景，使用 MongoDB 存储订单信息，订单状态在运送过程中会不断更新，以 MongoDB 内嵌数组的形式来存储，一次查询就能将订单所有的变更读取出来。

社交场景，使用 MongoDB 存储存储用户信息，以及用户发表的朋友圈信息，通过地理位置索引实现附近的人、地点等功能

物联网场景，使用 MongoDB 存储所有接入的智能设备信息，以及设备汇报的日志信息，并对这些信息进行多维度的分析

视频直播，使用 MongoDB 存储用户信息、礼物信息等

……

是否应该使用 MongoDB，从以下几点来做决策：

应用不需要复杂 join

新应用，需求会变，数据模型无法确定，想快速迭代开发

应用需要2000-3000以上的读写QPS(更高也可以)

应用需要TB甚至 PB 级别数据存储

应用发展迅速，需要能快速水平扩展

应用要求存储的数据不丢失

应用需要99.999%高可用

应用需要大量的地理位置查询、文本查询

二、主要特性

2-1、主要特性

MongoDB 特性优势
事务支持 4.0之前MongoDB只支持单文档事务，4.0+支持多文档事务，必须要是副本集。4.2提供分布式事务功能，即在分片集群上的事务支持
灵活的文档模型 JSON 格式存储最接近真实对象模型，对开发者友好，方便快速开发迭代
高可用复制集满足数据高可靠、服务高可用的需求，运维简单，故障自动切换
可扩展分片集群海量数据存储，服务能力水平扩展
高性能 mmapv1、wiredtiger（当前默认）、mongorocks（rocksdb）、in-memory 等多引擎支持满足各种场景需求
强大的索引支持地理位置索引可用于构建各种 O2O 应用、文本索引解决搜索的需求、TTL索引解决历史数据自动过期的需求，4.2提供基于lucene引擎的全文搜索能力
Gridfs 解决文件存储的需求
aggregation & mapreduce 解决数据分析场景需求，用户可以自己写查询语句或脚本，将请求都分发到 MongoDB 上完成

2-2、各个版本支持核心特性

2-3、文档模型的优点

读写效率高

由于文档模型把相关数据集中在一块，在普通机械盘上读数据的时候不用花太多时间去定位磁头，因此在IO性能上有先天独厚的优势；

可扩展能力强

关系型数据库很难做分布式的原因就是多节点海量数据关联有巨大的性能问题。如果不考虑关联，数据分区分库，水平扩展就比较简单；

动态模式

文档模型支持可变的数据模式，不要求每个文档都具有完全相同的结构。对很多异构数据场景支持非常好；

模型自然

文档模型最接近于我们熟悉的对象模型。从内存到存储，无需经过ORM的双向转换，性能上和理解上都很自然易懂。

2-4、MongoDB 存储引擎：WiredTiger

wiredTiger支持snappy和zlib两种压缩模式。因此与MMAP相比，使用WiredTiger的MongoDB占用的磁盘空间要小很多。并且WiredTiger引擎本身有自己的写缓存（可配置）同时也能使用文件系统缓存。

WiredTiger和MMAPv1都用于持久化存储数据，相对而言，WiredTiger比MMAPv1更新，功能更强大。

1，文档级别的并发控制（Document-Level Concurrency Control）

MongoDB在执行写操作时，WiredTiger 在文档级别进行并发控制，就是说，在同一时间，多个写操作能够修改同一个集合中的不同文档；当多个写操作修改同一个文档时，必须以序列化方式执行；这意味着，如果该文档正在被修改，其他写操作必须等待，直到在该文档上的写操作完成之后，其他写操作相互竞争，获胜的写操作在该文档上执行修改操作。

对于大多数读写操作，WiredTiger使用乐观并发控制（optimistic concurrency control），只在Global，database和Collection级别上使用意向锁（Intent Lock），如果WiredTiger检测到两个操作发生冲突时，导致MongoDB将其中一个操作重新执行，这个过程是系统自动完成的。

2，检查点（Checkpoint）

在Checkpoint操作开始时，WiredTiger提供指定时间点（point-in-time）的数据库快照（Snapshot），该Snapshot呈现的是内存中数据的一致性视图。当向Disk写入数据时，WiredTiger将Snapshot中的所有数据以一致性方式写入到数据文件（Disk Files）中。一旦Checkpoint创建成功，WiredTiger保证数据文件和内存数据是一致性的，因此，Checkpoint担当的是还原点（Recovery Point），Checkpoint操作能够缩短MongoDB从Journal日志文件还原数据的时间。

当WiredTiger创建Checkpoint时，MongoDB将数据刷新到数据文件（Disk Files）中，在默认情况下，WiredTiger创建Checkpoint的时间间隔是60s，或产生2GB的Journal文件。在WiredTiger创建新的Checkpoint期间，上一个Checkpoint仍然是有效的，这意味着，即使MongoDB在创建新的Checkpoint期间遭遇到错误而异常终止运行，只要重启，MongoDB就能从上一个有效的Checkpoint开始还原数据。

当MongoDB以原子方式更新WiredTiger的元数据表，使其引用新的Checkpoint时，表明新的Checkpoint创建成功，MongoDB将老的Checkpoint占用的Disk空间释放。使用WiredTiger 存储引擎，如果没有记录数据更新的日志，MongoDB只能还原到上一个Checkpoint；如果要还原在上一个Checkpoint之后执行的修改操作，必须使用Jounal日志文件。

3，预先记录日志（Write-ahead Transaction Log）

WiredTiger使用预写日志的机制，在数据更新时，先将数据更新写入到日志文件，然后在创建Checkpoint操作开始时，将日志文件中记录的操作，刷新到数据文件，就是说，通过预写日志和Checkpoint，将数据更新持久化到数据文件中，实现数据的一致性。WiredTiger 日志文件会持久化记录从上一次Checkpoint操作之后发生的所有数据更新，在MongoDB系统崩溃时，通过日志文件能够还原从上次Checkpoint操作之后发生的数据更新。

3，内存使用

WiredTiger 利用系统内存资源缓存两部分数据：

内部缓存（Internal Cache）

文件系统缓存（Filesystem Cache）

从MongoDB 3.2 版本开始，WiredTiger内部缓存的使用量，默认值是：1GB 或 60% of RAM - 1GB，取两值中的较大值；文件系统缓存的使用量不固定，MongoDB自动使用系统空闲的内存，这些内存不被WiredTiger缓存和其他进程使用，数据在文件系统缓存中是压缩存储的。

4，数据压缩（Data Compression）

wiredTiger支持snappy和zlib两种压缩模式。WiredTiger压缩存储集合（Collection）和索引（Index），压缩减少Disk空间消耗，但是消耗额外的CPU执行数据压缩和解压缩的操作。

默认情况下，WiredTiger使用块压缩（Block Compression）算法来压缩Collections，使用前缀压缩（Prefix Compression）算法来压缩Indexes，Journal日志文件也是压缩存储的。对于大多数工作负载（Workload），默认的压缩设置能够均衡（Balance）数据存储的效率和处理数据的需求，即压缩和解压的处理速度是非常高的。

前缀压缩概念：先完全保存索引块中的第一个值，然后将其他值和第一个值进行比较得到相同前缀的字节数和剩余的不同后缀部分，把这部分存储起来即可。例如，索引块中的第一个值是“perform“，第二个值是”performance“，那么第二个值的前缀压缩后存储的是类似”7,ance“这样的形式。

5，Disk空间回收

当从MongoDB中删除文档（Documents）或集合（Collections）后，MongoDB不会将Disk空间释放给OS，MongoDB在数据文件（Data Files）中维护Empty Records的列表。当重新插入数据后，MongoDB从Empty Records列表中分配存储空间给新的Document，因此，不需要重新开辟空间。为了更新有效的重用Disk空间，必须重新整理数据碎片。

WiredTiger使用compact 命令，移除集合（Collection）中数据和索引的碎片，并将unused的空间释放，调用语法：

db.runCommand ( { compact: '<collection>' } )

在执行compact命令时，MongoDB会对当前的database加锁，阻塞其他操作。在compact命令执行完成之后，mongod会重建集合的所有索引。

2-5、GridFS

GridFS是MongoDB中存储和查询超过BSON文件大小限制（16M）的规范，不像BSON文件那样在一个单独的文档中存储文件，GridFS将文件分成多个块，每个块作为一个单独的文档。默认情况下，每个GridFS块是255kB，意味着除了最后一个块之外（根据剩余的文件大小），文档被分成多个255kB大小的块存储。

GridFS使用两个集合保存数据，一个集合存储文件块，另外一个存储文件元数据。当从GridFS中获取文件时，MongoDB的驱动程序负责将多个块组装成完整文件，你可以通过GridFS进行范围查询，可以访问文件的任意部分（例如跳到视频文件或者音频文件的任意位置）。

三、mongodb shell

使用docker搭建mongodb副本集

使用数据库

连接验证
$ docker exec -it 24ccf34f8d4b mongo --host mongohost --port 37017

use cbb

db.auth('root','wego2020')

创建集合
db.createCollection('note')

插入
rs:PRIMARY> db.note.insert({'title':'大秦帝国','author':DBRef('user',ObjectId('5dff0a3d26e2c74988808d81')),'time':ISODate("2019-12-30 11:05:01"),'tags':['历史','学习'],'content':'上将白起,长平之战...'})

WriteResult({ "nInserted" : 1 })

rs:PRIMARY> db.note.save({'_id':'001','title':'非暴力沟通','author':DBRef('user',ObjectId('5dff0a51a6e65352c48fec76')),'time':ISODate("2019-12-30 11:19:01"),'tags':['交流','学习'],'content':'讲事实、谈感受、提要求，不做结论性描述'})

WriteResult({ "nInserted" : 1 })

查询
查询所有
rs:PRIMARY> db.note.find()

{ "_id" : ObjectId("5e096c1ab990869fca386b01"), "title" : "大秦帝国", "author" : DBRef("user", ObjectId("5dff0a3d26e2c74988808d81")), "time" : ISODate("2019-12-30T11:05:01Z"), "tags" : [ "历史", "学习" ], "content" : "上将白起,长平之战..." }

{ "_id" : "001", "title" : "非暴力沟通", "author" : DBRef("user", ObjectId("5dff0a51a6e65352c48fec76")), "time" : ISODate("2019-12-30T11:19:01Z"), "tags" : [ "交流", "学习" ], "content" : "讲事实、谈感受、提要求，不做结论性描述" }

rs:PRIMARY> db.note.count()

条件查询
rs:PRIMARY> db.note.find({'title':'非暴力沟通'})

rs:PRIMARY> db.note.find({tags:{$in:['历史']}})

rs:PRIMARY> db.note.find( {'author':DBRef("user", ObjectId("5dff0a51a6e65352c48fec76"))}, {content: 0 } )

{ "_id" : "001", "title" : "非暴力沟通", "author" : DBRef("user", ObjectId("5dff0a51a6e65352c48fec76")), "time" : ISODate("2019-12-30T11:19:01Z"), "tags" : [ "交流", "学习" ] }

查询关联对象
rs:PRIMARY> db.note.findOne({title:'大秦帝国'}).author.fetch()

{

"_id" : ObjectId("5dff0a3d26e2c74988808d81"),

"login" : "admin",

"passwordHash" : "$2a$10$G0hFgHIH5EEOeuZKoGp39u/ystyvxl2wHHr7p73ARQdITp8QNhxLW",

"firstName" : "admin",

"lastName" : "zz",

"email" : "yuji@11.com",

"imageUrl" : "string",

"activated" : true,

"langKey" : "cn",

"createdBy" : "web register",

"createdDate" : ISODate("2019-12-22T06:16:29.715Z"),

"_class" : "com.iflytek.cloudbaseserver.model.user.User",

"roles" : [

{

"_id" : 1,

"roleName" : "role_admin"

}

]

}

查询部分字段
rs:PRIMARY> db.note.find({},{'title':1} )

{ "_id" : ObjectId("5e096c1ab990869fca386b01"), "title" : "大秦帝国" }

{ "_id" : "001", "title" : "非暴力沟通" }

rs:PRIMARY> db.note.find({},{'author':0,'time':0,'content':0} )

{ "_id" : ObjectId("5e096c1ab990869fca386b01"), "title" : "大秦帝国", "tags" : [ "历史", "学习" ] }

{ "_id" : "001", "title" : "非暴力沟通", "tags" : [ "交流", "学习" ] }

分页查询
rs:PRIMARY> db.note.find({}).skip(2).limit(2).sort()

{ "_id" : 3, "title" : "test3", "time" : ISODate("2019-12-30T11:14:44Z") }

{ "_id" : 2, "title" : "test2", "time" : ISODate("2019-12-30T11:14:40Z") }

模糊查询-正则匹配
rs:PRIMARY> db.note.find({'title':/^大秦/})

修改
rs:PRIMARY> db.note.update({_id:'001'},{$set:{title : "非暴力沟通-阅读"}})

WriteResult({ "nMatched" : 1, "nUpserted" : 0, "nModified" : 1 })