MongoDB 官方文档笔记之索引 Indexes-526互联

本文是在阅读 MongoDB 官方文档时记录的一些主要概念，更多细节可以查看文中的参考链接。

查看当前 db 索引

db.COLLECTION_NAME.getIndexes()

[
  {
	"v" : 1,
	"key" : {
	  "_id" : 1
	},
	"name" : "_id_",
	"ns" : "newDB.sites"
  },
  {
	"v" : 1,
	"key" : {
	  "name" : 1,
	  "domain" : -1
	},
	"name" : "name_1_domain_-1",
	"ns" : "newDB.sites"
  }
]

单字段索引 single field

在单个字段上创建索引，1表示升序，-1表示降序。

对于单字段索引来说，指定升序降序无关紧要，查询时选择升序降序性能是一样的。

但对于复合索引来说，查询需要符合索引的顺序才能走上索引。

# 创建索引
db.records.createIndex( { score: 1 } )

# 查询使用索引
db.records.find( { score: 2 } )
db.records.find( { score: { $gt: 10 } } )

嵌入式文档的内部字段上的索引

什么是嵌入式字段？就是这个字段的值也是一个文档。MongoDB 支持在嵌入式文档的内部字段上建立索引

# location 是一个文档
{
  "_id": ObjectId("570c04a4ad233577f97dc459"),
  "score": 1034,
  "location": { state: "NY", city: "New York" }
}

# 在location下面的state字段上创建索引
db.records.createIndex( { "location.state": 1 } )

# 查询
db.records.find( { "location.state": "CA" } )
db.records.find( { "location.city": "Albany", "location.state": "NY" } )

在嵌入式文档本身建立的索引

还拿上面例子来讲，可以直接在 location 上面建立索引

{
  "_id": ObjectId("570c04a4ad233577f97dc459"),
  "score": 1034,
  "location": { state: "NY", city: "New York" }
}

# 直接在location上建立索引
db.records.createIndex( { location: 1 } )

# 使用索引
db.records.find( { location: { city: "New York", state: "NY" } } )

复合索引 compound

在多个字段上建立的索引，需分别指定每个字段的升降序规则。查询时需要符合升降序规则或符合反向规则，才能走上索引。

复合索引最多只能支持32个字段。

复合索引支持前缀查询。

# 文档结构
{
 "_id": ObjectId(...),
 "item": "Banana",
 "category": ["food", "produce", "grocery"],
 "location": "4th Street Store",
 "stock": 4,
 "type": "cases"
}

# 建立索引 以item升序 且 stock升序简历索引。含义是，当文档的item值相同时，按stock升序排序
db.products.createIndex( { "item": 1, "stock": 1 } )

# 复合索引也支持前缀查询
db.products.find( { item: "Banana" } )
db.products.find( { item: "Banana", stock: { $gt: 5 } } )

复合索引的索引顺序

索引以升序（1）或降序（-1）排序顺序存储对字段的引用。对于单字段索引，键的排序顺序无关紧要，因为 MongoDB 可以在任一方向上遍历索引。但是，对于复合索引，属性的顺序决定了索引是否支持结果集的排序。

# 假设符合索引如下
db.events.createIndex( { "username" : 1, "date" : -1 } )

# 这个索引支持如下两种查询
db.events.find().sort( { username: 1, date: -1 } )
db.events.find().sort( { username: -1, date: 1 } )

# 但不支持下面的查询
db.events.find().sort( { username: 1, date: 1 } )

# 即只能从索引一头儿查询才能走上索引

复合索引中的前缀索引

# 假设有如下复合索引
{ "item": 1, "location": 1, "stock": 1 }

# 则可支持下面两种前缀索引查询
{ item: 1 }
{ item: 1, location: 1 }

# 同时也支持前缀的部分匹配，即如下查询可用上item字段的前缀索引
{ item: 1, stock: 1 }

多键索引 multikey

支持对数组元素内的字段做索引。

# 如果field 是一个数组，则自动建立多键索引，无需特殊指定
db.coll.createIndex( { <field>: < 1 or -1 > } )

但mongodb限制不可以在过个数组上做复合索引。

# 下面这种情况，不可以在 {a:1, b:1} 上做索引
{ _id: 1, a: [ 1, 2 ], b: [ 1, 2 ], category: "AB - both arrays" }

文本索引 text

MongoDB 提供文本索引以支持对字符串内容的文本搜索查询。text 索引可以包含任何值为字符串或字符串元素数组的字段。

# 在comments字段上建立文本索引
db.reviews.createIndex( { comments: "text" } )

# 在多个字段上建立text索引
db.reviews.createIndex(
   {
     subject: "text",
     comments: "text"
   }
 )

文本索引还可以设置支持的语言、控制相关性分数权重排序、限制条目等，更多查看 https://www.mongodb.com/docs/manual/core/index-text/

通配符索引

有时查询的维度可能不固定，会按照多个字段去查询

# 数据文档
{ "userMetadata" : { "likes" : [ "dogs", "cats" ] } }
{ "userMetadata" : { "dislikes" : "pickles" } }
{ "userMetadata" : { "age" : 45 } }
{ "userMetadata" : "inactive" }

# 可以建立通配符索引
db.userData.createIndex( { "userMetadata.$**" : 1 } )

# 支持以下查询
db.userData.find({ "userMetadata.likes" : "dogs" })
db.userData.find({ "userMetadata.dislikes" : "pickles" })
db.userData.find({ "userMetadata.age" : { $gt : 30 } })
db.userData.find({ "userMetadata" : "inactive" })

https://www.mongodb.com/docs/manual/core/index-wildcard/

2dsphere 和 2d 索引

分别是对计算类似地球的球体上的几何形状的查询的索引，和对存储为二维平面上的点的数据使用2d 索引

https://www.mongodb.com/docs/manual/core/2dsphere/

https://www.mongodb.com/docs/manual/core/2d/

索引特性

unique 唯一索引

唯一索引确保索引字段不会存储重复值，默认情况下，MongoDB 在创建集合期间在 _id 字段上创建一个唯一的索引。

# 单字段上创建唯一索引
db.members.createIndex( { "user_id": 1 }, { unique: true } ) 

# 多字段上复合唯一索引
db.members.createIndex( { groupNumber: 1, lastname: 1, firstname: 1 }, { unique: true } )

# 数组类型的多键索引
# 文档结构如下：
{ _id: 1, a: [ { loc: "A", qty: 5 }, { qty: 10 } ] }
# 建立索引
db.collection.createIndex( { "a.loc": 1, "a.qty": 1 }, { unique: true } )

partial 部分索引

只对满足指定筛选器表达式的文档做索引，这样索引量更少，性能更高。

# 对rating>5的文档做索引
db.restaurants.createIndex(
   { cuisine: 1, name: 1 },
   { partialFilterExpression: { rating: { $gt: 5 } } }
)

sparse 稀疏索引

只对含有索引字段的文档建立索引，字段值是空值也建立。

与之对应的非稀疏索引，则是会对空缺字段存储空值。

由于稀疏索引中有部分文档未被计入索引中，所以在稀疏索引上count查询不准确

db.addresses.createIndex( { "xmpp_id": 1 }, { sparse: true } )

其他索引特性：

ttl 有效期索引
不区分大小写索引

索引交叉 Index Intersection

指同时利用多个索引

# 两个独立索引
{ qty: 1 }
{ status: 1, ord_date: -1 }

# 下面的查询可以同时利用两个索引，也就是索引交集
db.orders.find( { qty: { $gt: 10 } , status: "A" } )

索引交集跟复合索引很像：复合索引性能更高，要求更严格。索引交叉性能差一些，但更灵活。

# 复合索引如下
{ status: 1, ord_date: -1 }

# 复合索引支持如下查询
db.orders.find( { status: { $in: ["A", "P" ] } } )
db.orders.find(
   {
     ord_date: { $gt: new Date("2014-02-01") },
     status: {$in:[ "P", "A" ] }
   }
)

# 但无法支持下面的查询
db.orders.find( { ord_date: { $gt: new Date("2014-02-01") } } )
db.orders.find( { } ).sort( { ord_date: 1 } )

# 如果建立两个独立的索引，则可以用到这两个索引的索引交集
{ status: 1 }
{ ord_date: -1 }

但有一种情况不能走索引交叉：当查询需要排序时，而排序字段不在查询谓词（查询字段）中时，无法利用索引交集。

换句话说，只有在查询谓词中的字段能够组成索引交集的，才能利用索引交集。

# 有如下四种索引
{ qty: 1 }
{ status: 1, ord_date: -1 }
{ status: 1 }
{ ord_date: -1 }

# 这条无法利用索引交集，查询中只有qty，而按status排序
db.orders.find( { qty: { $gt: 10 } } ).sort( { status: 1 } )

# 这条可以利用，查询中qty和 status+ord_date组成了索引交集
db.orders.find( { qty: { $gt: 10 } , status: "A" } ).sort( { ord_date: -1 } )

业务中使用复合索引还是索引交集，需要取决于系统具体情况。