运算符 $sampleRate 根据指定的概率率随机对集合中的文档进行采样。 此运算符可用于统计分析、使用子集数据进行测试,以及处理需要代表性样本的大型数据集时的性能优化。
Syntax
{
$match: {
$sampleRate: <number>
}
}
参数
| 参数 | Description |
|---|---|
number |
一个介于 0 和 1 之间的浮点数,表示文档将包含在样本中的概率。 例如,0.33 表示对文档进行大约 33 个% 采样。 |
例子
请考虑商店集合中的这个示例文档。
{
"_id": "0fcc0bf0-ed18-4ab8-b558-9848e18058f4",
"name": "First Up Consultants | Beverage Shop - Satterfieldmouth",
"location": {
"lat": -89.2384,
"lon": -46.4012
},
"staff": {
"totalStaff": {
"fullTime": 8,
"partTime": 20
}
},
"sales": {
"totalSales": 75670,
"salesByCategory": [
{
"categoryName": "Wine Accessories",
"totalSales": 34440
},
{
"categoryName": "Bitters",
"totalSales": 39496
},
{
"categoryName": "Rum",
"totalSales": 1734
}
]
},
"promotionEvents": [
{
"eventName": "Unbeatable Bargain Bash",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 6,
"Day": 23
},
"endDate": {
"Year": 2024,
"Month": 7,
"Day": 2
}
},
"discounts": [
{
"categoryName": "Whiskey",
"discountPercentage": 7
},
{
"categoryName": "Bitters",
"discountPercentage": 15
},
{
"categoryName": "Brandy",
"discountPercentage": 8
},
{
"categoryName": "Sports Drinks",
"discountPercentage": 22
},
{
"categoryName": "Vodka",
"discountPercentage": 19
}
]
},
{
"eventName": "Steal of a Deal Days",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 9,
"Day": 21
},
"endDate": {
"Year": 2024,
"Month": 9,
"Day": 29
}
},
"discounts": [
{
"categoryName": "Organic Wine",
"discountPercentage": 19
},
{
"categoryName": "White Wine",
"discountPercentage": 20
},
{
"categoryName": "Sparkling Wine",
"discountPercentage": 19
},
{
"categoryName": "Whiskey",
"discountPercentage": 17
},
{
"categoryName": "Vodka",
"discountPercentage": 23
}
]
}
]
}
示例 1:基本随机采样
此查询将返回存储集合中所有文档的三分之一(随机选择)。
db.stores.aggregate([{
$match: {
$sampleRate: 0.33
}
}])
示例 2:使用更多筛选器采样
此查询首先筛选销售额超过 50,000 的商店,然后随机对匹配文档的 50% 采样。
db.stores.aggregate([
{ $match: {
"sales.totalSales": { $gt: 50000 },
$sampleRate: 0.5
}}
])
示例 3:统计分析的采样
此查询示例 25% 存储,并计算对采样数据的统计度量值。
db.stores.aggregate([
{ $match: { $sampleRate: 0.25 } },
{ $group: {
_id: null,
averageSales: { $avg: "$sales.totalSales" },
totalStores: { $sum: 1 },
maxSales: { $max: "$sales.totalSales" },
minSales: { $min: "$sales.totalSales" }
}}
])
使用大型数据集时,$sampleRate运算符对于统计分析和数据探索非常有用,处理所有文档的计算成本会很高。 它有效地创建用于性能测试、质量保证验证和机器学习数据集生成的代表性示例。 运算符非常适合近似报告方案,其中统计准确性是可接受的,处理速度优先于精确精度。
相关内容
- 查看用于 从 MongoDB 迁移到 Azure DocumentDB 的选项。
- 详细了解 与 MongoDB 的功能兼容性。