$sampleRate

运算符 $sampleRate 根据指定的概率率随机对集合中的文档进行采样。 此运算符可用于统计分析、使用子集数据进行测试,以及处理需要代表性样本的大型数据集时的性能优化。

Syntax

{
  $match: {
    $sampleRate: <number>
  }
}

参数

参数 Description
number 一个介于 0 和 1 之间的浮点数,表示文档将包含在样本中的概率。 例如,0.33 表示对文档进行大约 33 个% 采样。

例子

请考虑商店集合中的这个示例文档。

{
    "_id": "0fcc0bf0-ed18-4ab8-b558-9848e18058f4",
    "name": "First Up Consultants | Beverage Shop - Satterfieldmouth",
    "location": {
        "lat": -89.2384,
        "lon": -46.4012
    },
    "staff": {
        "totalStaff": {
            "fullTime": 8,
            "partTime": 20
        }
    },
    "sales": {
        "totalSales": 75670,
        "salesByCategory": [
            {
                "categoryName": "Wine Accessories",
                "totalSales": 34440
            },
            {
                "categoryName": "Bitters",
                "totalSales": 39496
            },
            {
                "categoryName": "Rum",
                "totalSales": 1734
            }
        ]
    },
    "promotionEvents": [
        {
            "eventName": "Unbeatable Bargain Bash",
            "promotionalDates": {
                "startDate": {
                    "Year": 2024,
                    "Month": 6,
                    "Day": 23
                },
                "endDate": {
                    "Year": 2024,
                    "Month": 7,
                    "Day": 2
                }
            },
            "discounts": [
                {
                    "categoryName": "Whiskey",
                    "discountPercentage": 7
                },
                {
                    "categoryName": "Bitters",
                    "discountPercentage": 15
                },
                {
                    "categoryName": "Brandy",
                    "discountPercentage": 8
                },
                {
                    "categoryName": "Sports Drinks",
                    "discountPercentage": 22
                },
                {
                    "categoryName": "Vodka",
                    "discountPercentage": 19
                }
            ]
        },
        {
            "eventName": "Steal of a Deal Days",
            "promotionalDates": {
                "startDate": {
                    "Year": 2024,
                    "Month": 9,
                    "Day": 21
                },
                "endDate": {
                    "Year": 2024,
                    "Month": 9,
                    "Day": 29
                }
            },
            "discounts": [
                {
                    "categoryName": "Organic Wine",
                    "discountPercentage": 19
                },
                {
                    "categoryName": "White Wine",
                    "discountPercentage": 20
                },
                {
                    "categoryName": "Sparkling Wine",
                    "discountPercentage": 19
                },
                {
                    "categoryName": "Whiskey",
                    "discountPercentage": 17
                },
                {
                    "categoryName": "Vodka",
                    "discountPercentage": 23
                }
            ]
        }
    ]
}

示例 1:基本随机采样

此查询将返回存储集合中所有文档的三分之一(随机选择)。

db.stores.aggregate([{
    $match: {
        $sampleRate: 0.33
    }
}])

示例 2:使用更多筛选器采样

此查询首先筛选销售额超过 50,000 的商店,然后随机对匹配文档的 50% 采样。

db.stores.aggregate([
  { $match: { 
    "sales.totalSales": { $gt: 50000 },
    $sampleRate: 0.5 
  }}
])

示例 3:统计分析的采样

此查询示例 25% 存储,并计算对采样数据的统计度量值。

db.stores.aggregate([
  { $match: { $sampleRate: 0.25 } },
  { $group: {
    _id: null,
    averageSales: { $avg: "$sales.totalSales" },
    totalStores: { $sum: 1 },
    maxSales: { $max: "$sales.totalSales" },
    minSales: { $min: "$sales.totalSales" }
  }}
])

使用大型数据集时,$sampleRate运算符对于统计分析和数据探索非常有用,处理所有文档的计算成本会很高。 它有效地创建用于性能测试、质量保证验证和机器学习数据集生成的代表性示例。 运算符非常适合近似报告方案,其中统计准确性是可接受的,处理速度优先于精确精度。