$densify
聚合管道中的阶段用于填充值序列中缺失的数据点。 它通过基于指定的字段、范围和步骤生成缺失值来帮助创建更完整的数据集。 这在时序数据分析等方案中非常有用,需要填充数据点中的差距,以确保准确的分析。
Syntax
{
$densify: {
field: <field>,
range: {
step: <number>,
unit: <string>, // Optional, e.g., "hour", "day", "month", etc.
bounds: [<lowerBound>, <upperBound>] // Optional
},
partitionByFields: [<field1>, <field2>, ...] // Optional
}
}
Parameters
Parameter | Description |
---|---|
field |
执行 densification 的字段。 |
range.step |
用于生成缺失值的步长大小。 |
range.unit |
(可选)步骤大小的单位,如时间单位(例如“hour”、“day”)。 |
range.bounds |
(可选)指定缩小范围(下限和上限)。 |
partitionByFields |
(可选)用于对数据进行 densification 分组的字段。 |
Examples
请考虑商店集合中的这个示例文档。
{
"_id": "0fcc0bf0-ed18-4ab8-b558-9848e18058f4",
"name": "First Up Consultants | Beverage Shop - Satterfieldmouth",
"location": {
"lat": -89.2384,
"lon": -46.4012
},
"staff": {
"totalStaff": {
"fullTime": 8,
"partTime": 20
}
},
"sales": {
"totalSales": 75670,
"salesByCategory": [
{
"categoryName": "Wine Accessories",
"totalSales": 34440
},
{
"categoryName": "Bitters",
"totalSales": 39496
},
{
"categoryName": "Rum",
"totalSales": 1734
}
]
},
"promotionEvents": [
{
"eventName": "Unbeatable Bargain Bash",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 6,
"Day": 23
},
"endDate": {
"Year": 2024,
"Month": 7,
"Day": 2
}
},
"discounts": [
{
"categoryName": "Whiskey",
"discountPercentage": 7
},
{
"categoryName": "Bitters",
"discountPercentage": 15
},
{
"categoryName": "Brandy",
"discountPercentage": 8
},
{
"categoryName": "Sports Drinks",
"discountPercentage": 22
},
{
"categoryName": "Vodka",
"discountPercentage": 19
}
]
},
{
"eventName": "Steal of a Deal Days",
"promotionalDates": {
"startDate": {
"Year": 2024,
"Month": 9,
"Day": 21
},
"endDate": {
"Year": 2024,
"Month": 9,
"Day": 29
}
},
"discounts": [
{
"categoryName": "Organic Wine",
"discountPercentage": 19
},
{
"categoryName": "White Wine",
"discountPercentage": 20
},
{
"categoryName": "Sparkling Wine",
"discountPercentage": 19
},
{
"categoryName": "Whiskey",
"discountPercentage": 17
},
{
"categoryName": "Vodka",
"discountPercentage": 23
}
]
}
]
}
示例 1:取消时序数据集
此查询填写日期字段中缺少的天数。
db.aggregate([
{
$documents: [
{ date: new ISODate("2024-01-01"), value: 10 },
{ date: new ISODate("2024-01-03"), value: 15 }
]
},
{
$densify: {
field: "date",
range: {
step: 1,
unit: "day",
bounds: "full"
}
}
}
]);
此查询返回以下结果:
[
{
"date": "ISODate('2024-01-01T00:00:00.000Z')",
"value": 10
},
{
"date": "ISODate('2024-01-02T00:00:00.000Z')"
},
{
"date": "ISODate('2024-01-03T00:00:00.000Z')",
"value": 15
}
]
示例 2:Densify 数值数据
此查询填写字段中缺少的数值 sales.fullSales
:
db.aggregate([
{
$documents: [
{ level: 1, score: 10 },
{ level: 3, score: 30 }
]
},
{
$densify: {
field: "level",
range: {
step: 1,
bounds: [1, 5]
}
}
}
]);
此查询返回以下结果:
[
{
"level": 1,
"score": 10
},
{
"level": 2
},
{
"level": 3,
"score": 30
},
{
"level": 4
}
]
Limitations
下表总结了与聚合管道中$densify阶段关联的关键限制和行为:
Category | 条件/行为 |
---|---|
字段限制 | - 如果任何文档都有日期值且unit ,则出错。 - 如果任何文档具有数值且已指定 unit 则出错。 - 字段名称以 $ . 开头。 用于 $project 重命名它。 |
partitionByFields | - 任何字段的计算结果为 非字符串 值。 - 字段名称以 $ . 开头。 |
range.bounds |
-
下限 定义起始值,而不考虑现有文档。 - 下限是非独占的。 - 上限是独占的。 - $densify
不会筛选出边界外的文档。 |
相关内容
- 查看有关 从 MongoDB 迁移到适用于 MongoDB 的 Azure Cosmos DB (vCore) 的选项。
- 详细了解 与 MongoDB 的功能兼容性。