Condividi tramite

实体元数据

实体元数据对象存储有关检测到的实体的可选补充详细信息,特别是为数字和时态数据提供标准化分辨率。

当有额外信息时,该属性才会被填充,而且某些实体可能为空或缺失。

元数据解析会将各种实体形式转换为一致的格式,例如,“八十”和“80”解析为整数 80。 这些 NER 解决方案支持下游作,例如提取日期和时间实体以与会议计划系统集成。

注释

API 2023-04-15-preview 和更高版本支持实体元数据。 有关较旧的 API 版本,请参阅 实体解析

具有元数据属性的实体

Entities Entities Entities Entities Entities Entities
Age 面积 货币 日期 Datetime 信息
长度 数字 NumericRange 序号 设置 速度
温度 时间 音量 重量

年龄

Metadata 类型 Description
单位 字符串 年龄的度量单位。
value 数字 年龄的数值。
"metadata": {
                "unit": "Year",
                "value": 10
            }

单位的可能值

  • 星期
  • 月份
  • Week
  • 年份
  • 未指定

Area

Metadata 类型 Description
单位 字符串 面积的度量单位。
value 数字 面积的数值。
"metadata": {
                "unit": "Acre",
                "value": 30
            }

单位的可能值

  • 阿克里州
  • 平方厘米
  • SquareDecameter
  • 平方分米
  • SquareFoot
  • SquareHectometer
  • 平方英寸
  • 平方公里
  • SquareMeter
  • SquareMile
  • 平方毫米
  • SquareYard
  • 未指定

货币

Metadata 类型 Description
单位 字符串 货币名称。
value 数字 货币的数值。
ISO4217 字符串 ISO 4217 三字母货币代码使用该国 ISO 3166 代码的前两个字母,并且尽可能,第三个字母是货币名称的第一个字母。
"metadata": {
                "unit": "Egyptian pound",
                "value": 30,
                "ISO4217": "EGP"
            }

ISO4217的可能值

日期

Metadata 类型 Description
timex 字符串 ISO 8601 格式日期: YYYY-MM-DD (年、月、日)。
value 字符串 实际表示的日期。

每当提供歧义的日期时,系统都会提供不同的解析选项。 例如“4 月 12 日”可以指任何年份的日期。 方案提供本年和来年作为选项。 timexXXXX 表示未在查询中指定年份。

"metadata": {
                "dateValues": [
                    {
                        "timex": "XXXX-04-12",
                        "value": "2022-04-12"
                    },
                    {
                        "timex": "XXXX-04-12",
                        "value": "2023-04-12"
                    }
                ]
            }

即使是一周中的星期几也可能产生歧义。 例如,“星期一”可能指上星期一,也可能指本周的星期一。 同样,timex 值表示未指定年份或月份,它使用星期标识符 (W) 来表示一周的第一天。

"metadata" :{
                "dateValues": [
                    {
                        "timex": "XXXX-WXX-1",
                        "value": "2022-10-03"
                    },
                    {
                        "timex": "XXXX-WXX-1",
                        "value": "2022-10-10"
                    }
                ]
            }

日期/时间

Metadata 类型 Description
timex 字符串 ISO 8601 格式的日期和时间:
YYYY-MM-DDTHH:MM:SS(年、月、日、小时、分钟、秒、毫秒)由 T 分隔符分隔。
value 字符串 实际标示的日期和时间。

类似日期一样,您可能会遇到模糊的日期时间实体。 解析提供本年和下一年作为选项。 timex 值 XXXX 表示未指定年份。

"metadata": {
                 "dateValues": [
                       {
                           "timex": "XXXX-05-03T12",
                           "value": "2022-05-03 12:00:00"
                       },
                       {
                           "timex": "XXXX-05-03T12",
                           "value": "2023-05-03 12:00:00"
                       }
                  ]
              }

信息

Metadata 类型 Description
单位 字符串 信息度量单位(数据)。
value 数字 信息的数值。

"metadata": {
                "unit": "Kilobit",
                "value": 30
            }

单位的可能值

  • Bit
  • 字节(Byte)
  • 千兆位
  • 千兆字节
  • 千比特
  • 千字节
  • 兆比特
  • 兆字节
  • Petabit
  • Petabyte
  • Terabit
  • Terabyte
  • 未指定

长度

Metadata 类型 Description
单位 字符串 长度度量单位
value 数字 数值。

"metadata": {
                "unit": "Kilobit",
                "value": 30
            }

单位的可能值

  • 厘米
  • Decameter
  • 分米
  • 英尺
  • Hectometer
  • 英寸
  • Kilometer
  • LightYear
  • 计量
  • 千分尺
  • 英里
  • 毫米
  • 纳米
  • Picometer
  • Point
  • Yard
  • 未指定

编号

Metadata 类型 Description
numberKind 字符串 数字类型。
value 数字 数字的数值。

"metadata": {
                "numberKind": "Integer",
                "value": 30
            }

numberKind 的可能值

  • Decimal
  • 分数
  • 整数
  • Percent
  • Power
  • 未指定

NumericRange

Metadata 类型 Description
rangeKind 字符串 支持的数值范围。
最低 数字 间隔的起始值。
最大 数字 间隔的结束值。

"metadata": {
                "rangeKind": "length",
                "minimum": 30,
                "maximum": 100
            }

rangeKind 的可能值

  • 年龄
  • Area
  • 货币
  • 信息
  • 长度
  • 编号
  • Speed
  • 温度
  • 音量
  • Weight

顺序

Metadata 类型 Description
偏移 字符串 相对于参考的偏移量(例如,offset = -1 指示倒数第二个)
relativeTo 序数表示的参考点。
value 数字 序号位置的数值。

"metadata": {
                "offset": -1,
                "relativeTo":"Current",
                "value": "first"
            }

relativeTo 的可能值

  • Current
  • 结束
  • Start

设置

定期日期/时间(例如:“每个星期一下午 6:00)。”

Metadata 类型 Description
timex 字符串 ISO 8601 格式的日期和时间:
YYYY-MM-DDTHH:MM:SS(年、月、日、小时、分钟、秒、毫秒)用T作为分隔符。
value 字符串 集不会解析为确切的值,因为它们不表示确切的日期/时间。

"metadata": {
                "timex": "XXXX-WXX-1T18",
                "value": "not resolved"
            }

类型的可能值

  • begin
  • end
  • duration
  • 修饰符 (示例: beforeafter
  • timex

Speed

Metadata 类型 Description
单位 字符串 速度的度量单位。
value 数字 速度的数值。

"metadata": {
                "unit": "Knots",
                "value": 50
            }

单位的可能值

  • 厘米每毫秒
  • FootPerMinute
  • 英尺每秒
  • 公里每小时
  • KilometersPerMillisecond
  • 公里每分钟
  • 公里每秒
  • MetersPerMillisecond
  • 米每秒
  • 英里每小时
  • YardsPerMinute
  • YardsPerSecond
  • 未指定

温度

Metadata 类型 Description
单位 字符串 温度的测量单位。
value 数字 数值。

"metadata": {
                "unit" "Kelvin",
                "value": 310
            }

单位的可能值

  • Celsius
  • Fahrenheit
  • Kelvin
  • Rankine
  • 未指定

Time

Metadata 类型 Description
timex 字符串 ISO 8601 格式的日期时间:
[hh]:[mm]:[ss](小时、分钟、秒)。
value 数字 数值。

"metadata": {
                "timex":"T14:30:15",
                "value": "14:30:15"
            }

音量

Metadata 类型 Description
单位 字符串 体积的度量单位。
value 数字 音量的数值。

"metadata": {
                "unit": "Quart",
                "value": 4
            }

单位的可能值

  • 圆筒
  • Bushel
  • Centiliter
  • 线缆
  • 立方厘米
  • CubicFoot
  • CubicInch
  • CubicMeter
  • CubicMile
  • 立方毫米
  • CubicYard
  • 杯子
  • 十升
  • FluidDram
  • FluidOunce
  • Gill
  • 公升
  • Hogshead
  • Liter
  • 毫升
  • Minim
  • Peck
  • Pint
  • Quart
  • 汤匙
  • 茶匙
  • 未指定

Weight

Metadata 类型 Description
单位 字符串 重量的度量单位。
value 数字 重量的数值。

"metadata": {
                "unit": "Ounce",
                "value": 16
            }

单位的可能值

  • 动态随机存取存储器 (DRAM)
  • Gallon
  • Grain
  • 千克
  • LongTonBritish
  • MetricTon
  • 毫克
  • 盎司
  • PennyWeight
  • ShortHundredWeightUS
  • ShortTonUS
  • 石头
  • 未指定

后续步骤

了解如何使用 NER