如果你要将数据上传到对话语言理解中,这些数据必须遵循特定的格式。 本文将详细介绍接受的数据格式。
导入项目文件格式
如果你要将项目导入到对话语言理解中,则上传的文件必须采用以下格式:
{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}
| 密钥 | 占位符 | 值 | 示例 | 
|---|---|---|---|
{API-VERSION} | 
要调用的 API 的版本。 | 2023-04-01 | 
|
confidenceThreshold | 
{CONFIDENCE-THRESHOLD} | 
当意图被预测为None 意图时的阈值分数。 值的范围为 0 到 1。 | 
0.7 | 
projectName | 
{PROJECT-NAME} | 
项目名称。 此值区分大小写。 | EmailApp | 
multilingual | 
true | 
一个布尔值,让你可以在数据集内使用多种语言的语句。 在部署模型后,你可以使用任何支持的语言(不一定包含在训练文档中)查询该模型。 有关支持的语言代码的详细信息,请参阅语言支持。 | true | 
sublists | 
[] | 
包含子列表的数组。 每个子列表都包含一个键及其关联的值。 | [] | 
compositionSetting | 
{COMPOSITION-SETTING} | 
定义如何在实体中管理多个组件的规则。 选项是 combineComponents 或 separateComponents。 | 
combineComponents | 
synonyms | 
[] | 
包含所有同义词的数组。 | 同义词 | 
language | 
{LANGUAGE-CODE} | 
指定项目中所用语句、同义词和正则表达式的语言代码的字符串。 如果你的项目是多语言项目,请选择大多数语句的语言代码。 | en-us | 
intents | 
[] | 
包含项目中所有意向的数组。 这些意向是从语句中分类的。 | [] | 
entities | 
[] | 
包含项目中所有实体的数组。 这些实体是从语句中提取的。 可以在每个实体中定义其他可选组件:列表、预生成组件或正则表达式。 | [] | 
dataset | 
{DATASET} | 
在定型之前拆分数据时,将分配此话语的测试集。 若要详细了解数据拆分,请参阅训练对话语言理解模型。 此字段的可能值为 Train 和 Test。 | 
Train | 
category | 
  | 
与指定文本跨度关联的实体类型。 | Entity1 | 
offset | 
  | 
实体开头的非独占字符位置。 | 5 | 
length | 
  | 
实体的字符长度。 | 5 | 
listKey | 
  | 
在预测中要映射回的同义词列表的规范化值。 | Microsoft | 
values | 
{VALUES-FOR-LIST} | 
完全匹配的、要提取并映射到列表键的字符串的逗号分隔列表。 | "msft", "microsoft", "MS" | 
regexKey | 
{REGEX-PATTERN} | 
在预测中正则表达式要映射回的规范化值。 | ProductPattern1 | 
regexPattern | 
{REGEX-PATTERN} | 
一个正则表达式。 | ^pre | 
prebuilts | 
{PREBUILT-COMPONENTS} | 
可以提取常见类型的预生成组件。 有关可添加的预生成组件列表,请参阅支持的预生成实体组件。 | Quantity.Number | 
requiredComponents | 
{REQUIRED-COMPONENTS} | 
一项设置,指定必须存在特定的组件才会返回实体。 有关详细信息,请参阅实体组件。 可能的值为 learned、regex、list 或 prebuilts。 | 
"learned", "prebuilt" | 
语句文件格式
对话语言理解提供了用于将语句直接上传到项目(而不是逐个键入语句)的选项。 可以在项目的数据标签页中找到此选项。
[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]
| 密钥 | 占位符 | 值 | 示例 | 
|---|---|---|---|
text | 
{Utterance-Text} | 
你的语句文本。 | 测试 | 
language | 
{LANGUAGE-CODE} | 
一个字符串,用于指定项目中所用语句的语言代码。 如果你的项目是多语言项目,请选择大多数语句的语言代码。 有关支持的语言代码的详细信息,请参阅语言支持。 | en-us | 
dataset | 
{DATASET} | 
在数据于训练前被拆分时,此话语被分配到的测试集。 若要详细了解数据拆分,请参阅训练对话语言理解模型。 此字段的可能值为 Train 和 Test。 | 
Train | 
intent | 
{intent} | 
分配的意向。 | intent1 | 
entity | 
{entity} | 
要提取的实体。 | entity1 | 
category | 
  | 
与指定文本跨度关联的实体类型。 | Entity1 | 
offset | 
  | 
文本开头的非独占字符位置。 | 0 | 
length | 
  | 
以 UTF16 字符表示的边界框长度。 训练仅考虑此区域的数据。 | 500 | 
相关内容
- 有关直接将标记的数据导入项目的详细信息,请参阅导入项目。
 - 有关标记数据的详细信息,请参阅在 Language Studio 中标记语句。 标记数据后,可以训练模型。