StringNormalizer

StringNormalizer - 10

版本

  • 名称StringNormalizer (GitHub)

  • : main

  • since_version: 10

  • 函数: False

  • 支持级别: SupportType.COMMON

  • 形状推断: True

此版本的操作符已在 版本 10 中提供。

摘要

StringNormalization 执行字符串操作以进行基本清理。此运算符只有一个输入(由 X 表示)和一个输出(由 Y 表示)。此运算符首先检查 X 中的元素,并删除“stopwords”属性中指定的元素。删除停用词后,中间结果可以根据“case_change_action”属性进一步转换为小写、大写或直接返回。此运算符只接受 [C]- 和 [1, C]-张量。如果 X 中的所有元素都被删除,则输出将是字符串张量的空值,如果输入形状是 [C],则形状为 [1];如果输入形状是 [1, C],则形状为 [1, 1]。

属性

  • case_change_action - 字符串(默认为 'NONE'

    字符串枚举,将输出转换为小写/大写/不变。有效值为“LOWER”、“UPPER”、“NONE”。默认为“NONE”

  • is_case_sensitive - INT(默认为 '0'

    布尔值。识别 X 中的停用词是否区分大小写。默认为 false

  • locale - 字符串 :

    环境相关的字符串,表示根据其需要将输出字符串转换为大写/小写的区域设置。默认值为 en_US 或由实现决定的平台特定等效值。

  • stopwords - 字符串 :

    停用词列表。如果未设置,则不会从 X 中删除任何词。

输入

  • X (异构) - 张量(字符串)

    要标准化的 UTF-8 字符串

输出

  • Y (异构) - 张量(字符串)

    UTF-8 标准化字符串