regexp_instr

返回与 Java 正则表达式str匹配且对应于正则表达式组索引的第一个子字符串regexp的位置。

有关相应的 Databricks SQL 函数,请参阅 regexp_instr 函数

Syntax

from pyspark.databricks.sql import functions as dbf

dbf.regexp_instr(str=<str>, regexp=<regexp>, idx=<idx>)

参数

参数 类型 Description
str pyspark.sql.Columnstr 要处理的目标列。
regexp pyspark.sql.Columnstr 要应用的正则表达式模式。
idx pyspark.sql.Columnint, optional 匹配的组 ID。

例子

from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([("1a 2b 14m", r"\d+(a|b|m)")], ["str", "regexp"])
df.select('*', dbf.regexp_instr('str', dbf.lit(r'\d+(a|b|m)'))).show()
df.select('*', dbf.regexp_instr('str', dbf.lit(r'\d+(a|b|m)'), dbf.lit(1))).show()
df.select('*', dbf.regexp_instr('str', dbf.col("regexp"))).show()
df.select('*', dbf.regexp_instr(dbf.col("str"), "regexp")).show()