可以使用适用于 R 的常用集成开发环境(IDE)RStudio从本地开发计算机连接到Azure Databricks工作区中的Azure Databricks计算资源。
设置 RStudio Desktop
若要在本地开发计算机上安装 RStudio Desktop,请执行以下操作:
启动 RStudio Desktop。
(可选)若要创建 RStudio 项目,请执行以下操作:
启动 RStudio Desktop。
单击文件 >新建项目。
选择 New Directory > New Project。
选择project的新目录,然后单击 Create Project。
若要创建 R 脚本,请执行以下操作:
打开项目后,单击“文件”>“新建文件”>“R 脚本”。
单击“文件> 另存为”。
为文件命名,然后单击“保存”。
连接到 Databricks
若要使用 RStudio Desktop 从本地开发计算机连接到远程Azure Databricks群集或 SQL 仓库,请使用 ODBC 连接并调用 R 的 ODBC 包函数。
注意
在此 RStudio Desktop 方案中不能使用 SparkR 或 sparklyr 等包,除非同时使用 Databricks Connect。
若要通过 ODBC for R 连接到远程Azure Databricks群集或 SQL 仓库,
获取远程群集或 SQL 仓库的服务器主机名、端口和 HTTP 路径值。对于群集,这些值位于高级选项的 JDBC/ODBC 选项卡上。 对于 SQL 仓库,这些值可以在“连接详细信息”选项卡上找到。
获取Azure Databricks 个人访问令牌。
根据本地计算机的操作系统,为 Windows、macOS 或 Linux 设置 ODBC 数据源名称(DSN) 到远程群集或 SQL 仓库。
在 RStudio 控制台中(“视图”>“将焦点移到控制台”),安装来自 CRAN 的 odbc 和 DBI 包:
require(devtools) install_version( package = "odbc", repos = "http://cran.us.r-project.org" ) install_version( package = "DBI", repos = "http://cran.us.r-project.org" )在您的 R 脚本中(查看 > 将焦点转移到源代码节点),加载已安装的
odbc和DBI软件包:library(odbc) library(DBI)调用dbConnect函数的ODBC版本时,需在
DBI包中指定odbc包中的odbc驱动程序以及您创建的ODBC DSN,例如Databricks。conn = dbConnect( drv = odbc(), dsn = "Databricks" )通过 ODBC DSN 调用操作,例如通过包中的
dbGetQuery 函数执行语句,指定连接变量的名称和语句本身,例如,从架构(模式)名为 中的 表执行: print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
完整的 R 脚本如下所示:
library(odbc)
library(DBI)
conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
若要运行该脚本,请在源视图中单击“源”。 上述 R 脚本的结果如下所示:
_c0 carat cut color clarity depth table price x y z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31