在Spark SQL中,我们可以通过JDBC连接器来连接MySQL数据库,以下是步骤:
1、我们需要添加MySQL的JDBC驱动包到我们的项目中,如果你使用的是Maven项目,可以在pom.xml文件中添加以下依赖:
<dependency> <groupId>mysql</groupId> <artifactId>mysqlconnectorjava</artifactId> <version>8.0.15</version> </dependency>
2、我们需要创建一个SparkSession对象,并启用Hive支持,因为JDBC连接器需要Hive的支持。
import org.apache.spark.sql.SparkSession; SparkSession spark = SparkSession .builder() .appName("Spark SQL JDBC Connector Example") .config("spark.master", "local") .enableHiveSupport() .getOrCreate();
3、我们可以使用spark.read().jdbc()
方法来从MySQL读取数据,并加载到DataFrame中。
String url = "jdbc:mysql://localhost:3306/database_name"; Properties connectionProperties = new Properties(); connectionProperties.put("user", "username"); connectionProperties.put("password", "password"); connectionProperties.put("driver", "com.mysql.jdbc.Driver"); Dataset<Row> jdbcDF = spark.read() .jdbc(url, "table_name", connectionProperties);
4、我们可以对DataFrame进行各种操作,如显示数据、过滤数据等。
jdbcDF.show();
代码会从本地MySQL数据库的指定表中读取数据,并显示前20行,注意替换url中的"localhost:3306/database_name"为你的MySQL服务器地址和数据库名,以及将"username"和"password"替换为你的MySQL用户名和密码。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/760927.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复