spark stream:从Kafka中读取数据_MsSqlserver

一、添加依赖

thisbuild / version := "0.1.0-snapshot"

thisbuild / scalaversion := "2.12.12"
librarydependencies ++= seq( "org.apache.spark" % "spark-core_2.12" % "3.0.0")
librarydependencies ++= seq( "org.apache.spark" % "spark-sql_2.12" % "3.0.0")
librarydependencies ++= seq( "org.apache.spark" % "spark-streaming_2.12" % "3.0.0")
librarydependencies ++= seq( "org.apache.spark" % "spark-streaming-kafka-0-10_2.12" % "3.0.0")
librarydependencies ++= seq( "com.fasterxml.jackson.core" % "jackson-core" % "2.10.1")



librarydependencies ++= seq( "mysql" % "mysql-connector-java" % "5.1.30")


lazy val root = (project in file("."))
  .settings(
    name := "scala-proj"
  )

二、demo程序

package example3

import org.apache.kafka.clients.consumer.{consumerconfig, consumerrecord}
import org.apache.spark.sparkconf
import org.apache.spark.rdd.rdd
import org.apache.spark.storage.storagelevel
import org.apache.spark.streaming.dstream.{dstream, inputdstream, receiverinputdstream}
import org.apache.spark.streaming.kafka010.{consumerstrategies, kafkautils, locationstrategies}
import org.apache.spark.streaming.receiver.receiver
import org.apache.spark.streaming.{duration, seconds, streamingcontext}

import scala.collection.mutable
import scala.util.random

object hellostreaming04 {
  def main(args: array[string]): unit = {
    val sparkconf = new sparkconf().setmaster("local[*]").setappname("kafkaconsumer")
    val ssc = new streamingcontext(sparkconf, seconds(5))

    val kafkapara: map[string, object] = map[string, object](
      consumerconfig.bootstrap_servers_config -> "xx.xx.xx.xx:9092", 
      consumerconfig.group_id_config -> "mygroup",
      "key.deserializer" -> "org.apache.kafka.common.serialization.stringdeserializer",
      "value.deserializer" -> "org.apache.kafka.common.serialization.stringdeserializer"
    )

    val kafkadatads: inputdstream[consumerrecord[string, string]] = kafkautils.createdirectstream[string, string](ssc,
      locationstrategies.preferconsistent,
      consumerstrategies.subscribe[string, string](set("mytopic"), kafkapara)
    )
    kafkadatads.map(_.value()).print()
    ssc.start();
    ssc.awaittermination();

  }




}

数据仓库数据分层详解

原始数据层（Raw Data Layer）：这是数仓中最底层的层级，用于存储从各个数据源获取的原始数据。这些数据通常是未经处理和清洗的，包括来自数据库、日志文件... [阅读全文]

万字详解数据仓库、数据湖、数据中台和湖仓一体

数字化转型浪潮卷起各种新老概念满天飞，数据湖、数据仓库、数据中台轮番在朋友圈刷屏，有人说“数据中台算个啥，数据湖才是趋势”，有人说“再见了数据湖、数据仓库，数据中台已成气候”……企…

2024年07月31日 • 数据库

Flink SQL 中 CAST 函数报错: “null“. 无效编程

Flink SQL 中 CAST 函数报错: “null”. 无效编程在 Flink SQL 中，CAST 函数用于将一个数据类型转换为另一个数据类型。然而，当... [阅读全文]

flink cdc，standalone模式下,任务运行一段时间taskmanager挂掉

这个配置的含义是,超时(以毫秒为单位)，在此之后任务取消超时并导致致命的 TaskManager 错误。 [阅读全文]

大数据最新FlinkCDC全量及增量采集SqlServer数据_flink cdc sql server

TABLE_CATALOGTABLE_SCHEMATABLE_NAME TABLE_TYPEtest dbo use... [阅读全文]

Flink的扩展与插件化

Flink 的扩展与插件化1. 背景介绍1.1 问题的由来随着大数据时代的到来，实时数据处理逐渐成为各行业的关键需求。Apache Flink 作为一种新兴的分... [阅读全文]


验证码：

验证码：

spark stream:从Kafka中读取数据

2024年07月31日 • MsSqlserver •我要评论

相关文章:

万字详解数据仓库、数据湖、数据中台和湖仓一体

发表评论