kafka基础教程
资料来源:apache kafka - introduction (tutorialspoint.com)
apache kafka起源于linkedin,后来在2011年成为一个开源apache项目,然后在2012年成为一流的apache项目。kafka是用scala和java编写的。apache kafka是基于发布-订阅( publish-subscribe)的容错消息传递系统(fault tolerant messaging system)。它是快速的,可扩展的和分布式的设计。
本教程将探索kafka的原理,安装,操作,然后将带您完成kafka集群的部署。最后,我们将总结实时应用和与大数据技术的集成。
1. kafka-简介
在大数据中,使用了大量的数据。关于数据,我们面临两个主要挑战。第一个挑战是如何收集大量的数据,第二个挑战是如何分析收集到的数据。为了克服这些挑战,您必须需要一个消息传递系统。
kafka是为分布式高吞吐量系统设计的。kafka可以很好地替代传统的消息代理。与其他消息传递系统相比,kafka具有更好的吞吐量、内置分区、可复制和固有的容错能力,这使得它非常适合大规模应用。
什么是消息传递系统?
消息传递系统负责将数据从一个应用程序传输到另一个应用程序
,因此应用程序可以专注于数据本身,而不必担心如何共享数据。分布式消息传递基于可靠消息队列的概念。消息在客户机应用程序和消息传递系统之间异步排队。有两种类型的消息传递模式可用:一种是点对点(point-point),另一种是发布-订阅(pub-sub)消息传递系统。大多数消息传递模式遵循发布-订阅。
点对点的消息传递系统
在点对点系统中,消息被保存在队列中。一个或多个消费者可以使用队列中的消息,但是一个特定的消息最多只能由一个消费者使用。一旦使用者读取队列中的消息,它就会从队列中消失。该系统的典型示例是订单处理系统,其中每个订单将由一个订单处理器处理,但多个订单处理器也可以同时工作。下图描述了该结构。
发布-订阅消息传递系统
在发布-订阅系统中,消息被保存在主题中。与点对点系统不同,消费者可以订阅一个或多个主题,并使用该主题中的所有消息。在发布-订阅系统中,消息生产者称为发布者,消息消费者称为订阅者。现实生活中的一个例子是dish tv,它发布不同的频道,如体育、电影、音乐等,任何人都可以订阅自己的频道集,并在他们订阅的频道可用时获得这些频道。
什么是kafka?
apache kafka是一个分布式发布-订阅消息系统和一个健壮的队列,可以处理大量数据,并允许您将消息从一个端点传递到另一个端点。kafka适用于离线和在线消息消费。kafka消息被持久化在磁盘上,并在集群内复制,以防止数据丢失。kafka是建立在zookeeper同步服务之上的
。它可以很好地与apache storm和spark集成,用于实时流数据分析。
kafa的优点
以下是kafa的一些优点
kafka非常快,并保证零停机时间和零数据丢失。
kafka使用案例
kafka有许多使用案例,以下列出一些:
使用kafka的必要性
kafka是一个处理所有实时数据源的统一平台。kafka支持低延迟消息传递,并在机器出现故障时提供容错保证。它有能力处理大量不同的消费者。kafka非常快,每秒写200万次。kafka将所有数据持久化到磁盘,这实际上意味着所有的写操作都将进入操作系统(ram)的页面缓存。这使得将数据从页面缓存传输到网络套接字非常有效。
未完待续。。。。点个赞呗
发表评论