kafka

2015-03-01

Apache Kafka是一个由Java开发的分布式发布-订阅消息系统，它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。

Apache Kafka具有良好的扩展性和极高的性能，灵活的订阅数据方式使得它已经成为海量消息处理的标杆。

基本概念

数据的切分
对于每一个topic的数据，将分成多个数据块存储在系统集群中。
分块采用主/从的方式保证数据的可靠性。同一时间只有主节点负责用户接收请求，从节点只被动的同步数据。
生产者
生产者可以根据自己需求将消息发送给指定的topic对应的指定分块，也可随机选择一个分块。
消费者
Kafka最大的特点是保证消费者处理消息的强时序性。它严格限制了，同一时间一个分块最多只有一个消费者。
同时也对使用者提出了两个要求：
为了保证系统的并发，需在启动之初，选择好每个topic的分块数量。
对于需要保证时序的多个操作，生产者需要指定同样的分块。

实现要点

数据写入

每个topic分块实际上对应的就是linux上的一个文件。
采用批量Append方式，不支持数据修改和删除。牺牲用户的响应时间，追求系统性能。
采用sendfile命令，直接将用户的数据写到指定文件中，避免从用户态到内核态数据复制的损失。

数据读取

系统不使用任何Cache，全部交由操作系统处理，
读取数据时，消费者需提供数据的offset。
后端保存消费者处理到的offset在元数据中。
消费者消费完数据后，数据不会删除。

许多消息队列采用客户ACK方式，确保用户某条消息已经正确被消费，同时删除此条数据，但这带来了两个问题。

消息可能被消费多次。
考虑一种情形，当消费者处理完某条消息后，发送ACK确认期间宕机。当客户再次启动时，由于服务器没有收到消息的确认信息，消息将被重新消费。
性能开销
每条消息都多了一条确认请求。

Kafka提出了新的方案。当用户消费完消息后，数据将不会被马上删除。将根据设置，批量的删除历史数据(如2周前)。
这样带来的好处是：

减少了元数据信息。
后端只需保存每个用户消费到的offset。使得客户端与服务器端沟通代价更小。服务器端定期保存offset数据即可。
消息可以重读
当用户出现BUG时，允许用户回退读取过期数据。这对于用户遇到问题时是个很大帮助。

网络的优化

基于binary的通讯协议。
降低Producer，Broker和Consumer之间因为小数据包带来的性能损失。
批量发送数据 & 对数据进行压缩。
开发者发现对于很多场景，系统的性能瓶颈在于网络带宽。
Kafka在后端向消费者发送数据时，采用批量策略。并只对大数据，进行数据进行压缩。消费者在收到数据后，将针对压缩数据进行解压，返回给上层用户的只是未压缩数据。
详细资料在此[https://cwiki.apache.org/confluence/display/KAFKA/Compression]

数据的推-拉模型

系统的数据处理方式是推拉结合，生产者发送数据到后端，消费者从后端拉取数据。
Scribe和Flume采用拉推模式。上游将发送的数据存在本地，后端定期从上游端数据中获取文件，并且向下游发送数据。
对于上游的拉方式，其优点在于上游客户操作延迟低。但是存在数据丢失的风险。同时对于有大量的上游用户场景不太适用。
对于下游的推方式，其优点在于后端可以性能最大化，有效的平衡CPU，磁盘IO和网络带宽。但缺点在于后端数据发送的速率可能过快，超过了下游数据处理能力。
考虑到kafka对用户发送数据的可靠性要求和可能存在的大量生产者，最后选择了推-拉模型。

消息消费原语

消息队列一般存在三种消息消费原语，它包括：

最多消费一次：消息最多被消费者处理一次
最少消费一次：消息最少被消费者处理一次
恰好消费一次：消息正好被消费者处理一次。这个当然是现实中最想要的，但是通常存在很高的代价。
这三种原语实际上对应的是，客户端处理操作的顺序。
客户端在处理消息时一般包含三个步骤：
从消息队列取得数据
处理该消息
通知消息队列数据消费完成

对于最少消费一次原语，其步骤恰好同上面相同。因为在2和3之间可能客户端出现错误，当消费者再次启动时，将重复消费该条数据。
对于最多消费一次原语，需将2和3对换过来。先告知后端处理完成，再处理消息。同样2和3之间可能客户端出现错误，此时将导致某条数据可能还没背消费。
对于消费一次原语，需要保证2和3两个步骤作为一次事务，共同完成或共同失败。事务的一般做法是二阶段提交。其流程描述如下：

拿分布式锁。
标记job开始做，记录此条消息涉及的数据之前的状态。实际上对应数据库中的undo log。
处理消息
通知消息队列
释放锁
但该做法在实现过程中存在两个问题。一是在于消息相关数据状态难于获取，二是在于拿锁性能可能存在问题。特别是对于Kafka这类实时性要求较高的系统，很难接受如此大的开销。
对于消息处理没有状态的场景，存在更搞笑的解决办法。可先运行得到处理结果，再将结果和完成通知一并写在一个能保证数据安全的地方(如ZK)。
为了平衡效率，Kafka最终提供了1和2原语，而没提供3这个看上去”最好”的原语。

复制

Kafka通过多副本，主/从复制的方式保证数据的高可靠性。从节点实际上也是一个消费者，它订阅了主节点的所有topic，仅充当数据备份，而不接受用户请求。从节点需定期汇报自己的运行状态(如同步到的数据offset位置)到ZK中，只有处于”同步中”（与主节点的数据差异小于指定消息数目）的节点才能在主节点宕机后，被选为主节点，从而降低主节点宕机造成的数据丢失风险，更多细节可查看浅谈集群中的数据一致性。