1.1高吞吐量,低延迟,kafka可以每秒处理几十万条数据,它的延迟最低只有几毫秒,每个topic可以分为多个partition,consumer group 对partition 的consumer进行操作.
1.2可扩展性:横向扩大缓冲,发送端和接收端之间加消息队列,也就是kafka支持,热扩展
1.3持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失
1.4容错性:允许集群中节点运行失败(若集群中有N个节点,就可以允许n-1个节点运行失败)
1.5高并发:支持数千个客户端同时进行读写
21.日志收集,一个公司可以用kafka收集各种log,通过kafka以统一接口的方式开放给各种consumer,比如像hadoop,hbase等
2.2消息系统中:解耦和生产者,消费者和缓存(解耦就是:原本大数据架构是高度耦合的,比如一个架构里面有4个source 他们可能会以各种方向流向对应的4个taget,这样系统复杂度为4*4=16,当在source和target之间加入kafka之后,kafka就会帮助降低耦合度最后得到1*2*4=8)
3.kafka经常被问到从来记录web端和app端用户的各种活动,入浏览网页,搜索,点击等活动,这些活动信息被服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来实时,监控分析,或者装载到hadoop中进行离线分析
4.
运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。流式处理:比如spark streaming和 Flink