------此项目整理自《Spark Streaming 实时流式大数据处理实战》肖力涛
第10章 监控报警系统实战
原书源码地址:https://github.com/xlturing/spark-streaming-action/tree/master/code/第10章
本文源码地址:https://github.com/githubwaynefong/Projects_SparkStreaming/tree/master/监控报警系统
(本文代码在原书代码基础上进行修改,增加了大量注释,修复了几个bug)
一、环境
开发环境:
系统:Win10
开发工具:scala-eclipse-IDE
项目管理工具:Maven 3.6.0
JDK 1.8
Scala 2.11.11
Spark (Streaming) 2.4.3
spark-streaming-kafka-0-10_2.11 (Spark Streaming 提供的Kafka集成接口)
注1. 末尾的2.11 代表scala版本;
注2. kafka-0-10 代表支持 kafka 0.10 及以上版本,此版本为新版本(老版本 0-8)
注3. 集成接口使用方式,访问以下官方链接:
http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html
Kafka_2.11-2.2.1(2.11表示对应的scala版本,2.2.1表示kafka版本)
MySQL:mysql-connector-java-5.1.47
作业运行环境:
系统:Linux CentOS7(两台机:主从节点,2核)
master : 192.168.190.200
slave1 : 192.168.190.201
JDK 1.8
Scala 2.11.11
Spark 2.4.3
ZooKeeper 3.4.14
Kafka_2.11-2.2.1
MySQL 5.6.44 (仅部署master单节点)
二、背景及系统设计图
1. 背景
对于各大论坛(forum)、App Store 及应用宝等渠道,每天都会产生大量的用户评论,分析这些用户评论,能够实时掌握应用情况,帮助应用开发人员及时做出调整。在市面上有很多成熟的分析网站,如腾讯WeTest、Thinkinggame、微热点等,该类网站会针对某个特定领域收集网络上的各类数据,然后进行分析、归纳,展示给用户,对于已经订阅的用户,根据用户要求提供提供报警推送服务。
本项目开发一个简易爬虫,从热门的 Taptap 社区爬取指定游戏的用户评论;然后用 Spark Streaming 对评论进行过滤、分词;最后通过 Java 应用程序将结果归纳汇总,根据规则进行报警。
2. 系统设计图
三、项目代码结构图(Maven项目)
1. 爬虫系统子项目
2. 流式分析子项目
3. 统计报警子项目
四、启动相关服务,打包运行
--------------------------------------------------------------------------------------
**保证两台主机开启(master和slave1),然后启动如下软件:
master节点执行:
1. MySQL开机自启
2. 启动Spark:(master节点将开启Master守护进程,slave1节点将开启Worker守护进程)
$ /opt/spark-2.4.3-bin-hadoop2.7/sbin/start-all.sh
master和slave1节点执行:
1. 启动ZK:
$ zkServer.sh start
2. 启动Kafka:(-daemon 为隐藏启动日志,后面是启动的配置文件)
$ kafka-server-start.sh -daemon /opt/kafka_2.11-2.2.1/config/server.properties
--------------------------------------------------------------------------------------
**作业打包提交:
在项目根目录(monitorAlarmCrawler/)下打包:
$ mvn clean install
在 monitorAlarmCrawler/target/ 下生成Jar包:monitorAlarmCrawler-0.1-jar-with-dependencies.jar
将此Jar包上传至master节点的目录下
在项目根目录(monitorAlarmStatistic/)下打包:
$ mvn clean install
在 monitorAlarmStatistic/target/ 下生成Jar包:monitorAlarmStatistic-0.1-jar-with-dependencies.jar
将此Jar包上传至master节点的目录下
在项目根目录(monitorAlarmCount/)下打包:
$ mvn clean install
在 monitorAlarmCount/target/ 下生成Jar包:MonitorAlarmCount.jar
将此Jar包上传至master节点的目录下
--------------------------------------------------------------------------------------
终端A 登陆 master节点执行(可用多个 Power Shell 连接)
1. 提交Spark Streaming作业:(master节点)
$ spark-submit --class sparkstreaming_action.statistic.main.MonitorAlarmStatistic --num-executors 1 --executor-cores 2 --conf spark.default.parallelism=1000 monitorAlarmStatistic-0.1-jar-with-dependencies.jar
<终端打印如下信息:>
--------------------------------------------------------------------------------------
终端B 登陆 master节点执行(可用多个 Power Shell 连接)
1. 启动爬虫爬取游戏评论:
$ java -cp monitorAlarmCrawler-0.1-jar-with-dependencies.jar sparkstreaming_action.crawler.main.Producer 10 monitorAlarm master:9092,slave1:9092
参数1:10 代表爬取10页评论数据
参数2:monitorAlarm 代表主题
参数3:master:9092,slave1:9092 代表Kafka的brokers(引导服务列表)
<终端打印如下信息:>
[Spark UI] 此时,流式分析子系统的Executor节点上有如下处理信息:
19/07/16 21:32:10 WARN MonitorAlarmStatistic$: [KafkaOutput] output to monitorAlarmCount gameId: 2301
19/07/16 21:32:10 WARN SegmentService$: [Segment_Success] gameId: 2301 gameName: 王者荣耀 time elapsed: 1 MonitorGames count: 1
--------------------------------------------------------------------------------------
终端C 登陆 master节点执行(可用多个 Power Shell 连接)
1. 启动报警程序:
$ java -cp .\MonitorAlarmCount-jar-with-dependencies.jar sparkstreaming_action.count.main.ConsumerMain
<终端打印如下信息:>
1)一开始是垃圾过滤正则模板的加载:
2019-07-16 21:33:23 INFO TrashFilterUtils:97 - patterns_appstore.txt rules:
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <qq>, content: qq|扣扣|釦釦
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <微信>, content: 微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <色情对象>, content: 处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <福利内容>, content: 扣b|q币|扣币|qb|流量|话费|红包
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <色情黄>, content: 黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <联系我>, content: 加我|私我|联系我|q我|私信我|找我
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <加入qq>, content: (加|加入)(<qq>|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <数字>, content: [0-9]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <数字英文>, content: [0-9a-zA-Z]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <中文字符>, content: [一-龥]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <星级>, content: 一|二|三|四|五|[0-9]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <点赞>, content: 双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下)
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <网>, content: 网|罔|網|辋|wang
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <片>, content: 偏|篇|片|pian
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (加|加入)(我|这|这个).*?(<微信>|<qq>|pp群|群|裙|qun|<数字英文>{7,}), new pattern: (加|加入)(我|这|这个).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9a-zA-Z]{7,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ^(?=.*(<联系我>|色群))(?=.*(<数字英文>{7,})), new pattern: ^(?=.*(加我|私我|联系我|q我|私信我|找我|色群))(?=.*([0-9a-zA-Z]{7,}))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 支付宝.*?(<数字英文>{6,}), new pattern: 支付宝.*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(<微信>).*?(<数字英文>{6,}), new pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx).*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 出号, new pattern: 出号
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 卖号, new pattern: 卖号
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 买号, new pattern: 买号
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<点赞>)得, new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))得
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<点赞>)(<中文字符>{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$), new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))([一-龥]{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 取消(<中文字符>{0,2})(赞|点赞|击赞), new pattern: 取消([一-龥]{0,2})(赞|点赞|击赞)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 手速.*?(<点赞>), new pattern: 手速.*?(双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (双击|(点<中文字符>{0,2}下))(<中文字符>{0,2})取消, new pattern: (双击|(点[一-龥]{0,2}下))([一-龥]{0,2})取消
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 抚摸, new pattern: 抚摸
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 下体, new pattern: 下体
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 婹, new pattern: 婹
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 做爱, new pattern: 做爱
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 喘息, new pattern: 喘息
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: JJ|JJ, new pattern: JJ|JJ
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 无码|无瑪, new pattern: 无码|无瑪
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (打炮[^(兵|战)])|(打炮$), new pattern: (打炮[^(兵|战)])|(打炮$)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (18|十八)(<中文字符>{0,1})禁, new pattern: (18|十八)([一-龥]{0,1})禁
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(<色情对象>), new pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水, new pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 意外怀孕, new pattern: 意外怀孕
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 避孕套, new pattern: 避孕套
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 内裤, new pattern: 内裤
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 桃花运, new pattern: 桃花运
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ((电影|影片)(<色情黄>))|((<色情黄>)(电影|影片)), new pattern: ((电影|影片)(黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情))|((黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)(电影|影片))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<色情黄>)((<片>)|(<网>)), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)((偏|篇|片|pian)|(网|罔|網|辋|wang))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<色情黄>|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(<片>)(<网>), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(偏|篇|片|pian)(网|罔|網|辋|wang)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (sao|骚|荡|当)妇, new pattern: (sao|骚|荡|当)妇
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 手淫|苍老师, new pattern: 手淫|苍老师
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 邂逅, new pattern: 邂逅
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 兼职, new pattern: 兼职
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 月入, new pattern: 月入
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 大额, new pattern: 大额
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 生活费|抚养费, new pattern: 生活费|抚养费
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 一般的游戏我不玩, new pattern: 一般的游戏我不玩
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<微信>|<qq>).*?(免费|收益|销售|出售|(挣(<中文字符>{0,4})(钱|元|块))), new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦).*?(免费|收益|销售|出售|(挣([一-龥]{0,4})(钱|元|块)))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (看看|看一看).*?(<微信>|<qq>|pp群), new pattern: (看看|看一看).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ^([↖↗↘↙↓↑←→▋█︾]), new pattern: ^([↖↗↘↙↓↑←→▋█︾])
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块), new pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块), new pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<微信>|<qq>|q群|扣群|扣qun)广告, new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|q群|扣群|扣qun)广告
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 广告费|广告歌|热线电话|广告公司, new pattern: 广告费|广告歌|热线电话|广告公司
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 不是广告, new pattern: 不是广告
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(<福利内容>), new pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (送|给|充|发)(\d+).*?(<福利内容>), new pattern: (送|给|充|发)(\d+).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 想看.*?(加|加入)(<微信>|<qq>|pp群|群|裙|qun), new pattern: 想看.*?(加|加入)(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 要(<福利内容>).*?(加|加入).*?(<微信>|<qq>|pp群|群|裙|qun|<数字>{7,}), new pattern: 要(扣b|q币|扣币|qb|流量|话费|红包).*?(加|加入).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9]{7,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (灌水|水贴)专用, new pattern: (灌水|水贴)专用
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 签到(贴|专用), new pattern: 签到(贴|专用)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 外挂搬砖, new pattern: 外挂搬砖
2019-07-16 21:33:23 INFO TrashFilterUtils:155 - pattern num: 53
2019-07-16 21:33:23 INFO TrashFilterUtils:97 - patterns_forum.txt rules:
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <qq>, content: qq|扣扣|釦釦
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <微信>, content: 微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <色情对象>, content: 处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <福利内容>, content: 扣b|q币|扣币|qb|流量|话费|红包
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <色情黄>, content: 黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <联系我>, content: 加我|私我|联系我|q我|私信我|找我
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <加入qq>, content: (加|加入)(<qq>|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <数字>, content: [0-9]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <数字英文>, content: [0-9a-zA-Z]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <中文字符>, content: [一-龥]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <星级>, content: 一|二|三|四|五|[0-9]
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <点赞>, content: 双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下)
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <网>, content: 网|罔|網|辋|wang
2019-07-16 21:33:23 INFO TrashFilterUtils:117 - symbol: <片>, content: 偏|篇|片|pian
2019-07-16 21:33:23 ERROR TrashFilterUtils:114 - symbol line: , splits is not 2
2019-07-16 21:33:23 ERROR TrashFilterUtils:114 - symbol line: , splits is not 2
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (加|加入)(我|这|这个).*?(<微信>|<qq>|pp群|群|裙|qun|<数字英文>{7,}), new pattern: (加|加入)(我|这|这个).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9a-zA-Z]{7,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ^(?=.*(<联系我>|色群))(?=.*(<数字英文>{7,})), new pattern: ^(?=.*(加我|私我|联系我|q我|私信我|找我|色群))(?=.*([0-9a-zA-Z]{7,}))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 支付宝.*?(<数字英文>{6,}), new pattern: 支付宝.*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(<微信>).*?(<数字英文>{6,}), new pattern: (借款|贷款|欠款|融资|理财|基金|出售).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx).*?([0-9a-zA-Z]{6,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<点赞>)得, new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))得
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<点赞>)(<中文字符>{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$), new pattern: (双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))([一-龥]{0,5})(送|给|发[^生]|领取|就领|有[^(啥|用)]|有$)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 取消(<中文字符>{0,2})(赞|点赞|击赞), new pattern: 取消([一-龥]{0,2})(赞|点赞|击赞)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 手速.*?(<点赞>), new pattern: 手速.*?(双击赞|单击赞|(点[一-龥]{0,2}赞)|赞我|赞了|(赞[一-龥]{0,2}下))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (双击|(点<中文字符>{0,2}下))(<中文字符>{0,2})取消, new pattern: (双击|(点[一-龥]{0,2}下))([一-龥]{0,2})取消
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 抚摸, new pattern: 抚摸
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 下体, new pattern: 下体
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 婹, new pattern: 婹
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 做爱, new pattern: 做爱
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 喘息, new pattern: 喘息
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: JJ|JJ, new pattern: JJ|JJ
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 无码|无瑪, new pattern: 无码|无瑪
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (打炮[^(兵|战)])|(打炮$), new pattern: (打炮[^(兵|战)])|(打炮$)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (18|十八)(<中文字符>{0,1})禁, new pattern: (18|十八)([一-龥]{0,1})禁
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(<色情对象>), new pattern: (强奸|迷奸|抽插|淫辱|猥亵).*?(处女|少女|美女|少妇|处男|妹妹|幼女|童女|菊花)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水, new pattern: 自(摸|模|mo|抚|扣|口|抠|kou)出水
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 意外怀孕, new pattern: 意外怀孕
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 避孕套, new pattern: 避孕套
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 内裤, new pattern: 内裤
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 桃花运, new pattern: 桃花运
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ((电影|影片)(<色情黄>))|((<色情黄>)(电影|影片)), new pattern: ((电影|影片)(黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情))|((黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)(电影|影片))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<色情黄>)((<片>)|(<网>)), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情)((偏|篇|片|pian)|(网|罔|網|辋|wang))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<色情黄>|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(<片>)(<网>), new pattern: (黄|毛|激情|劲|禁|艳|皇|簧|璜|潢|磺|黃|蝗|色情|色|se|做爱|座爱|作爱|zuo爱|昨爱|做ai)(偏|篇|片|pian)(网|罔|網|辋|wang)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (sao|骚|荡|当)妇, new pattern: (sao|骚|荡|当)妇
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 手淫|苍老师, new pattern: 手淫|苍老师
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 邂逅, new pattern: 邂逅
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 兼职, new pattern: 兼职
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 月入, new pattern: 月入
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 生活费|抚养费, new pattern: 生活费|抚养费
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 一般的游戏我不玩, new pattern: 一般的游戏我不玩
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<微信>|<qq>).*?(免费|收益|销售|出售|(挣(<中文字符>{0,4})(钱|元|块))), new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦).*?(免费|收益|销售|出售|(挣([一-龥]{0,4})(钱|元|块)))
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (看看|看一看).*?(<微信>|<qq>|pp群), new pattern: (看看|看一看).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: ^([↖↗↘↙↓↑←→▋█︾]), new pattern: ^([↖↗↘↙↓↑←→▋█︾])
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块), new pattern: (一月|一个月|([0-9]{1,2})个月)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块), new pattern: (一日|([0-9]{1,2})日)([0-9]{1,})(yuan|元|块)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (<微信>|<qq>|q群|扣群|扣qun)广告, new pattern: (微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|q群|扣群|扣qun)广告
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 广告费|广告歌|热线电话|广告公司, new pattern: 广告费|广告歌|热线电话|广告公司
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 不是广告, new pattern: 不是广告
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(<福利内容>), new pattern: (来玩|每人).*?(送|给|发[^生]|领取).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (送|给|充|发)(\d+).*?(<福利内容>), new pattern: (送|给|充|发)(\d+).*?(扣b|q币|扣币|qb|流量|话费|红包)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 想看.*?(加|加入)(<微信>|<qq>|pp群|群|裙|qun), new pattern: 想看.*?(加|加入)(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 要(<福利内容>).*?(加|加入).*?(<微信>|<qq>|pp群|群|裙|qun|<数字>{7,}), new pattern: 要(扣b|q币|扣币|qb|流量|话费|红包).*?(加|加入).*?(微信|徽信|威信|薇信|威心|葳信|维芯|薇芯|威芯|微芯|wei信|weixin|wechat|vx|qq|扣扣|釦釦|pp群|群|裙|qun|[0-9]{7,})
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: (灌水|水贴)专用, new pattern: (灌水|水贴)专用
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 签到(贴|专用), new pattern: 签到(贴|专用)
2019-07-16 21:33:23 INFO TrashFilterUtils:142 - old pattern: 外挂搬砖, new pattern: 外挂搬砖
2019-07-16 21:33:23 INFO TrashFilterUtils:155 - pattern num: 49
2)之后从Kafka消费数据,进行统计:
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 就打着很难受,我都删了又下,下了又删大概有十几次了
reviewSeg: 就 打着 很 难受 , 我 都 删 了 又 下 , 下 了 又 删 大概 有 十几次 了
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 2小时6连跪,不知道什么匹配机制匹配的什么神仙队友,刺客伤害没辅助高
reviewSeg: 2 小时 6 连 跪 , 不 知道 什么 匹配 机制 匹配 的 什么 神仙 队友 , 刺客 伤害 没 辅助 高
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 不用删删下下的,不想玩扔那就好,想看登一下就行了,下载也很烦的
reviewSeg: 不用 删 删下 下 的 , 不想 玩 扔 那就好 , 想 看 登 一下 就行了 , 下载 也 很烦 的
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 同感啊,就两个小时真的输不起
reviewSeg: 同感 啊 , 就 两个 小时 真的 输不起
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 从s1开始,内测刚结束的时候朋友推荐我玩的,从来没接触过任何moba类游戏。当时周围朋友们都玩联盟,唯独我不玩,我一直玩的是Fps游戏,习惯了用wasd走路,哈哈哈。
reviewSeg: 从 s1 开始 , 内测 刚 结束 的 时候 朋友 推荐 我 玩 的 , 从来 没 接触 过 任何 moba 类 游戏 。 当时 周围 朋友 们 都 玩 联盟 , 唯独 我 不 玩 , 我 一直 玩 的 是 fps 游戏 , 习惯 了 用 wasd 走路 , 哈哈哈 。
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 朋友推荐我玩的时候,我也没想什么,甚至当时这游戏叫什么名字都不知道。什么英雄什么装备我都搞不懂,但它就是有一种不知明的魅力,让我一局又一局的进行对战。
reviewSeg: 朋友 推荐 我 玩 的 时候 , 我 也 没想 什么 , 甚至 当时 这 游戏 叫 什么 名字 都 不 知道 。 什么 英雄 什么 装备 我 都 搞不懂 , 但 它 就是 有 一种 不知 明 的 魅力 , 让 我 一局 又 一局 的 进行 对战 。
2019-07-16 21:33:24 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: 起初呢我出装备都是聚金币聚到能直接买一件大件才用,朋友看到了说你怎么不买那些小装备,我说那小装备有啥用啊,肯定最贵的最好啊!他说你傻啊,后面可以合成的,我还挺惊讶的,原来可以这样啊。
reviewSeg: 起初 呢 我 出 装备 都 是 聚 金币 聚到 能 直接 买 一件 大件 才 用 , 朋友 看到 了 说 你 怎么 不买 那些 小 装备 , 我 说 那 小 装备 有 啥 用 啊 , 肯定 最贵 的 最好 啊 ! 他 说 你 傻 啊 , 后面 可以 合成 的 , 我 还 挺 惊讶 的 , 原来 可以 这样 啊 。
3)成功消费一批数据进行offsets提交的信息:
2019-07-16 21:33:33 INFO KafkaUtils:127 - === After commitSync, now partition positions:
2019-07-16 21:33:33 INFO KafkaUtils:146 - partiton 0 position: 1315
4)预警词频达到阈值时,出现的报警信息,会输出至数据库中:
2019-07-16 21:33:33 WARN AlarmLayer:70 - [Alarm] 游戏王者荣耀报警:平衡性问题 (rule_id: 2)
5)被判为垃圾评论的信息:
2019-07-16 21:34:00 INFO ConsumerMain:75 - [Record info: ] gameId: 2301 gameName: 王者荣耀 review: ————————————
reviewSeg: — — — — — — — — — — — —
2019-07-16 21:34:00 WARN FilterLayer:42 - [filterTrash] record: gameId: 2301 gameName: 王者荣耀 review: ————————————
reviewSeg: — — — — — — — — — — — —
--------------------------------------------------------------------------------------
1.查询MySQL数据库:
mysql> select * from spark.alarms;
<如下结果:>
五、出现的错误
1. mvn clean install 编译项目时,报警告:文件的编码GBK的不可映射字符,如下图:
| 解决方式:在 pom.xml 的编译插件处声明字符集编码方式 utf8,如下图:
| 参考博文:使用Maven编译项目遇到——“maven编码gbk的不可映射字符”解决办法