lw-lin / coolplayspark Goto Github PK

View Code? Open in Web Editor NEW

3.4K 443.0 1.4K 9.77 MB

酷玩 Spark: Spark 源代码解析、Spark 类库等

Scala 100.00%

spark spark-streaming structured-streaming sparkcore apache-spark

coolplayspark's People

Contributors

Stargazers

Watchers

Forkers

rorovic shenli nwpuhuo tomzhang icaas repocastle easyfmxu streamjoin adrianhust xypan1232 sunsocool hihihippp benjamesbabala about17ka wangqianbo gf53520 zhouzhihubeyond frankccshen inotepad arccos2002 yanheven weibin0516 janpoo pinguo-liguo tyronecai zhifeiding luojianp xwzpp emigmo crazyshark mlhorizon changhong2013 lamberthu nicolasguono1 nullts notbadpad nexcafe yuwentao deanzou defaultrobot leerisk lkk2003rty wangjianfeng yinxusen zhichao-li smartzy kakamessi99 haistill tjevgerres darcy0511 louiss007 wonyonyon colkin tedzhang mikefong mrlin1992 omacor hellodengfei fedorajzf piaolinzhi biaoma-ty jacksu mt0803 khmfighter flyyee0721 luminosite ldfaiztt fishcus 272029252 feisr lishenghz zzl0 daishichao tang-william hzmengyue alibingxuan zjmwqx xuyanhui wallyhung kaixinxiaolei rudyli dingtine junwucs jayfans3 changliwei denghp oopsoutofmemory zjnxyz sparklei chengang2 genggeng wosu hanst srysduedu123 fysoft2006 pinghong guoning89 riordon tracyitbird lostmonk

coolplayspark's Issues

【question】在watermark下spark如何维护kafka的offset

我查看了很多文章，比如以前的直接拿到RDD的offsetRange属性等，但是往往在watermark情况下，我们都是转换过后的Dataset了，请问这种情况我们如何保证或者说如何自维护spark structured streaming当前清洗完的数据的最新的offset？

Spark Streaming 微信交流群

@ouyangshourui, @keepsimplefocus, @jacksu, @klion26, @zzcclp, @tsface, @endymecy, @wongxingjun, @luphappy, @pzz2011, @TopSpoofer

Hi all，大家在《Spark Streaming 源码解析系列》github 上有过挺多交流，让我们搞个微信群？:-)
麻烦各位先加我个人微信，我来把各位拉到群里，thanks！

可插拔的 ReceiverSchedulingPolicy 里面解释问题

3.1 Receiver 分发详解.
(1) 可插拔的 ReceiverSchedulingPolicy 里面
其中，在 Receiver y 失效时，以前的 Spark Streaming 有可能会在 executor 1 上重启 Recever y ，而 1.5.0 以来，将在executor 2 上重启 Receiver y 。
应该是executor 3吧

DStream, DStreamGraph 详解这篇文章配图是否笔误

图中的map和flatmap是否写反了？

读取多个topic数据效率问题

structed streaming读取kafka多个topic（topic数据源不一样），是通过直接指定subscribe=topic1,topic2,topic3的方式效率高，还是对每个topic都得到各种的Dataset[KafkaData]然后进行unoin后进行处理的效率高？

[SS]《[Q&A] Structured Streaming 与 Spark Streaming 的区别》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

Executor运行一段时间以后Streaming程序失败

你好 @lw-lin ：
我们在使用Streaming的时候，发现Executor运行一段时间（1小时左右）后，整个程序就会失败，查看CPU，内存，网络，GC情况，都处于安全状态。

error:
java.lang.Exception: Could not compute split, block input-0-1416573258200 not found

最开始的Storage策略配置的是Memory_ONLY，当数据量激增的时候，会报这个错误，所以调整Storage的策略是Memory_And_DIsk，但是程序运行一段时间还是会报这个错误。同时，会抛出Executor和ReceiverTracker的通信超时（120s）。

请问这个有什么好的排查方法吗，谢谢。

ps：部署模式yarn-cluster

图片无法显示

您好 @lw-lin
3.2 ReceiverSupervisor 详解，图片无法显示。麻烦您修改下。

[SS]《1.1 Structured Streaming 实现思路与实现概述》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

Here, in each batch interval, the RDD generated by stream1 will be joined with the RDD generated by stream2. You can also do leftOuterJoin, rightOuterJoin, fullOuterJoin. Furthermore, it is often very useful to do joins over windows of the streams. That is pretty easy as well.

具体的实现细节是说这个join只是的那个批次内的多个stream的join，暂时还无法做到跨批次的？
如果sparkstream暂时不能做到跨批次的join，那么若是我们自己做的话，一般的思路是怎样的？

Spark技术群二维码过期

微信二维码过期了，无法加入群聊，不知道能否更新下呢 0.o

[SS]《3.1 Structured Streaming 之状态存储解析》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

《3.2 Receiver, ReceiverSupervisor, BlockGenerator, ReceivedBlockHandler 详解.md》讨论区

这里是《3.2 Receiver, ReceiverSupervisor, BlockGenerator, ReceivedBlockHandler 详解.md》讨论区。

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

《1.1 DStream, DStreamGraph 详解.md》讨论区

这里是《1.1 DStream, DStreamGraph 详解.md》讨论区。

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

[SS]《4.2 Structured Streaming 之 Watermark 解析》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

《一些 Q&A》讨论区

[SS]《2.2 Structured Streaming 之 Sink 解析》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

《4.2 Driver 端长时容错详解.md》讨论区

这里是《4.2 Driver 端长时容错详解.md》讨论区。

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

spark streaming读取redis问题

自定义RedisZsetReceiver, 读取指定zset结构内的数据piped.zrange(key, 0, -1)，该zset内数据只会新增，不会减少~
当我提交任务后，定时执行，spark streaming ui上每个batch time处理的record都不同，还不是递增状态？如何能达到想要的效果？目前的目标就是每个batch，就把redis zset结构内的数据全部读取出来；spark streaming这种适合我的场景吗？

[SS]《1.2 Structured Streaming 之 Output Modes 解析》讨论区

如需要贴代码，请复制以下内容并修改：

public static final thisIsJavaCode;

val thisIsScalaCode

谢谢！

driver端异常恢复, 如何确保exactly once语义的呢?

嗨, 大佬, 我有一个问题.
当一个jobSet, 有部分job已经执行成功, 此时, driver端异常退出.
那么, 恢复后, 针对这个jobSet, 还会执行那些已经成功的job吗?
如果不执行, 那么在源码中, 是如何体现的?
如果执行, 那么肯定就不遵守exactly once语义了, 那么我们平时说的streaming的exactly once语义, 又是如何理解呢?

程序编译的时候是kafka_client-0.10.jar的，spark-submit的时候加载了CDH自带的spark-assembly。导致类冲突

structured streaming java.io.EOFException

structured streaming 程序运行一段时间会出现如下这个错误，请问是什么原因导致出现这个异常呢

User class threw exception: org.apache.spark.sql.streaming.StreamingQueryException: Job aborted due to stage failure: Task 123 in stage 1.0 failed 4 times, most recent failure: Lost task 123.3 in stage 1.0 (TID 175, ddn012075.heracles.sohuno.com, executor 1): java.io.EOFException
at java.io.DataInputStream.readInt(DataInputStream.java:392)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$readSnapshotFile(HDFSBackedStateStoreProvider.scala:436)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:314)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider$$anonfun$org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap$1.apply(HDFSBackedStateStoreProvider.scala:313)
at scala.Option.getOrElse(Option.scala:121)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.org$apache$spark$sql$execution$streaming$state$HDFSBackedStateStoreProvider$$loadMap(HDFSBackedStateStoreProvider.scala:313)
at org.apache.spark.sql.execution.streaming.state.HDFSBackedStateStoreProvider.getStore(HDFSBackedStateStoreProvider.scala:220)
at org.apache.spark.sql.execution.streaming.state.StateStore$.get(StateStore.scala:186)
at org.apache.spark.sql.execution.streaming.state.StateStoreRDD.compute(StateStoreRDD.scala:61)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)