Skip to content

请教个关于spark具体应用设计问题 #54

@mseaspring

Description

@mseaspring

您好:
看了您写的文章非常好,首先表示感谢,在工作中有个设计问题想请教下。情景是这样的,我们需要从HDFS读文件,然后再和HBASE表中读到的数据进行匹配,最终结果输出到HDFS上。
目前设计思路是从HDFS读文件变成RDD形式、然后根据HDFS文件名,文件名中含有需要在HBASE表中数据的返回,我们去查找到HBASE数据(表数据不是很大,可能也就1G左右),广播出去,然后在对从HDFS读的RDD进行mapParttion操作,将匹配到的保存的HDFS中去,然后用总的RDD-匹配的RDD,得到未匹配的RDD也同样保存到HDFS中。。结果发现速度执行的比较慢,3.2G的HDFS文件在12个节点,每个节点8G运行内存的条件下耗时2.5分钟左右,发现任务的反序列化时间非常长,而且发现封装的函数越多耗时越长,请问这种有没有好的思路那。 烦请百忙之中帮忙看看,万分感谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions