标签:Spark

Jupyter与Spark开发环境配置指南
综合技术

Jupyter与Spark开发环境配置指南

11月23日

什么是Spark? Spark是使用大量数据进行计算的框架。为什么需要Spark?比如,一个易于读入内存的小型数据集,Gb级的,你可能会使用Pandas,R或其他工具加载整个数据集...
Spark Streaming+Kafka
后端存储

Spark Streaming+Kafka

11月16日

前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark s...
Spark作业调度
后端存储

Spark作业调度

11月06日

[TOC] 概述 研究Spark作业调度,是为了合理使用集群的资源。更具体一点,是看看是否提供了可以个性化配置的点,然后根据应用的具体情况制定配置或者使用方案。 本文参考 官网作...
使用spark与MySQL进行数据交互的方法
后端存储

使用spark与MySQL进行数据交互的方法

10月25日

在项目中,遇到一个场景是,需要从Hive数据仓库中拉取数据,进行过滤、裁剪或者聚合之后生成中间结果导入MySQL。 对于这样一个极其普通的离线计算场景,有多种技术选型可以实现。例如...

专业 x 专注 x 聚合 x 分享 CC BY-NC-SA 4.0

使用声明 | 英豪名录