elasticsearch2.3.4 (mysql导入elasticsearch中)

2017-03-02

Shell 1.https://github.com/jprante/elasticsearch-jdbc(插件源) wget http://xbib.org/repository/org/xbib/elasticsearch/importer/elasticsearch-jdbc/2.3.4.1/elasticsearch-jdbc-2.3.4.1-dist.z...

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

2017-02-15

MapReduce过程、Spark和Hadoop以Shuffle为中心的对比分析 mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析(mapreduce采用的是sort-based shuffle) 将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行...

机器学习介绍

2017-01-04

1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进...

密码保护:(2016年) 华阳公司大数据架构设计

2016-11-18

华阳信通大数据架构图展示 一、服务器抽取mysql数据源的shell脚本 抽取mysql数据库源数据准备 Shell yestoday=`date -d "1 day ago" +"%Y-%m-%d"` year=`date -d "now" +"%Y"` echo '' > /apps...

董西成-2.1(2) 简易电影受众系统

2016-10-25

1、首先下载分析文件网址为:http://grouplens.org/datasets/movielens/(MovieLens 1M Dataset中的这个包ml-1m.zip) 2、部分文件如下: movies.dat: 1::Toy Story (1995)::Animation|Children's|Comedy ...

OLAP(联机分析处理On-Line Analytical Processing)

2016-10-18

由于公司需要自行开发一套OLAP联机事务处理,先了解下OLAP,一边学习下OLAP,一边看下spark。嘎嘎 本文转载于:http://www.mamicode.com/info-detail-1211469.html 1、OLAP 联机分析处理,和他对应的是OLTP(联机事务处理)。 OLTP:做...

Spark获取mysql数据操作

2016-09-27

scala代码 Scala import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.spark.{SparkConf, SparkContext} /** * Created by zhangshuai on 2016/9/27. */ object Mysql_spa...

Spark分组TOPN排序

2016-09-22

Java /** * Created by zhangshuai on 2016/9/22. */ // 输入文件 // Spark 100 // Hadoop 65 // Spark 99 // Hadoop 61 // Spark 195 // ...