机器学习介绍

2017-01-04

1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进...

密码保护:(2016年) 华阳公司大数据架构设计

2016-11-18

华阳信通大数据架构图展示 一、服务器抽取mysql数据源的shell脚本 抽取mysql数据库源数据准备 Shell yestoday=`date -d "1 day ago" +"%Y-%m-%d"` year=`date -d "now" +"%Y"` echo '' > /apps...

董西成-2.1(2) 简易电影受众系统

2016-10-25

1、首先下载分析文件网址为:http://grouplens.org/datasets/movielens/(MovieLens 1M Dataset中的这个包ml-1m.zip) 2、部分文件如下: movies.dat: 1::Toy Story (1995)::Animation|Children's|Comedy ...

OLAP(联机分析处理On-Line Analytical Processing)

2016-10-18

由于公司需要自行开发一套OLAP联机事务处理,先了解下OLAP,一边学习下OLAP,一边看下spark。嘎嘎 本文转载于:http://www.mamicode.com/info-detail-1211469.html 1、OLAP 联机分析处理,和他对应的是OLTP(联机事务处理)。 OLTP:做...

Spark获取mysql数据操作

2016-09-27

scala代码 Scala import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.spark.{SparkConf, SparkContext} /** * Created by zhangshuai on 2016/9/27. */ object Mysql_spa...

Spark分组TOPN排序

2016-09-22

Java /** * Created by zhangshuai on 2016/9/22. */ // 输入文件 // Spark 100 // Hadoop 65 // Spark 99 // Hadoop 61 // Spark 195 // ...

Apache Spark 的设计与实现(Broadcast功能)

2016-09-21

Broadcast 顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以...

Apache Spark 的设计与实现(cache和checkpoint功能)

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大,task 中 c...

Apache Spark 的设计与实现(模块协调完成整个job)

架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在不想在文档中贴过多的代码,这章贴这么多,...