系列文章目录
- python进行数据分析的优势
- 常用python数据分析开源库介绍
- 启动jupyter服务
- jupyter notebook的使用
文章目录
前言
本教程详解了python做数据分析的优势,python数据分析常用开源库,如何启动jupyter notebook,如何使用jupyter notebook。
学习目标
- 了解python做数据分析的优势
- 知道python数据分析常用开源库
- 知道如何启动jupyter notebook
- 知道如何使用jupyter notebook
1. python进行数据分析的优势
-
python作为当下最为流行的编程语言之一,可以独立完成数据分析的各种任务
-
功能强大,在数据分析领域里有海量开源库,并持续更新
-
是当下热点——机器学习/深度学习 领域最热门的编程语言
-
除数据分析领域外,在爬虫,web开发等领域均有应用
-
-
与excel,powerbi,tableau等软件比较
-
excel有百万行数据限制,powerbi ,tableau在处理大数据的时候速度相对较慢
-
excel,power bi 和tableau 需要付费购买授权
-
python作为热门编程语言,功能远比excel,powerbi,tableau等软件强大
-
python跨平台,windows,macos,linux都可以运行
-
-
与r语言比较
- python在处理海量数据的时候比r语言效率更高
- python的工程化能力更强,应用领域更广泛,r专注于统计与数据分析领域
- python在非结构化数据(文本,音视频,图像)和深度学习领域比r更具有优势
- 在数据分析相关开源社区,python相关的内容远多于r语言
2. 常用python数据分析开源库介绍
2.1 numpy
- numpy(numerical python) 是python数据分析必不可少的第三方库,numpy的出现一定程度上解决了python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。
- 是一个运行速度非常快的数学库,主要用于数组计算,包含:
- 高性能科学计算和数据分析的基础包
- ndarray,多维数组,具有矢量(向量)运算能力,快速、节省空间
- 矩阵运算,无需循环,可完成类似matlab(商业数学软件)中的矢量运算
- 用于读写磁盘数据的工具以及用于操作内存映射文件的工具
2.2 pandas
-
pandas是一个强大的分析结构化数据的工具集,pandas丰富的api能够更加灵活、快速的对数据进行清洗、处理以及分析。
-
pandas在数据处理上具有独特的优势:
- 底层是基于numpy构建的,所以运行速度特别的快
- 有专门的处理缺失数据的api
- 具有强大而灵活的分组、聚合、转换功能
-
pandas利器之==series==
- series是一种类似于一维数据的数据结构
- 是由一组数据(各种numpy数据类型)以及一组与之相关的数据标签(即行索引)组成
- 仅由一组数据也可产生简单的series对象
-
pandas利器之==dataframe==
-
dataframe是一种表格型的数据结构,既有行索引也有列索引,可以简单的把dataframe理解为一张数据表
-
包含有一组或多组有序的列(series),每列可以是不同的值类型(数值、字符串、布尔型等)
-
2.3 matplotlib
- matplotlib 是一个功能强大的数据可视化开源python库
- python中使用最多的图形绘图库
- 可以创建静态,动态和交互式的图表
2.4 seaborn
- seaborn是一个python数据可视化开源库
- 建立在matplotlib之上,并集成了pandas的数据结构
- seaborn通过更简洁的api来绘制信息更丰富,更具吸引力的图像
- 面向数据集的api,与pandas配合使用起来比直接使用matplotlib更方便
2.5 sklearn
- scikit-learn 是基于 python 语言的机器学习工具
- 简单高效的数据挖掘和数据分析工具
- 可供大家在各种环境中重复使用
- 建立在 numpy ,scipy(scientific python) 和 matplotlib 上
2.6 jupyter notebook
- jupyter notebook是一个开源web应用程序,使用jupyter notebook可以创建和共享
- 代码
- 数学公式
- 可视化图表
- 笔记文档
- jupyter notebook用途
- 数据清理和转换
- 统计分析
- 数据可视化
- 机器学习等
- jupyter notebook是数据分析学习和开发的首选开发环境
3 启动jupyter服务
3.1 设置jupyter服务密码
-
进入python的命令终端, 在linux终端执行
python
命令 -
输入以下代码设置密码, 记录生成的密码字符串
from notebook.auth import passwd passwd() # 设置自己的密码,然后两次输入确认生成加密字符串, 密码设置为123456即可
3.2 生成jupyter配置文件并配置
-
在linux终端执行以下命令, 生成
jupyter_notebook_config.py
配置文件jupyter notebook --generate-config
-
打开
jupyter_notebook_config.py
配置文件, 在最后添加以下内容即可# 打开文件 vim ~/.jupyter/jupyter_notebook_config.py # 添加以下内容 c.notebookapp.allow_remote_access = true #允许远程访问 c.notebookapp.allow_root = true #允许root访问 c.notebookapp.ip='*' # 所有ip皆可访问 c.notebookapp.password = '上面复制的那个字符串' c.notebookapp.open_browser = false # 禁止自动打开浏览器 c.notebookapp.port =8888 # 端口 c.notebookapp.notebook_dir = '/'
3.3 启动jupyter
-
linux终端输入
jupyter notebook
命令启动jupyter notebook
-
在本地浏览器中输入
192.168.88.100:8888
, 进入jupyter的web界面
-
注意: 不要关闭jupyter服务
4 jupyter notebook的使用
4.1 jupyter notebook的界面
-
新建notebook文档
-
新建文件之后会打开notebook界面
-
菜单栏中相关按钮功能介绍:
4.2 jupyter notebook常用快捷键
-
两种模式通用快捷键
shift+enter
,执行本单元代码,并跳转到下一单元ctrl+enter
,执行本单元代码,留在本单元
-
按esc进入命令模式
y
,cell切换到code模式m
,cell切换到markdown模式a
,在当前cell的上面添加cellb
,在当前cell的下面添加cell双击d
:删除当前cell
-
编辑模式:按enter进入,或鼠标点击代码编辑框体的输入区域
- 撤销:
ctrl+z
(mac:cmd+z) - 补全代码:变量、方法后跟
tab键
- 为一行或多行代码添加/取消注释:
ctrl+/
(mac:cmd+/)
- 撤销:
4.3 jupyter notebook中使用markdown
-
在命令模式中,按m即可进入到markdown编辑模式
-
使用markdown语法可以在代码间穿插格式化的文本作为说明文字或笔记
-
markdown基本语法:标题和缩进
-
效果如下图所示
总结
-
了解python做数据分析的优势
- python可以独立高效的完成数据分析相关的全部工作
-
知道python数据分析常用开源库
- pandas
- numpy
- matplotlib
- seaborn
- sklearn
-
会启动和使用jupyter notebook
发表评论