BOOKING

2020年5月3日星期日

Jupyter Notebook 攻略 - SFO机场的数据处理

上个星期五收到了一个面试的通知,兴奋得不得了,已经投了一年的简历在这家公司。今天终于算是有结果了,可是一切美梦终成为镜花泡影。只因为这次面试。这也激发了我痛下决心,在数据处理和挖掘方面要深入学习。以前,个人觉得数据的处理已经可以登峰造极了。Excel pivot 结合VBA调用SQL数据库,还有什么做不到的。现在看来应了那句老话,水浅王八多。

面试assigment 1:

下载三藩市机场的数据,然后对数据进行处理,根据数据给出机场运营建议。看了题之后,我都要笑出声来了。结果,下载了数据一看。excel停留在100万行左右,错误信息显示,当前数据可能无法显示完全。手抖+心慌。剩下的就不说了,等下次机会吧。

赶紧别说别的了,抓紧学起来。

首先jupyter 安装起来





打开jupyter,导入panda

import pandas as pd

打开CSV的数据

sfo=pd.read_csv("C:\Users\mingwei.zhang\Downloads\SFO_gate.csv")

列出


如果想针对某一列的数据进行筛选的话,以下是针对Remark列下面的所有飞机起飞时间进行筛选结果。



如果是想筛选非空的数据的话 sfo[sfo[u'REMARK'].notnull()]


如果想对数据排列的话,sfo[sfo[u'REMARK'].notnull()].sort_values(by='AIRLINE')

如果需要查询两个条件以上的话,最好是给出新的命名,否则可能不会查询成功
SFO1=SFO[(SFO['TRANSACTION']=='ARR') & (SFO['AIRLINE']=='Singapore Airlines')]




各种查询到这里应该差不多了。睡下下。

没有评论:

发表评论