课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
我们在上文中给大家简单介绍了关于python编程开发用来数据分析的原因,而今天我们就接着来聊聊,python编程中适合数据分析的库都有哪些类型。
NumPy代表数值Python。NumPy强大的特性是n维数组。这个库还包含基本的线性代数函数、傅里叶变换、高级随机数功能以及与其他低级语言(如Fortran、C和c++)集成的工具。
SciPy代表科学Python。SciPy是建立在NumPy之上的。它是有用的库之一,提供了各种高级科学和工程模块,如离散傅里叶变换,线性代数,优化和稀疏矩阵。
Matplotlib用于绘制各种各样的图形,从柱状图到线状图再到热图。您可以在ipython notebook (ipython notebook -pylab = inline)中使用Pylab特性来内联使用这些绘图特性。如果忽略内联选项,那么pylab将ipython环境转换为与Matlab非常类似的环境。您还可以使用Latex命令将数学添加到绘图中。
Pandas用于结构化数据操作和操作的。广泛用于数据采集和制备。Pandas是近才添加到Python中的,它在促进Python在数据科学家社区中的使用方面发挥了重要作用。
Scikit Learn 用于机器学习。该库以NumPy、SciPy和matplotlib为基础,包含了大量有效的机器学习和统计建模工具,包括分类、回归、聚类和降维。
Statsmodels用于统计建模。Statsmodels是一个Python模块,允许用户研究数据、估计统计模型和执行统计测试。描述统计、统计测试、绘图函数和结果统计的广泛列表可用于不同类型的数据和每个估计值。
Seaborn用于统计数据可视化。Seaborn是一个用于在Python中生成具有吸引力和信息丰富的统计图形的库。它基于matplotlib。Seaborn的目标是使可视化成为探索和理解数据的核心部分。
Bokeh用于在现代web浏览器上创建交互式绘图、仪表板和数据应用程序。它使用户能够生成优雅和简洁的图形风格的3.js。此外,它还具有在非常大的或流式数据集上进行高性能交互的能力。
Blaze扩展Numpy和panda到分布式和流数据集的能力。它可以用于访问来自多个数据源的数据,包括Bcolz、MongoDB、SQLAlchemy、Apache Spark、PyTables等。与Bokeh一起,Blaze可以作为一个非常强大的工具,在巨大的数据块上创建有效的可视化和仪表板。
Scrapy是网页爬虫库。对于获取特定的数据模式,它是一个非常有用的框架。它有能力从一个网站的主页url开始,然后通过网站内的网页来收集信息。
SymPy用于符号计算。它具有从基本符号算术到微积分、代数、离散数学和量子物理的广泛功能。另一个有用的特性是将计算结果格式化为LaTeX代码的能力。
Requests用于访问web。它的工作原理类似于标准python库urllib2,但是更容易编码。您将发现与urllib2的细微差别,但是对于初学者来说,Requests可能更方便。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!