<返回更多

140种Python标准库、第三方库和外部工具都有了

2019-07-18    
加入收藏

导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。

这些库可用于文件读写、网络抓取和解析、数据连接、数清洗转换、数据计算和统计分析、图像和视频处理、音频处理、数据挖掘/机器学习/深度学习、数据可视化、交互学习和集成开发以及其他Python协同数据工作工具。

作者:宋天龙

如需转载请联系大数据(ID:hzdashuju)

为了区分不同对象的来源和类型,本文将在描述中通过以下方法进行标识:

abs(-3.2) importstring string.find('abcde','b')

推荐度」3星最高,1星最低。

01 文件读写

文件的读写包括常见的txt、Excel、xml、二进制文件以及其他格式的数据文本,主要用于本地数据的读写。

1. open(name[, mode[, buffering]])

2. numpy.loadtxt、numpy.load和numpy.fromfile

3. pandas.read_*

4. xlrd

5. xlwt

6. pyexcel-xl

7. xluntils

8. pyExcelerator

9. openpyxl

10. lxml

11. xml

12. libxml2

13. xpath

14. win32com

02 网络抓取和解析

网络抓取和解析用于从互联网中抓取信息,并对HTML对象进行处理,有关xml对象的解析和处理的库在“01 文件读写”中找到。

15. requests

16. urllib

17. urllib2

18. urlparse

19. HTMLParser

20. Scapy

21. Beautiful Soup

03 数据库连接

数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。

22. MySQL-connector-python

23. pymysql

24. MySQL-python

25. cx_Oracle

26. psycopg2

27. redis

28. pymongo

29. HAppyBase

30. py2neo

31. cassandra-driver

32. sqlite3

33. pysqlite2

34. bsddb3

35. bsddb

36. dbhash

37. adodb

38. SQLObject

39. SQLAlchemy

40. ctypes

41. pyodbc

42. Jython

04 数据清洗转换

数据清洗转换主用于数据正式应用之前的预处理工作。

43. frozenset([iterable])

44. int(x)

45. isinstance(object, classinfo)

46. len(s)

47. long(x)

48. max(iterable[, key])

49. min(iterable[, key])

50. range(start, stop[, step])

51. raw_input(prompt)

52. round(number[, ndigits])

53. set([iterable])

54. slice(start, stop[, step])

55. sorted(iterable[, cmp[, key[, reverse]]])

56. xrange(start, stop[, step])

57. string

58. re

59. random

60. os

61. os.path

62. prettytable

63. json

64. base64

05 数据计算和统计分析

数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。

65. numpy

66. scipy

67. pandas

68. statsmodels

69. abs(x)

70. cmp(x, y)

71. float(x)

72. pow(x, y[, z])

73. sum(iterable[, start])

74. math

75. cmath

76. decimal

77. fractions

06 自然语言处理和文本挖掘

自然语言处理和文本挖掘库主要用于以自然语言文本为对象的数据处理和建模。

78. nltk

79. pattern

80. gensim

81. 结巴分词

82. SnowNLP

83. smallseg

84. spaCy

85. TextBlob

86. PyNLPI

87. synonyms

07 图像和视频处理

图像处理和视频处理主要适用于基于图像的操作、处理、分析和挖掘,如人脸识别、图像识别、目标跟踪、图像理解等。

88. PIL/Pillow

89. OpenCV

90. scikit-image

91. imageop

92. colorsys

93. imghdr

08 音频处理

音频处理主要适用于基于声音的处理、分析和建模,主要应用于语音识别、语音合成、语义理解等。

94. TimeSide

95. audiolazy

96. pydub

97. audioop

98. tinytag

99. aifc

100. sunau

101. wave

102. chunk

103. sndhdr

104. ossaudiodev

09 数据挖掘/机器学习/深度学习

数据挖掘、机器学习和深度学习等是Python进行数据建模和挖掘学习的核心模块。

105. Scikit-Learn

106. TensorFlow

107. NuPIC

108. PyTorch

109. Orange

110. theano

111. keras

112. neurolab

113. PyLearn2

114. OverFeat

115. Pyevolve

116. Caffe2

10 数据可视化

数据可视化主要用于做数据结果展示、数据模型验证、图形交互和探查等方面。

117. Matplotlib

118. pyecharts

119. seaborn

120. bokeh

121. Plotly

122. VisPy

123. PyQtGraph

124. ggplot

11 交互学习和集成开发

交互学习和集成开发主要用来做Python开发、调试和集成之用,包括Python集成开发环境和IDE。

125. IPython/ Jupyter

126. Elpy

127. PTVS

128. PyCharm

129. LiClipse

130. Spyder

12 其他Python协同数据工作工具

其他Python协同数据工作工具指除了上述主题以外,其他在数据工作中常用的工具或库。

131. tesseract-ocr

132. RPython

133. Rpy2

134. matpython

135. Lunatic Python

136. PyCall.jl

137. PySpark

138. dumbo

139. dpark

140. streamparse

关于作者:宋天龙,大数据技术专家,触脉咨询合伙人兼副总裁,前Webtrekk中国区技术和咨询负责人(Webtrekk,德国的在线数据分析服务提供商)。擅长数据挖掘、建模、分析与运营,精通端到端数据价值场景设计、业务需求转换、数据结构梳理、数据建模与学习以及数据工程交付。

本文摘编自《Python数据分析与数据化运营》(第2版),经出版方授权发布。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>