2019年必知的10大頂級Python庫
作為數據科學和機器學習相關的研究和開發人員,大家每天都要用到python。在本文中,我們將討論一些python 中的頂級庫,開發人員可以使用這些庫在現有的應用程序中應用、清洗和表示數據,並進行機器學習研究。
我們將討論以下10 個庫:
- TensorFlow
- Scikit-Learn
- Numpy
- Keras
- PyTorch
- LightGBM
- Eli5
- SciPy
- Theano
- Pandas
簡介
python 是最流行和使用最廣泛的編程語言之一,它已經取代了業界許多編程語言。
python 在開發人員中流行的原因有很多。然而,最重要的一點是它有大量的庫供用戶使用。
python 的簡單性吸引了許多開發人員為機器學習創建新的庫。由於有大量的庫,python 在機器學習專家中變得非常流行。
所以,這裡要介紹的第一個庫是TensorFlow。
1.TensorFlow
什麼是TensorFlow?
如果你目前正在使用python 進行機器學習項目,那麼你可能聽說過這一個流行的開源庫,那就是TensorFlow。
這個庫是由Google 與Brain Team 合作開發的,幾乎每一個Google 的機器學習應用程序都用到了TensorFlow。
TensorFlow 就像一個計算庫,用於編寫涉及大量tensor 操作的新算法。由於神經網絡可以很容易地表示為計算圖,因此它們可以使用TensorFlow 作為tensor 的一系列操作來實現。另外,tensor 是表示數據的n 維矩陣。
TensorFlow 的特徵
1.快速響應的結構
使用TensorFlow,我們可以很容易地可視化圖的每個部分,這在使用Numpy 或SciKit 時是做不到的。
2.靈活
TensorFlow 的一個非常重要的特性是,它的操作非常靈活。這意味著它具有模塊性,可以讓你把希望獨立出來的部分分出來
3.容易訓練
對於分佈式計算來說,它很容易在CPU 和GPU 上訓練。
4.並行神經網絡訓練
TensorFlow 提供了管道流,從這個意義上說,你可以訓練多個神經網絡和多個GPU,這使得模型在大型系統上非常有效。
5.大型社區
不用說,它是由Google 開發的,已經有一個龐大的軟件工程師團隊在不斷地改進穩定性。
6.開源
這個機器學習庫最好的一個特點是,它是開源的,任何人只要有連接互聯網就可以使用它。
TensorFlow 被用在哪裡?
你每天都在使用TensorFlow,你使用的Google Voice Search 或Google Photos 等應用程序都是使用這個庫開發的。
在TensorFlow 創建的所有庫都是用C 和C++編寫的,但是,它有一個複雜的前端,是用python 實現的。你的python 代碼將被編譯,然後在使用C 和C++構建的TensorFlow 分佈式執行引擎上執行。
實際上,TensorFlow 的應用是無限的,這就是它美妙的地方。
2.Scikit-Learn
什麼是Scikit-Learn?
它是一個與NumPy 和SciPy 相關聯的python 庫。它被認為是處理複雜數據的最佳庫之一。
在這個庫中進行了許多修改。其中一個修改是交叉驗證特性,它提供了使用多個度量的能力。許多訓練方法,如物流回歸和最鄰近算法,都沒有得到什麼改善。
Scikit-Learn 的特性
- 交叉驗證:有多種方法可以檢查不可見數據上受監督模型的準確性。
- 無監督學習算法:同樣,在產品中有大量的算法——從聚類、因子分析、主成分分析到無監督神經網絡
- 特徵提取:用於從圖像和文本中提取特徵(例如一段文字)
Scikit Learn 被用在哪裡?
它包含許多實現標準機器學習和數據挖掘任務的算法,如降維、分類、回歸、聚類和模型選擇。
3.Numpy
什麼是Numpy?
Numpy 被認為是python 中最流行的機器學習庫之一。
TensorFlow 和其他庫在內部使用Numpy 對tensor 執行多個操作。數組接口是Numpy 的最佳和最重要的特性。
Numpy 的特性
- 交互性:Numpy非常容易理解和使用
- 數學性:使復雜的數學實現變得非常簡單
- 直觀:真正使編碼變得容易,掌握概念也很容易
- 大量接口:廣泛使用,因此有很多開源貢獻者
Numpy 被用在哪裡?
該接口可用於將圖像、聲音和其他二進制原始流表示為n 維實數數組。
機器學習庫的實現,擁有Numpy 的知識對於全棧開發人員來說是很重要的。
4.Keras
什麼是Keras?
Keras 被認為是python 中最酷的機器學習庫之一。它提供了一種更容易表達神經網絡的機制。Keras 還為編譯模型、處理數據集、圖形可視化等提供了一些最佳實用程序。
在後端,Keras 在內部使用Theano 或TensorFlow。也可以使用一些最流行的神經網絡,如CNTK。當我們將其與其他機器學習庫進行比較時,Keras 的速度相對較慢,因為它使用後端基礎設施創建計算圖,然後利用它執行操作。Keras 的所有模型都很輕簡。
Keras 的特徵
- 它在CPU 和GPU 上都能順利運行。
- Keras 支持幾乎所有的神經網絡模型——全連接、卷積、池化、循環、嵌入等。此外,這些模型可以結合起來構建更複雜的模型。
- Keras 本質上是模塊化的,具有難以置信的表現力、靈活性和創新性研究的能力。
- Keras 是一個完全基於python 的框架,它使調試和探索變得容易。
Keras 被用在哪裡?
你已經在不斷地與使用Keras 構建的產品進行交互—Netflix、Uber、Yelp、Instacart、Zocdoc、Square 和許多其他公司都在使用它。它在初創企業中尤其受歡迎,初創企業將深度學習放在其產品的核心位置。
Keras 包含許多常用的神經網絡構建塊的實現,例如層、目標、激活函數、優化器和一系列工具,以使圖像和文本數據的處理更加容易。
此外,它還提供許多預處理的數據集和預訓練的模型,如MNIST, VGG, Inception, SqueezeNet, ResNet 等。
Keras 也是深度學習研究人員的最愛。大型科學組織,特別是CERN and NASA 的研究人員尤其偏愛Keras。
5.PyTorch
什麼是PyTorch?
PyTorch 是最大的機器學習庫,它允許開發人員以GPU 的加速度執行tensor 計算,創建動態計算圖,並自動計算梯度。除此之外,PyTorch 還提供了豐富的API 來解決與神經網絡相關的應用程序問題。
這個機器學習庫是基於Torch 的,它是一個用C 語言實現的開源機器庫,在Lua 中進行了封裝。
此機器學習庫(python)於2017 年推出,自其問世以來,該庫越來越受歡迎,並吸引了越來越多的機器學習開發人員。
PyTorch 的特性
- 端到端Hybrid
一種新的混合前端,提供了易於使用和具有靈活性的Eager Mode,同時為了速度,無縫過渡到graph mode,在C++運行環境中非常實用。
- 分佈式訓練
利用本地支持異步執行集體操作和點對點通信(Python 和C++),優化研究和生產中的性能。
- python 優先
PyTorch 不是一個將python 綁定到C++框架的工具。它的構建是為了深入集成到python 中,以便可以與流行的庫和包(如Cython 和Numba)一起使用。
- 庫和工具
一個由研究人員和開發人員組成的活躍社區已經建立了一個豐富的工具和庫的生態系統,用於擴展PyTorch 並支持從計算機視覺到強化學習等領域的開發。
PyTorch 被用在哪裡?
PyTorch 主要用於自然語言處理等領域的應用程序。
它主要是由Facebook 的人工智能研究小組開發的,Uber 的概率編程軟件“Pyro”就建立在它的基礎之上。
PyTorch 在很多方面都優於TensorFlow,最近它得到了很多關注。
6.LightGBM
什麼是LightGBM?
梯度增強是最好的和最流行的機器學習(ML)庫之一,它可以幫助開發人員使用重新定義的基本模型,即決策樹來構建新的算法。因此,有專門的庫可以快速有效地實現這種方法。
這些庫包括LightGBM, XGBoost 和CatBoost。這些庫之間存在相互競爭的關係,它們都有助於解決常見問題,可以以幾乎相似的方式使用。
LightGBM 的特點
- 計算速度快,生產效率高。
- 直觀,易於使用。
- 比其他許多深度學習庫更快地訓練。
- 在遇到NaN 值和其他規範值時不會產生錯誤。
LightGBM 被用在哪裡?
這個庫提供了高度可擴展、優化和快速的梯度增強實現,這使得它在機器學習開發人員中很受歡迎。大多數機器學習全棧開發人員通過使用這些算法贏得了機器學習競賽。
7.Eli5
什麼是Eli5?
通常,機器學習模型預測的結果並不准確,python 內置的機器學習庫Eli5 有助於克服這一挑戰。它是可視化和調試所有機器學習模型的組合,並跟踪算法的所有工作步驟。
Eli5 的特點
此外,Eli5 還支持其他庫,包括xgboost、lightning、scikit-learn 和sklearn-crfsite。所有上述庫中額每一個都可以執行不同的任務。
Eli5 被用在哪裡?
- 在短時間內需要進行大量計算的數學應用
- Eli5 在和其他Python 包存在依賴關係的情況下發揮著至關重要的作用
- 在各個領域的傳統應用程序實現新方法
8.SciPy
什麼是SciPy?
SciPy 是一個面向應用程序開發人員和工程師的機器學習庫。但是,你仍然需要知道SciPy 庫和SciPy 堆棧之間的區別。SciPy 庫包含用於優化、線性代數、集成和統計的模塊。
SciPy 的特點
SciPy 庫的主要特點是它是使用Numpy 開發的,它的數組充分利用了Numpy。
此外,SciPy 還使用其特定的子模塊提供了所有有效的數值程序,如優化、數值積分和許多其他程序。
所有SciPy 子模塊中的所有功能都有具體的文檔註釋。
SciPy 被用在哪裡?
SciPy 是一個使用Numpy 來解數學函數的庫。SciPy 使用Numpy 數組作為基本數據結構,並附帶用於科學編程中各種常用任務的模塊。
SciPy 可以輕鬆地處理線性代數、積分(微積分)、常微分方程求解和信號處理等任務。
9.Theano
什麼是Theano?
Theano 是一個用於計算多維數組的計算框架機器學習庫。它的工作原理與TensorFlow 相似,但不如TensorFlow 有效,因為它無法適應生產環境。
此外,Theano 也可以在與TensorFlow 類似的分佈式或併行環境中使用。
Theano 的特點
- 與Numpy 緊密集成——能夠在無編譯函數中使用完整的Numpy 數組
- 高效地使用GPU——比CPU 執行數據密集型計算要快得多
- 有效的符號區分——Theano 為具有一個或多個輸入的函數求導數
- 速度和穩定性優化——即使在x 非常小的情況下,也能求出log(1+x)的正確答案。這只是一個可以證明Theano 穩定性的例子
- 動態C 代碼生成——比以前更快地評估表達式,從而大大提高效率
- 廣泛的單元測試和自驗證—檢測和診斷模型中多種類型的歧義和錯誤
Theano 被用在哪裡?
Theano 表達式的實際語法是符號化的,這對於習慣於常規軟件開發的初學者來說是很不方便的。具體來說,表達式是以抽象的方式定義、編譯的,然後直接用於計算。
它是專門為處理深度學習使用的大型神經網絡算法所需的計算而設計的。它是同類庫中最早的一個(在2007 年就開始開發了),被認為是深度學習研究和開發的行業標準。
Theano 目前正被用於多個神經網絡項目中,而且隨著時間的推移,Theano 的普及率也在不斷提高。
20.Pandas
什麼是Pandas?
Pandas 是Python 中的一個機器學習庫,它提供高級的數據結構和各種各樣的分析工具。這個庫的一個重要特性是能夠使用一個或兩個命令轉換複雜的數據操作。Pandas 有許多內置的分組、數據組合、過濾和時間序列功能的函數。
Pandas 的特徵
Pandas 確保了整個數據處理的過程更加容易。對諸如重索引、迭代、排序、聚合、連接和可視化等操作的支持是Pandas 的特色亮點之一。
Pandas 被用在哪裡?
目前,Pandas 庫的版本較少,其中包括數百個新功能、錯誤修復、增強和API 更改。Pandas 的改進在於它能夠對數據進行分組和排序,為使用的方法選擇最適合的輸出,並為執行自定義類型的操作提供支持。
當使用Pandas 的時候,數據分析佔了很大的比重。但是,當與其他庫和工具一起使用時,Pandas 確保了高性能和良好的靈活性。
python 中的10 大頂級機器學習庫的介紹就到這裡啦,希望本文能夠幫助你開始學習python 中可用的庫。
Via:https://dzone.com/articles/top-10-python-libraries-you-must-know-in-2019