未分類

三月 Taipei.py / Pandas 手把手教學

這次是Taipei.py第一次有教學活動,聽說也是莫名其妙就有了

大家跟講者沙盤推演的去使用Pandas,此外也有助教從旁協助,剛好坐我後面

人超好XD 幫我解決了不少問題,而且這些問題都是在場也有用Mac的人居多Orz

原因在於不久前OSX Xcode更新到5.1後開始出現C編譯的各種狀況

從上面我們可以看到 command “cc” fail 等訊息

在5.1的版本之前Xcode做C檔的編譯,對於不認識的東西只會跳出Warning

可是在更新之後Warning就被改為了Error,導致執行中斷…也就是安全層級提高了

所以如果easy_install或pip install在c編譯不過的情況下,加入以下的魔法指令就ok了

sudo ARCHFLAGS=-Wno-error=unused-command-line-argument-hard-error-in-future pip install

把Error警告無視掉的解法就就這個神奇指令的用法Orz

至於到底什麼是Pandas? 首先它絕不是梅老師喜愛字面上的意思:貓熊XD

更不用說它和團圓、圓仔有任何的關係! XDDD <-講師還有特別標這段 哈哈

Pandas是Python用來做資料處理的強大工具,支援各式的格式

簡單的下達你的需求就會將資料給整理好 此外和以往open讀取字串的方式不同,

這麼做我們常會用到split掉空格或是其它不相關的字元,不同的格式還有不同的做法

而Pandas會判斷最佳的輸入方法,偵測以換行或空格為區別 等等的方式省下大量的時間

在搭配圖形繪製的輸出 不論是長條圖、點陣分佈或立體圖都難不導它

何況Python的語言本來就擅長做數據分析,也有漸漸取代R語言的趨勢~

在獲取大量資料並做分析的情況下,Pandas是好用的幫手

更何況像政府開放資料平台: https://data.gov.tw 沒有統一格式充斥各種不同格式的資料

Pandas更可以顯得他的便利所在之處

上面廢話了這麼多,那Pandas真正對我的影響是什麼XD

雖然資料分析超級方便,難道就沒有其它更好用的地方了嗎??

還記得之前我自已手刻搞的網頁爬蟲 !? 這不好像也是資料分析的一種方式嗎?

在知道Pandas之前 … 乖乖分析HTML語法,找到資料,切掉不要的字串……超累人

我一點也不想乖乖這樣搞,有沒有更好的解決方式?

所以理所當然讀網頁這檔事也是Pandas的擅長之處哩! 以維基百科的資料為例

上頭早有排版完整,整理妥當的資料了,我又何必去惡整自己,全交給Pandas做就好了!

讀取HTML輸出一個漂亮好懂的結果需要幾行? 兩行XD還包含import

條列式的整理好了搜尋到的資料,之後就看自己的需求放置到Table整理成表格

不僅僅只是這樣而已,記得Word或PDF的資料嗎?

好像有個方式叫輸出成HTML檔XD,這樣一來不就少了不少麻煩事了XD

總比一個個複製、貼上好的多~ 社群稱PDF轉HTML神奇的function……

雖然是圖片卻可以轉成HTML感到不可思議XD 判斷表格轉成HTML的td、tr

當然這樣做是有缺點,會有掉字的問題發生,但已經解決八成以上的麻煩了

所以拿到東西…轉成HTML就對了(逃)

總而言之,這次滿感謝社群的人和助教的協助,在開始前還大約教了我一下怎麼用IPython

和處理掉很多安裝遇到的麻煩~ 好像在場到講完結束還沒安裝完XDD

順便支持一下今年的Pycon,還真是令人期待,包含這次的Pandas作者也會來

4/7 有開賣學生早鳥票1290 不包含碩博士生(茶) 有興趣的可以關注一下

期待下次的聚會 :)

分享到