這次是Taipei.py第一次有教學活動,聽說也是莫名其妙就有了
大家跟講者沙盤推演的去使用Pandas,此外也有助教從旁協助,剛好坐我後面
人超好XD 幫我解決了不少問題,而且這些問題都是在場也有用Mac的人居多Orz
原因在於不久前OSX Xcode更新到5.1後開始出現C編譯的各種狀況
從上面我們可以看到 command “cc” fail 等訊息
在5.1的版本之前Xcode做C檔的編譯,對於不認識的東西只會跳出Warning
可是在更新之後Warning就被改為了Error,導致執行中斷…也就是安全層級提高了
所以如果easy_install或pip install在c編譯不過的情況下,加入以下的魔法指令就ok了
sudo ARCHFLAGS=-Wno-error=unused-command-line-argument-hard-error-in-future pip install
把Error警告無視掉的解法就就這個神奇指令的用法Orz
至於到底什麼是Pandas? 首先它絕不是梅老師喜愛字面上的意思:貓熊XD
更不用說它和團圓、圓仔有任何的關係! XDDD <-講師還有特別標這段 哈哈
Pandas是Python用來做資料處理的強大工具,支援各式的格式
簡單的下達你的需求就會將資料給整理好 此外和以往open讀取字串的方式不同,
這麼做我們常會用到split掉空格或是其它不相關的字元,不同的格式還有不同的做法
而Pandas會判斷最佳的輸入方法,偵測以換行或空格為區別 等等的方式省下大量的時間
在搭配圖形繪製的輸出 不論是長條圖、點陣分佈或立體圖都難不導它
何況Python的語言本來就擅長做數據分析,也有漸漸取代R語言的趨勢~
在獲取大量資料並做分析的情況下,Pandas是好用的幫手
更何況像政府開放資料平台: https://data.gov.tw 沒有統一格式充斥各種不同格式的資料
Pandas更可以顯得他的便利所在之處
上面廢話了這麼多,那Pandas真正對我的影響是什麼XD
雖然資料分析超級方便,難道就沒有其它更好用的地方了嗎??
還記得之前我自已手刻搞的網頁爬蟲 !? 這不好像也是資料分析的一種方式嗎?
在知道Pandas之前 … 乖乖分析HTML語法,找到資料,切掉不要的字串……超累人
我一點也不想乖乖這樣搞,有沒有更好的解決方式?
所以理所當然讀網頁這檔事也是Pandas的擅長之處哩! 以維基百科的資料為例
上頭早有排版完整,整理妥當的資料了,我又何必去惡整自己,全交給Pandas做就好了!
讀取HTML輸出一個漂亮好懂的結果需要幾行? 兩行XD還包含import
條列式的整理好了搜尋到的資料,之後就看自己的需求放置到Table整理成表格
不僅僅只是這樣而已,記得Word或PDF的資料嗎?
好像有個方式叫輸出成HTML檔XD,這樣一來不就少了不少麻煩事了XD
總比一個個複製、貼上好的多~ 社群稱PDF轉HTML神奇的function……
雖然是圖片卻可以轉成HTML感到不可思議XD 判斷表格轉成HTML的td、tr
當然這樣做是有缺點,會有掉字的問題發生,但已經解決八成以上的麻煩了
所以拿到東西…轉成HTML就對了(逃)
總而言之,這次滿感謝社群的人和助教的協助,在開始前還大約教了我一下怎麼用IPython
和處理掉很多安裝遇到的麻煩~ 好像在場到講完結束還沒安裝完XDD
順便支持一下今年的Pycon,還真是令人期待,包含這次的Pandas作者也會來
4/7 有開賣學生早鳥票1290 不包含碩博士生(茶) 有興趣的可以關注一下
期待下次的聚會 :)