每一個可以努力的日子,都是一份厚禮。
Python
Zenoss 報警 API
2012 6月 29th
Python寫爬蟲——抓取網頁並解析HTML
2011 6月 10th
CUHK 上學期有門課叫做 Semantic Web,課程 project 是要搜集整個系裡面的教授信息,輸入到一個系統里,能夠完成諸如“如果選了A教授的課,因時間衝突,B教授的哪些課不能選”、“和A教授實驗室相鄰的實驗室都是哪些教授的”這一類的查詢。這就是所謂的“語義網”了啊。。。然而最坑爹的是,所有這些信息,老師並沒有給一個文檔或者數據庫,全要靠自己去系主頁上搜集。唯一的想法是寫個爬蟲,令人悲哀的是,所有做這個 project 的同學,都是純人肉手工完成,看得我只想扶牆。。。
從網頁中抓取特定信息,我覺得這是一個普遍性的問題,以後經常會遇到。幸虧那個 project 只是需要我們系的所有教授的信息,大家人工也就算了。如果需要抓取的信息是海量的,舉個栗子,把淘寶上所有的商品目錄抓下來,那豈不是要吐血而亡?我決定好好把爬蟲研究一下。 更多 >
反向索引Inverted Index – Map Reduce Program
2011 1月 4th
Inverted Index (反向索引)是搜索引擎需要做的一件經常性工作。在Google提出Map Reduce分布式編程框架中,這是一件很容易完成的事情。下面就是一個python寫的示例。 更多 >
單詞統計Word Count – Map Reduce Program
2011 1月 4th
在學習Map Reduce方法時,Word Count(單詞統計)程序是最基礎的入門訓練。不同的寫法會有不同的執行效率,下面是用python寫的一個示例。 更多 >
Amazon S3 雲存儲服務Cloud Storage編程實踐
2011 1月 4th
Amazon Simple Storage Service (S3) 是一個雲端存儲平台,這是現在蓬勃發展的雲計算的典型應用之一。用戶可以將自己的數據上傳到雲端服務器,便可以隨時隨地地訪問到這些數據,靈活高效。它按需收費,也就是說使用相應容量的存儲空間,就花相應的錢。這裡有具體的資費標準。對於企業用戶來說,使用這項服務實際上可以大大降低成本,這些成本不僅僅包括自己購置服務器硬件、軟件成本,還包括電力、為IT設施維護而僱傭的人力成本等等。
在Amazon S3中有如下幾個概念,通過分別介紹,我們可以大致理解雲存儲的基本原理。
Buckets:一個bucket是一個用於存儲的容器,我們可以不太恰當地理解為就是雲端的文件夾。文件夾要求一個獨特唯一的名字,這和註冊郵箱名差不多,可以加前綴或者後綴來避免重名。bucket使得我們在一個高層級上組織命名空間,並在數據的訪問控制上扮演重要角色。下面舉個例子,假設一個名為photos/puppy.jpg的文件對象存儲在名為johnsmith的bucket里,那麼我們就可以通過這樣一個url訪問到這個對象:http://johnsmith.s3.amazonaws.com/photos/puppy.jpg
更多 >