每一個可以努力的日子,都是一份厚禮。
字符串
Python寫爬蟲——抓取網頁並解析HTML
2011 6月 10th
CUHK 上學期有門課叫做 Semantic Web,課程 project 是要搜集整個系裡面的教授信息,輸入到一個系統里,能夠完成諸如“如果選了A教授的課,因時間衝突,B教授的哪些課不能選”、“和A教授實驗室相鄰的實驗室都是哪些教授的”這一類的查詢。這就是所謂的“語義網”了啊。。。然而最坑爹的是,所有這些信息,老師並沒有給一個文檔或者數據庫,全要靠自己去系主頁上搜集。唯一的想法是寫個爬蟲,令人悲哀的是,所有做這個 project 的同學,都是純人肉手工完成,看得我只想扶牆。。。
從網頁中抓取特定信息,我覺得這是一個普遍性的問題,以後經常會遇到。幸虧那個 project 只是需要我們系的所有教授的信息,大家人工也就算了。如果需要抓取的信息是海量的,舉個栗子,把淘寶上所有的商品目錄抓下來,那豈不是要吐血而亡?我決定好好把爬蟲研究一下。 更多 >
C/C++反序輸出字符串總結
2011 3月 21st
2年前去T公司面試,面試官給了我一張紙一支筆,說寫個程序吧,輸入一個字符串然後反序輸出。我問輸入輸出是用函數參數呢還是系統I/O,面試官說隨你便,寫完了說說各有什麼優缺點吧。當時我大三,沒有參加過ACM沒有實驗室經歷除了課程設計也沒寫過什麼程序,完全小白。當然至今也仍然是菜鳥一隻,不堪回首啊。
方法一:據說有庫函數strrev()啊 更多 >