利用PHP制作簡(jiǎn)單的內(nèi)容采集器_PHP教程
推薦:傳奇的誕生,PHP三位創(chuàng)始人簡(jiǎn)介PHP到現(xiàn)在為止已經(jīng)誕生12年了。在這期間它經(jīng)過不斷改善,已經(jīng)成為Web開發(fā)最重要的語言之一。PHP能有今天這樣的成就,它的3位創(chuàng)始人(Rasmus Lerdorf、Zeev Suraski和Andi Gutmans)功不可沒。 P
采集器,通常又叫小偷程序,主要是用來抓取別人網(wǎng)頁內(nèi)容的。關(guān)于采集器的制作,其實(shí)并不難,就是遠(yuǎn)程打開要采集的網(wǎng)頁,然后用正則表達(dá)式將需要的內(nèi)容匹配出來,只要稍微有點(diǎn)正則表達(dá)式的基礎(chǔ),都能做出自己的采集器來的。
前幾天做了個(gè)小說連載的程序,因?yàn)榕赂侣闊槑Ь蛯懥藗(gè)采集器,采集八路中文網(wǎng)的,功能比較簡(jiǎn)單,不能自定義規(guī)則,不過大概思路都在里面了,自定義規(guī)則可以自己來擴(kuò)展。
用php來做采集器主要用到兩個(gè)函數(shù):file_get_contents()和preg_match_all(),前一個(gè)是遠(yuǎn)程讀取網(wǎng)頁內(nèi)容的,不過只在php5以上的版本才能用,后一個(gè)是正則函數(shù),用來提取需要的內(nèi)容的。
下面就一步一步來講功能實(shí)現(xiàn)。
因?yàn)槭遣杉≌f,所以首先要將書名、作者、類型這三個(gè)提取出來,別的信息可根據(jù)需要提取。
這里以《回到明朝當(dāng)王爺》為目標(biāo),先打開書目頁,鏈接:http://www.86zw.com/Book/3727/Index.aspx
多打開幾本書會(huì)發(fā)現(xiàn),書名的基本格式是:http://www.86zw.com/Book/書號(hào)/Index.aspx,于是我們可以做一個(gè)開始頁,定義一個(gè)<input type=text name=number>,用來輸入需要采集的書號(hào),以后就可以通過$_POST[‘number’]這種格式來接收需要采集的書號(hào)了。接收到書號(hào),下面要做的就是構(gòu)造書目頁:$url=http://www.86zw.com/Book/$_POST[‘number’]/Index.aspx,當(dāng)然這里是舉個(gè)例子,主要是為了講解方便,實(shí)際制作的時(shí)候最好檢查一下$_POST[‘number’]的合法性。
構(gòu)造好URL以后就可以開始采集書籍信息了。使用file_get_contents() 函數(shù)打開書目頁:$content=file_get_contents($url),這樣就能將書目頁的內(nèi)容都讀取出來了。接下來就是將書名、作者和類型等信息匹配出來了。這里就以書名為例,其他的都一樣。 打開書目頁,查看源文件,找到“<span class="booktitle">《回到明朝當(dāng)王爺》</span>”,這就是要提取出來的書名了。提取書名的正則表達(dá)式:/<span class=\"newstitle\">(.*?)\<\/span>/is,使用preg_match_all()函數(shù)將書名取出:preg_match_all("/<span class=\"newstitle\">(.*?)\<\/span>/is",$contents,$title);這樣$title[0][0]的內(nèi)容就是我們要的標(biāo)題了(preg_match_all函數(shù)的用法可以去百度查,這里就不詳細(xì)說明了)。取出了書籍信息,接下來就是取章節(jié)內(nèi)容了,要取章節(jié)內(nèi)容,首先要做的就是找到每一章的地址,然后遠(yuǎn)程打開章節(jié),用正則將內(nèi)容取出來,入庫或者直接生成html靜態(tài)文件。這個(gè)是章節(jié)列表的地址:http://www.86zw.com/Html/Book/18/3727/List.shtm,可以看出這個(gè)和書目頁一樣,是有規(guī)律可尋的:http://www.86zw.com/Html/Book/分類號(hào)/書號(hào)/List.shtm。書號(hào)前面已經(jīng)取得,這里的關(guān)鍵是找到分類號(hào),分類號(hào)可以在前面的書目頁找到,提取分類號(hào):
preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);這樣還不夠,還需要一個(gè)切取函數(shù):
[復(fù)制PHP代碼] [ - ]PHP代碼如下:
| 以下為引用的內(nèi)容: function cut($string,$start,$end){ $message = explode($start,$string); $message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容,$start為開始的地方,$end為結(jié)束的地方。取出分類號(hào): $start = "Html/Book/"; $end = "List.shtm"; $typeid = cut($typeid[0][0],$start,$end); $typeid = explode("/",$typeid);[/php] |
這樣,$typeid[0]就是我們要找的分類號(hào)了。接下來就是構(gòu)造章節(jié)列表的地址了:$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number’]/List.shtm。有了這個(gè)就能找到每一章節(jié)的地址了。方法如下:
| 以下為引用的內(nèi)容: $ustart = "\""; $uend = "\""; //t表示title的縮寫 $tstart = ">"; $tend = "<"; //取路徑,例如:123.shtm,2342.shtm,233.shtm preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url); //取標(biāo)題,例如:第一章 九世善人 preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title); $count = count($url[0]); for($i=0;$i<=$count;$i ) { $u = cut($url[0][$i],$ustart,$uend); $t = cut($title[0][$i],$tstart,$tend); $array[$u] = $t; } |
$array數(shù)組就是所有的章節(jié)地址了,到這里,采集器就完成一半了,剩下的就是循環(huán)打開每個(gè)章節(jié)地址,讀取,然后將內(nèi)容匹配出來。這個(gè)比較簡(jiǎn)單,這里就不詳細(xì)敘述了。好了,今天就先寫到這吧,第一次寫這么長(zhǎng)的文章,語言組織方面難免有問題,還請(qǐng)大家多包涵!
分享:淺談PHP開發(fā)團(tuán)隊(duì)的管理之道本文節(jié)選自《淺談PHP開發(fā)團(tuán)隊(duì)管理及程序員做人問題》。 看了標(biāo)題,也許很多程序員會(huì)反感的說:“程序員的做人問題先不用談,你想出來這個(gè)標(biāo)題,那你做人是不是有問題吧!” 筆者
- PHPNOW安裝Memcached擴(kuò)展方法詳解
- php記錄頁面代碼執(zhí)行時(shí)間
- PHP中獎(jiǎng)概率的抽獎(jiǎng)算法程序代碼
- apache設(shè)置靜態(tài)文件緩存方法介紹
- php對(duì)圖像的各種處理函數(shù)代碼小結(jié)
- PHP 關(guān)于訪問控制的和運(yùn)算符優(yōu)先級(jí)介紹
- 關(guān)于PHP語言構(gòu)造器介紹
- php/js獲取客戶端mac地址的實(shí)現(xiàn)代碼
- php5.5新數(shù)組函數(shù)array_column使用
- PHP preg_match的匹配多國語言的技巧
- php 中序列化和json使用介紹
- php采集文章中的圖片獲取替換到本地
- 相關(guān)鏈接:
- 教程說明:
PHP教程-利用PHP制作簡(jiǎn)單的內(nèi)容采集器
。