php提取網(wǎng)頁(yè)正文內(nèi)容的例子_PHP教程
推薦:PHP官方Windows擴(kuò)展列表發(fā)現(xiàn)很多學(xué)PHP的同學(xué)常常因?yàn)檎也坏絇HP在windows下對(duì)應(yīng)的擴(kuò)展而抓破頭,因此分享一下PHP Windows所有可以找到的擴(kuò)展索引資源: PHP 5.2/5.3的Windows擴(kuò)展索引站點(diǎn): 在這里你可以找到諸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows擴(kuò)
因?yàn)殡y點(diǎn)在于如何去識(shí)別并保留網(wǎng)頁(yè)中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據(jù)目標(biāo)站來制定采集規(guī)則,因?yàn)樗阉饕娼Y(jié)果中有各種的網(wǎng)頁(yè)。
抓回一個(gè)頁(yè)面的數(shù)據(jù),如何匹配出正文部分,鄭曉在下班路上想了個(gè)思路是:
1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。
2. 直接匹配出非鏈接的、 符合在div、p、h標(biāo)簽中的中文部分???
還是會(huì)有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?
這個(gè)類是從網(wǎng)上找到的一個(gè)php實(shí)現(xiàn)的提取網(wǎng)頁(yè)正文部分的算法,鄭曉在本地也測(cè)試了下,準(zhǔn)確率非常高。
使用起來也非常簡(jiǎn)單,實(shí)例化時(shí)傳入網(wǎng)頁(yè)的html源碼和相應(yīng)的編碼,然后直接調(diào)用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會(huì)含有少部分鏈接,可以自己后期再修改
分享:修改php.ini中的max_input_vars參數(shù)限制提交的表單數(shù)量折騰了半天,發(fā)現(xiàn)了這個(gè)奧秘,原來php小版本升級(jí)引起的不兼容, php.ini 文件里的 max_input_vars 默認(rèn)值為 1000, 正常情況下夠用,偶爾遇到我這種提交2000多個(gè)表單的情況還是比較少見的,不過,如果發(fā)現(xiàn)提交表單個(gè)數(shù)不全的情況,可以試試修改這個(gè)配置。 修改后重啟ph
- phpmyadmin安裝教程 phpmyadmin安裝配置
- PHP程序員必須遵循的PHP編程準(zhǔn)則
- PHP官方Windows擴(kuò)展列表
- 修改php.ini中的max_input_vars參數(shù)限制提交的表單數(shù)量
- 快速找出php中可能導(dǎo)致cpu飆升問題的代碼行
- php驗(yàn)證URL是否合法的函數(shù)
- PHP中排列組合及性能對(duì)比
- PHP合并2個(gè)數(shù)字鍵數(shù)組的值的程序
- php方法重寫:Declaration of should be compatible with that
- PHP通過內(nèi)置函數(shù)memory_get_usage()獲取內(nèi)存使用情況
- IIS下PHP的三種配置方式對(duì)比
- PHP超時(shí)處理應(yīng)用場(chǎng)合及解決方案全面總結(jié)
- 相關(guān)鏈接:
- 教程說明:
PHP教程-php提取網(wǎng)頁(yè)正文內(nèi)容的例子
。