php提取網(wǎng)頁(yè)正文內(nèi)容的例子_PHP教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

推薦：PHP官方Windows擴(kuò)展列表
發(fā)現(xiàn)很多學(xué)PHP的同學(xué)常常因?yàn)檎也坏絇HP在windows下對(duì)應(yīng)的擴(kuò)展而抓破頭，因此分享一下PHP Windows所有可以找到的擴(kuò)展索引資源： PHP 5.2/5.3的Windows擴(kuò)展索引站點(diǎn)：在這里你可以找到諸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows擴(kuò)

　　因?yàn)殡y點(diǎn)在于如何去識(shí)別并保留網(wǎng)頁(yè)中的文章部分，而且刪除其它無用的信息，并且要做到通用化，不能像火車頭那樣根據(jù)目標(biāo)站來制定采集規(guī)則，因?yàn)樗阉饕娼Y(jié)果中有各種的網(wǎng)頁(yè)。

　　抓回一個(gè)頁(yè)面的數(shù)據(jù)，如何匹配出正文部分，鄭曉在下班路上想了個(gè)思路是：

　　1. 提取出body標(biāo)簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標(biāo)簽(包括標(biāo)簽內(nèi)不含中文的)–>獲取結(jié)果。

　　2. 直接匹配出非鏈接的、符合在div、p、h標(biāo)簽中的中文部分???

　　還是會(huì)有不少其它多余信息啊，比如底部信息等。。如何搞?不知道大家有木有什么思路或建議?

　　這個(gè)類是從網(wǎng)上找到的一個(gè)php實(shí)現(xiàn)的提取網(wǎng)頁(yè)正文部分的算法，鄭曉在本地也測(cè)試了下，準(zhǔn)確率非常高。

　　使用起來也非常簡(jiǎn)單，實(shí)例化時(shí)傳入網(wǎng)頁(yè)的html源碼和相應(yīng)的編碼，然后直接調(diào)用其getContent方法即可返回提取到的正文部分，提取出的文章中可能還會(huì)含有少部分鏈接，可以自己后期再修改

分享：修改php.ini中的max_input_vars參數(shù)限制提交的表單數(shù)量
折騰了半天，發(fā)現(xiàn)了這個(gè)奧秘，原來php小版本升級(jí)引起的不兼容， php.ini 文件里的 max_input_vars 默認(rèn)值為 1000，正常情況下夠用，偶爾遇到我這種提交2000多個(gè)表單的情況還是比較少見的，不過，如果發(fā)現(xiàn)提交表單個(gè)數(shù)不全的情況，可以試試修改這個(gè)配置。修改后重啟ph