PHP實(shí)現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法_PHP教程
推薦:PHP讀取漢字點(diǎn)陣數(shù)據(jù)背景知識: 簡體中文國標(biāo)字庫(1981年訂,中國大陸)。7445個字符,其中漢字6773個,包括一級漢字3755個,二級漢字3008個。采用2字節(jié)(16位二進(jìn)制)編碼。 區(qū)位碼:國標(biāo)GB2312規(guī)定,所有的
通常情況下,我們的網(wǎng)頁要指定一個編碼字符集,如 GB2312、UTF-8、ISO-8859-1 等,這樣我們就可以在網(wǎng)頁上顯示我們指定編碼的文字了。但是我們很可能會遇到這種情況,那就是我們可能希望在 ISO-8859-1 編碼的網(wǎng)頁上顯示漢字,或者在 GB2312 編碼的網(wǎng)頁上顯示韓文等。當(dāng)然一種解決辦法就是我們不用 ISO-8859-1 或者 GB2312 編碼,而統(tǒng)統(tǒng)都采用 UTF-8 編碼,這樣我們只要在這種編碼下,就可以混合顯示各國文字了,這是現(xiàn)在很多網(wǎng)站采用的方法。
而我這里所說的并非上面這種方法,因?yàn)樯厦孢@種方法必須要指定字符集為 UTF-8 才可以,一旦用戶手工指定為其他字符集,或者可能因?yàn)槟承┰颍莻字符集設(shè)置沒起作用,而瀏覽器又沒有正確自動識別的話,我們看到的網(wǎng)頁還是亂碼,尤其是在某些用框架作的網(wǎng)頁中,某個框架中的頁面如果字符集設(shè)置沒起作用,在 firefox 中顯示亂碼而且還沒法改變(我是說在不裝RightEncode插件的情況下)。
而我這里介紹的方法即使是把網(wǎng)頁指定為 ISO-8859-1 字符集,也能夠正確顯示漢字、日文等。原理很簡單,就是把除了 ISO-8859-1 編碼中前128個字符以外的所有其他的編碼都用 NCR(Numeric character reference) 來表示。比如“漢字”這兩個字,如果我們寫成“汉字”這種形式,那么它在任意字符集下都可以正確顯示。根據(jù)這個原理,我寫了下面這個程序,它可以把現(xiàn)有的網(wǎng)頁轉(zhuǎn)化為在任意字符集下都能顯示的網(wǎng)頁。你只需要指定源網(wǎng)頁的字符集和源網(wǎng)頁,點(diǎn)提交按鈕,就可以得到目標(biāo)網(wǎng)頁了。你也可以只轉(zhuǎn)化某些文字,只需要把文字填寫到文本框中,并指定這些文字原來的字符集,點(diǎn)提交按鈕,就會在頁面上面顯示編碼后的文字了。另外我還編寫了WordPress 的插件,現(xiàn)在我的 Blog 已經(jīng)可以在任意字符集下都能正確顯示了。
實(shí)現(xiàn)方法:
首先第一步是要把源字符集的字符串轉(zhuǎn)化為UTF-16字符集,做這一步是因?yàn)閁TF-16字符集中的每個字符都是兩個字節(jié),后面處理起來很容易,而如果在源字符集上直接做處理則很復(fù)雜。源字符集可以從原網(wǎng)頁中的meta標(biāo)簽中獲得,也可以單獨(dú)指定,我的程序是讓用戶在表單中指定源字符集,因?yàn)槲也荒鼙WC用戶提交的文件就一定是HTML文件(其他文件也是可以的,比如這個WordPress的漢化包源文件是個po文件,它里面的內(nèi)容也可以這樣處理),而且即使是HTML文件,里面也不一定就有用于指定字符集的meta標(biāo)簽,所以通過表單單獨(dú)指定字符集比較保險。你可能會覺得將一種字符集轉(zhuǎn)化為另一種字符集很復(fù)雜,確實(shí)如此,如果自己來實(shí)現(xiàn)的話,確實(shí)非常麻煩,但是用PHP來做卻很容易,因?yàn)樗锩嬉呀?jīng)包含這樣的函數(shù)了,你可以通過iconv函數(shù)很容易的來實(shí)現(xiàn)各種字符集之間的轉(zhuǎn)化,如果你的機(jī)器上沒有安裝iconv擴(kuò)展,你也可以使用mb_convert_encoding函數(shù),如果Multibyte String擴(kuò)展也沒有安裝,那就沒辦法了,因?yàn)槟阋约簩?shí)現(xiàn)那么多種編碼的轉(zhuǎn)化基本上是不可能的,除非你是頂級大牛!推薦使用iconv,因?yàn)檫@個效率高,支持的字符集也更多。
做完上面那一步之后,接下來是以每兩個字節(jié)為單位對字符串進(jìn)行處理。這兩個字節(jié)直接轉(zhuǎn)化為數(shù)字就是&#xxxxx;中的xxxxx,如果這個數(shù)字小于128就直接使用這個字符(注意這里就變成單字節(jié)了),否則就使用&#xxxxx;的形式。這里有一點(diǎn)要注意,就是當(dāng)這個數(shù)字是65279(16進(jìn)制的0x FEFF)時,請把它忽略掉,因?yàn)檫@個是Unicode編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有iso-8859-1編碼中的前128個字符了,所以我們不需要它了。
好了,基本思路就是這樣,下面是實(shí)現(xiàn)的程序:
| 以下為引用的內(nèi)容: <?php |
函數(shù)的參數(shù)中,$encode是源字符集,$str是需要進(jìn)行轉(zhuǎn)化的字符串。返回結(jié)果是轉(zhuǎn)化以后字符串。
分享:PHP制作的仿百度的站內(nèi)搜索引擎代碼以下為引用的內(nèi)容: <E html PUBLIC "-//W3C//DTD XHTM " "1/
- PHPNOW安裝Memcached擴(kuò)展方法詳解
- php記錄頁面代碼執(zhí)行時間
- PHP中獎概率的抽獎算法程序代碼
- apache設(shè)置靜態(tài)文件緩存方法介紹
- php對圖像的各種處理函數(shù)代碼小結(jié)
- PHP 關(guān)于訪問控制的和運(yùn)算符優(yōu)先級介紹
- 關(guān)于PHP語言構(gòu)造器介紹
- php/js獲取客戶端mac地址的實(shí)現(xiàn)代碼
- php5.5新數(shù)組函數(shù)array_column使用
- PHP preg_match的匹配多國語言的技巧
- php 中序列化和json使用介紹
- php采集文章中的圖片獲取替換到本地
- 相關(guān)鏈接:
- 教程說明:
PHP教程-PHP實(shí)現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法
。