日韩天天综合网_野战两个奶头被亲到高潮_亚洲日韩欧美精品综合_av女人天堂污污污_视频一区**字幕无弹窗_国产亚洲欧美小视频_国内性爱精品在线免费视频_国产一级电影在线播放_日韩欧美内地福利_亚洲一二三不卡片区

多服務器日志合并統(tǒng)計_Windows教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

摘要:  本文介紹了一種將apache日志的cronolog輪循和webalizer合并統(tǒng)計的方法。

關鍵詞:

webalizer apache log analysis sort merge cronolog 日志 分析

內(nèi)容摘要:

你完全不必耐心地看完下面的所有內(nèi)容,因為結(jié)論無非以下2點:

1 用 cronolog 干凈,安全地輪循apache"日"志;

2 用 sort -m 合并排序多個日志;

根據(jù)個人的使用經(jīng)歷:

1) 先介紹apache日志的合并方法;

2) 然后根據(jù)由此引出的問題說明日志輪循的必要性和解決方法,介紹如何通過cronolog對apache日志進行輪循;

中間有很多在設計日志合并過程中一些相關工具的使用技巧和一些嘗試的失敗經(jīng)歷……

我相信解決以上問題的路徑不止這一條途徑,以下方案肯定不是最簡便或者說成本最低的,希望能和大家有更多的交流。

1、多服務器日志合并統(tǒng)計的必要性

越來越多大型的Web服務使用DNS輪循來實現(xiàn)負載均衡:使用多個同樣角色的服務器做前臺的WEB服務,這大大方便了服務的分布規(guī)劃和擴展性,但多個服務器的分布使得日志的分析統(tǒng)計也變得有些麻煩。如果使用webalizer等日志分析工具對每臺機器分別做日志統(tǒng)計:

1) 會對數(shù)據(jù)的匯總帶來很多麻煩,比如:統(tǒng)計的總訪問量需要將SERVER1 SERVER2...上指定月份的數(shù)字相加。

2) 會大大影響統(tǒng)計結(jié)果中唯一訪客數(shù)unique visits,唯一站點數(shù)unique sites的等指標的統(tǒng)計,因為這幾個指標并非幾臺機器的代數(shù)相加。

統(tǒng)一日志統(tǒng)計所帶來的好處是顯而易見的,但如何把所有機器的統(tǒng)計合并到一個統(tǒng)計結(jié)果里呢?

首先也許會想:多個服務器能不能將日志記錄到同一個遠程文件里呢?我們不考慮使用遠程文件系統(tǒng)記錄日志的問題,因為帶來的麻煩遠比你獲得的方便多的多……

因此,要統(tǒng)計的多個服務器的日志還是:分別記錄=>并通過一定方式定期同步到后臺=>合并=>后用日志分析工具來進行分析。

首先,要說明為什么要合并日志:因為webalizer沒有將同一天的多個日志合并的功能先后運行

webalizer log1

webalizer log2

webalizer log3

這樣最后的結(jié)果是:只有l(wèi)og3的結(jié)果。

能不能將log1<

因為一個日志的分析工具不是將日志一次全部讀取后進行分析,而且流式的讀取日志并按一定時間間隔,保存階段性的統(tǒng)計結(jié)果。因此時間跨度過大(比如2條日志間隔超過5分鐘),一些日志統(tǒng)計工具的算法就會將前面的結(jié)果"忘掉"。因此, log1<2、日志合并問題

多個服務的合并統(tǒng)計就是要把日志按時間排序后合并成一個文件。典型的多個日志文件的時間字段是這樣的:

log1     log2     log3

00:15:00   00:14:00   00:11:00

00:16:00   00:15:00   00:12:00

00:17:00   00:18:00   00:13:00

00:18:00   00:19:00   00:14:00

14:18:00   11:19:00   10:14:00

15:18:00   17:19:00   11:14:00

23:18:00   23:19:00   23:14:00

日志合并必須是按時間將多個日志的交叉合并。合并后的日志應該是:

00:15:00 來自log1

00:15:00 來自log2

00:16:00 來自log1

00:17:00 來自log3

00:18:00 來自log2

00:19:00 來自log1

....

如何合并多個日志文件?

下面以標準的clf格式日志(apache)為例:

apche的日志格式是這樣的:

%h %l %u %t "%r" %>s %b

具體的例子:

111.222.111.222 - - [03/Apr/2002:10:30:17 +0800]

"GET /index.html HTTP/1.1" 200 419

最簡單的想法是將日志一一讀出來,然后按日志中的時間字段排序

cat log1 log2 log3 |sort -k 4 -t " "

注釋:

-t " ": 日志字段分割符號是空格

-k 4: 按第4個字段排序,也就是:

[03/Apr/2002:10:30:17 +0800] 這個字段

-o log_all: 輸出到log_all這個文件中

但這樣的效率比較低,要知道。如果一個服務已經(jīng)需要使用負載均衡,其服務的單機日志條數(shù)往往都超過了千萬級,大小在幾百M,這樣要同時對多個幾百M的日志進行排序,機器的負載可想而之……

其實有一個優(yōu)化的途徑,要知道:即使單個日志本身已經(jīng)是一個"已經(jīng)按照時間排好序"的文件了,而sort對于這種文件的排序合并提供了一個優(yōu)化合并算法:使用 -m merge合并選項。

因此,合并這樣格式的3個日志文件log1 log2 log3并輸出到log_all中比較好方法是:

sort -m -t " " -k 4 -o log_all log1 log2 log3

注釋:

-m: 使用 merge優(yōu)化算法

注意:合并后的日志輸出最好壓縮以后再發(fā)給webalizer處理。

有的系統(tǒng)能處理2G的文件,有的不能。有的程序能處理大于2G的文件,有的不能。盡量避免大于2G的文件,除非確認所有參與處理的程序和操作系統(tǒng)都能處理這樣的文件。所以輸出后的文件如果大于2G,最好將日志gzip后再發(fā)給webalizer處理:大于2G的文件分析過程中文件系統(tǒng)出錯的可能性比較大,并且gzip后也能大大降低分析期間的I/O操作。

日志的按時間排序合并就是這樣實現(xiàn)的。

3、日志的輪循機制

讓我們關心一下數(shù)據(jù)源問題:webalizer其實是一個按月統(tǒng)計的工具,支持增量統(tǒng)計:因此對于大型的服務,我可以按天將apache的日志合并后送給webalizer統(tǒng)計。WEB日志是如何按天(比如每天子夜00:00:00)截斷呢?

如果你每天使用crontab:每天0點準時將日志備份成access_log_yesterday

mv /path/to/apache/log/access_log /path/to/apache/log/access_log_yesterday

的話:你還需要:馬上運行一下:apache restart 否則:apache會因為的日志文件句柄丟失不知道將日志記錄到哪里去了。這樣歸檔每天子夜重啟apache服務會受到影響

來源:網(wǎng)絡搜集//所屬分類:Windows教程/更新時間:2012-06-25
相關Windows教程