Итак, нам повезло – наш провайдер установил программу WebAlizer - хороший генератор отчетов, использующих лог-файлы сервера. Что это нам дает? Целый день у провайдера накапливаются протоколы работы Web-сервера. так называемые лог-файлы. Программа WebAlizer анализирует эти лог-файлы и, как правило около полуночи. создает суммарный отчет по месяцам в течение года и детальные отчеты в пределах месяца. В качестве примера рассмотрим статистику сайта
http://www.az-design.ru/webalizer/index.html. Суммарный отчет мы рассмотрим позднее, начнем с отчета месяца.
Отчет начинается с таблицы суммарной информации по месяцу, на базе которой строиться суммарный отчет по году, а также таблица ошибок (сообщений) сервера в ответ на запросы пользователя. Но самое интересное – это таблица посещаемости по дням, которая называется Daily Statistics. Перед таблицей представлен цветной график, который позволяет наглядно оценить текущую ситуацию. В таблицу сведен ряд параметров, которые требуют объяснения.
Daily Statistics for November 2003
Day
Hits
Files
Pages
Visits
Sites
KBytes
1
4121
2.02%
2757
1.92%
1414
1.88%
325
2.29%
267
2.87%
15995
2.03%
2
6548
3.20%
4626
3.23%
3393
4.50%
371
2.62%
333
3.58%
36615
4.64%
3
8545
4.18%
5195
3.63%
2274
3.02%
583
4.11%
523
5.63%
25265
3.20%
4
12646
6.18%
10180
7.11%
3846
5.10%
588
4.15%
528
5.68%
38296
4.85%
Pages – Количество URL, которые были запрошены, без учета встроенных элементов типа изображений и звуковых файлов. Т.е. это собственно страница, которую просматривает пользователь.
Files – количество файлов запрошенных с сервера, включая графические и звуковые файлы.
Hit – общее количество запросов, сделанных на сервер в течение данного периода (месяц, день, час)
Для того чтобы понять, как использовать полученные данные рассмотрим следующий пример:
Есть страница, на которой имеется 5 картинок, причем 2 картинки (одинаковые) содержаться в файле 01.gif и 3 картинки (одинаковые) содержаться в файле 02.gif. При запросе этой странички WebAlizer выдаст следующие значения: Pages=1; Files=3; Hit=6.
Таким образом, реально для анализа необходим только параметр Pages. Т.к. если на страничке отступ абзаца выполнен в виде прозрачного gif-файла, то количество Hit'ов может зашкаливать, не давая при этом никакой информации.
Visits – события происходят, когда некоторый отдаленный узел делает запрос о странице на вашем сервере впервые. Пока тот же самый узел продолжает производить запросы в пределах данной блокировки, которая обычно составляет 20-30 минут, они будут рассматриваться частью того же самого Посещения. Если узел делает запрос на ваш сервер, и отрезок времени после последнего запроса больше, чем указанная блокировка времени, то начинается новое Посещение и вся последовательность повторяется. После того как страницы запустят посещение, удаленные сайты, содержащие графические, звуковые и т.п. файлы не будут подсчитаны для всего посещения, сокращая число ложных посещений.
Sites – число уникальных IP-адресов/hostnames, которые сделали запросы на сервер. Как правило, показатель Visits больше Sites. Однако, следует учесть, что часто с одного IP-адреса работают несколько пользователей, например, доступ по DialUp – когда IP-адреса распределяются динамически. В то же время, один пользователь может, с точки зрения WebAlizer, работать с нескольких адресов. Например, замечено, что корпоративная сеть BeeLine весьма разветвленная и имеет несколько выходов в Интернет и запросы одного пользователя к сайту идут различными путями. В этом случае показатель Sites больше Visits.
KBytes – показывает суммарное количество информации переданное с сервера на удаленный компьютер. Показатель имеет значение в основном для провайдеров и для тех владельцев, для которых установлены ограничения на трафик.
Для всех параметров даны два значения – абсолютное и доля в процентах от общего значения за месяц. Хотя второе, в данном случае, используются редко.
Вторая интересная таблица – и по положению и по значению – это почасовая статистика Hourly Statistics. Из этой таблицы пропали значения Visits и Sites, просто потому, что они опираются на понятие сессии, которая переходит границы часа и, следовательно, значения Visits и Sites становятся неопределенными. Оставшиеся параметры представлены в трех вариантах – Avg (средний), Total (Всего) и в процентных долях. Перед таблицей также есть график, показывающий количество считанных страниц в течение конкретного часа. Так как в таблице всегда 24 строки, то желательно было бы иметь и круговую диаграмму, основанную на этой таблице, которая была бы более наглядная. По этой таблице можно оценить количество посетителей, которые используют служебный Интернет "в личных целях". По ней можно также определить, когда имеет смысл показывать свои баннеры.
Hourly Statistics for November 2003
Hour
Hits
Files
Pages
KBytes
Avg
Total
Avg
Total
Avg
Total
Avg
Total
0
234
6091
2.98%
147
3826
2.67%
90
2365
3.14%
992
25795
3.27%
1
183
4776
2.34%
84
2207
1.54%
43
1120
1.49%
507
13171
1.67%
2
149
3893
1.90%
70
1820
1.27%
42
1110
1.47%
422
10960
1.39%
3
102
2665
1.30%
73
1905
1.33%
44
1154
1.53%
606
15753
2.00%
4
84
2205
1.08%
54
1414
0.99%
34
906
1.20%
352
9141
1.16%
5
162
4228
2.07%
115
2996
2.09%
89
2315
3.07%
1079
28054
3.55%
6
118
3087
1.51%
81
2121
1.48%
48
1267
1.68%
510
13265
1.68%
7
137
3575
1.75%
97
2528
1.77%
54
1408
1.87%
569
14799
1.87%
8
196
5106
2.50%
144
3757
2.62%
78
2051
2.72%
892
23189
2.94%
9
315
8192
4.01%
233
6075
4.24%
118
3090
4.10%
1230
31979
4.05%
10
504
13125
6.42%
366
9536
6.66%
244
6369
8.45%
2522
65567
8.31%
11
530
13799
6.75%
377
9810
6.85%
225
5857
7.77%
1963
51044
6.47%
12
456
11863
5.80%
297
7722
5.39%
139
3624
4.81%
1345
34965
4.43%
13
415
10796
5.28%
312
8129
5.68%
141
3689
4.90%
1448
37643
4.77%
14
503
13102
6.41%
386
10054
7.02%
179
4679
6.21%
1837
47763
6.05%
15
557
14485
7.08%
381
9918
6.92%
201
5235
6.95%
2137
55563
7.04%
16
772
20083
9.82%
599
15593
10.89%
248
6460
8.57%
2671
69435
8.80%
17
481
12522
6.12%
342
8902
6.22%
181
4708
6.25%
1766
45917
5.82%
18
372
9676
4.73%
271
7055
4.93%
144
3762
4.99%
1458
37898
4.80%
19
399
10379
5.08%
273
7101
4.96%
150
3920
5.20%
1549
40264
5.10%
20
357
9287
4.54%
238
6188
4.32%
109
2859
3.79%
1234
32092
4.07%
21
289
7517
3.68%
210
5474
3.82%
108
2820
3.74%
1265
32878
4.17%
22
291
7568
3.70%
199
5199
3.63%
102
2676
3.55%
1208
31402
3.98%
23
248
6470
3.16%
149
3899
2.72%
73
1903
2.53%
797
20727
2.63%
Следующая таблица – Total URLs – показывает, какие страницы на сайте пользуются наибольшей популярностью. Причем показываются только 30 самых популярных. Не нужно удивляться, но часто наиболее популярными являются вспомогательные (служебные) страницы. И в то же время, анализ даже этой части таблицы позволяет судить, какая тема на сайте более востребована посетителями и что нужно сделать для увеличения посещаемости сайта.
Следующая таблица – Total URLs By KBytes – практически не несет полезной информации. Только в случае, когда владелец сайта платит за трафик, эту информацию можно использовать и то, значимость ее будет сомнительна.
А вот таблица Total Entry Pages показывает на какие страницы чаще попадает посетитель, как правило, используя поисковые системы или ссылки. Правда также показывается только первые 10 строк таблицы.
И, наконец, одна из самых полезных таблиц Top 30 from Total Sites. Как правило, вверху этой таблице размещаются поисковые системы, это и понятно. Они посещают сайт постоянно для того чтобы проиндексировать его. Однако, некоторые особо активные пользователи, особенно те, кто любят скачивать сайт целиком, попадают в верхние строки таблицы.
Top 30 of 9297 Total Sites
#
Hits
Files
KBytes
Visits
Hostname
1
5666
2.77%
2852
1.99%
27647
3.50%
2
0.01%
relay.xmuvd.ru
2
3721
1.82%
3334
2.33%
2072
0.26%
1
0.01%
vedis.rutenia.ru
3
3202
1.57%
2006
1.40%
21235
2.69%
4
0.03%
62.141.124.242
5
2125
1.04%
1502
1.05%
10889
1.38%
3
0.02%
ya.yandex.ru
6
1896
0.93%
39
0.03%
645
0.08%
1
0.01%
ip108-127.dialup.wplus.net
7
1701
0.83%
1396
0.97%
13285
1.68%
70
0.49%
robot1.rambler.ru
10
1495
0.73%
56
0.04%
183
0.02%
1
0.01%
du-n-rtk-228.kursknet.ru
13
1151
0.56%
1099
0.77%
14357
1.82%
3
0.02%
buildrack95.sv.av.com
15
925
0.45%
488
0.34%
4296
0.54%
1
0.01%
167.235.dialup.westcall.net
16
859
0.42%
403
0.28%
3852
0.49%
44
0.31%
crawl22.googlebot.com
17
819
0.40%
350
0.24%
3165
0.40%
57
0.40%
crawl23.googlebot.com
18
796
0.39%
500
0.35%
4901
0.62%
1
0.01%
ya-out.yandex.ru
20
657
0.32%
168
0.12%
1014
0.13%
4
0.03%
n9-153-249-80.ihome.ru
21
644
0.31%
549
0.38%
461
0.06%
2
0.01%
host28.stavsu.ru
22
613
0.30%
31
0.02%
542
0.07%
3
0.02%
tele-dkd1.dkd.lt
24
564
0.28%
130
0.09%
1478
0.19%
16
0.11%
proxy.wplus.net
25
550
0.27%
497
0.35%
3667
0.46%
1
0.01%
ip50-52.dialup.wplus.net
27
437
0.21%
204
0.14%
1816
0.23%
44
0.31%
crawl24.googlebot.com
28
433
0.21%
0
0.00%
0
0.00%
0
0.00%
si1003.inktomisearch.com
30
411
0.20%
53
0.04%
558
0.07%
1
0.01%
254.botanika.ur.ru
Для справки можно отметить, что, например, Yandex, Google и Altavista используют при индексировании до 30 компьютеров, поэтому в этой таблице они могут занимать несколько строк. И кто бы мог сказать, что buildrack95.sv.av.com - это поисковая система Altavista.
Таблица Top 30 from Total Referrers весьма полезная, но многое зависит от настройки, которую делает провайдер. Таблица показывает с какой страницы пришел пользователь (Referrer), но одни провайдеры включают в эту таблицу страницы этого же сайта, а другие нет. Если в таблицу включены страницы собственного сайта, то вполне вероятно, что половина таблицы будет заполнена своими страницами. Но в любом случае в таблице присутствуют ссылки из поисковых систем, которые позволяют определить эффективность той или другой поисковой системы.
Здесь также можно замеить, что Yandex имеет разные точки входа для поиска, и, соответственно, в этой таблице они могут занимать несколько строк.
Таблица Total Search Strings могла бы быть полезной, если бы все пользовались английским языком, так как в ней приводятся строки запросов из поисковых систем так как они переданы на сайт. Следовательно, далеко не всегда они имеют читаемый вид. Не нужно забывать, что для русского языка в Интернет используются как минимум 5 кодировок. Из опыта перекодировки этих запросов, можно сказать, что часто запрос преобразуется 2-3 раза и рас кодировать его сразу удается не всегда. Самая поганая поисковая система в этом смысле это search.msn.com, которая принадлежит Microsoft. В ней, во-первых, используется несколько кодировок, во-вторых, часто нет признаков в какой кодировке передается запрос.
Правда все проблемы с кодировкой уже решены при использовании другой системы статистики WebStat(SQL), которая используется на сайтах www.az-design.ru, www.hegelprint.ru, www.strana-vkusov.ru
Таблица Total User Agents разрушает миф, что все пользователи пользуются браузером MS Internet Explorer. Особенно это заметно для специфических областей, например, таких как полиграфия. На сайте посвященном полиграфии или полиграфическому оборудованию, подавляющая часть посетителей использует компьютеры Apple Macintosh, для которых Internet Explorer уже год как не поддерживается. Не говоря уж о том, что в мире есть еще компьютеры с ОС Unix/Linux.
Top 15 of 598 Total User Agents
#
Hits
User Agent
1
45317
22.16%
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
2
22837
11.17%
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
3
19901
9.73%
Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)
4
12252
5.99%
Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)
5
10263
5.02%
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1
14
3100
1.52%
Mozilla/5.0 (compatible; MSIE 5.0)
15
3033
1.48%
WebCopier v3.6
Последняя таблица Total Countries – была бы полезна, если бы регион посетителя определялся бы по фактичесму IP-адресу, а не по домену первого уровня. Т.е. нужно учитывать, что никто не запрещает жителю США зарегистрировать домен в зоне .ru, а зоны .com, .net, .org и вовсе являются международными. Однако приятно видеть, как широко расползлись наши сограждане – для русскоязычного сайта около 50 стран – это впечатляет.
Top 30 of 49 Total Countries
#
Hits
Files
KBytes
Country
1
97213
47.54%
68851
48.07%
337584
42.77%
Russian Federation
2
66378
32.46%
46829
32.70%
269546
34.15%
Unresolved/Unknown
3
17932
8.77%
12045
8.41%
66670
8.45%
Network
4
12174
5.95%
8077
5.64%
75501
9.57%
US Commercial
5
2535
1.24%
1861
1.30%
11829
1.50%
Ukraine
6
1064
0.52%
365
0.25%
1917
0.24%
Lithuania
7
1009
0.49%
747
0.52%
2325
0.29%
Estonia
8
931
0.46%
778
0.54%
4965
0.63%
USSR (former)
9
907
0.44%
491
0.34%
1951
0.25%
Kazakhstan
10
669
0.33%
585
0.41%
2744
0.35%
Israel
11
552
0.27%
256
0.18%
2259
0.29%
Belarus
12
533
0.26%
430
0.30%
1863
0.24%
Latvia
13
396
0.19%
228
0.16%
880
0.11%
Germany
14
299
0.15%
162
0.11%
870
0.11%
Moldova
15
242
0.12%
196
0.14%
589
0.07%
Finland
16
197
0.10%
143
0.10%
1050
0.13%
France
17
166
0.08%
138
0.10%
1038
0.13%
Kyrgyzstan
18
146
0.07%
123
0.09%
448
0.06%
Switzerland
19
145
0.07%
105
0.07%
957
0.12%
Non-Profit Organization
20
140
0.07%
131
0.09%
230
0.03%
Ireland
21
105
0.05%
99
0.07%
375
0.05%
Belgium
22
89
0.04%
86
0.06%
190
0.02%
Bulgaria
23
76
0.04%
69
0.05%
199
0.03%
Czech Republic
24
74
0.04%
68
0.05%
396
0.05%
Canada
25
49
0.02%
39
0.03%
345
0.04%
Poland
26
45
0.02%
45
0.03%
208
0.03%
United Kingdom
27
44
0.02%
43
0.03%
219
0.03%
Sweden
28
43
0.02%
37
0.03%
139
0.02%
Tuvalu
29
43
0.02%
39
0.03%
295
0.04%
Uzbekistan
30
36
0.02%
36
0.03%
288
0.04%
US Educational
И, наконец, главная страница отчета, которая располагается по адресу /webalizer/index.html или /usage/index.html, дает суммарную информацию по месяцам. В этой таблице, а также на прилагаемом к ней графике, видна глобальная динамика развития сайта на протяжении последних 12 месяцев, включая сезонные колебания (июль, август). Таблица состоит из двух частей. Первая часть показывает среднедневные значения Hits, Files, Pages, Visits по каждому месяцу. Вторая часть – суммарные значения Sites, KBytes, Visits, Pages, Files, Hits по каждому месяцу.
Так как владелец сайта лишен возможности влиять на значения в этом отчете, то он является наиболее достоверной информацией о посещаемости сайта. Если владелец сайта, говорит, что он раскрутил сайт до 10000 посещений в сутки, и при этом отсутствует отчет WebAlizer, то можно с уверенностью сказать, что он врет. О том, как анализировать посещаемость сайта и какие можно сделать выводы на основе отчетов программы WebAlizer будет рассказано в следующей статье.
Если вам недоступна статистика WebAlizer, по попросите провайдера ее поставить, если провайдер отказывается – проще найти провайдера, у которого эта статистика есть.