- 浏览: 2139673 次
- 性别:
- 来自: 合肥
文章分类
- 全部博客 (401)
- Agile (16)
- Apache Commons (3)
- Architecture (8)
- DB.MongoDB (5)
- DB.Mysql (3)
- DB.Oracle (34)
- DirectoryService (1)
- DotNet (1)
- English (3)
- Groovy (0)
- Html (28)
- Java (67)
- Java.Aixs (7)
- Java.Cache (2)
- Java.jPBM (1)
- Java.Resin (6)
- Java.Spring (4)
- Java.Struts2 (5)
- Java.Tomcat (16)
- Javascript (45)
- Javascript.Google Map (2)
- Javascript.Jquery (8)
- Life (15)
- Maven&Ant (4)
- Network (5)
- OS.Linux (45)
- OS.Windows (10)
- OS.Windows.Office (1)
- PlayFramework (15)
- Python (28)
- Reading notes (11)
- Security (13)
- Server.Apache (3)
- Server.Nginx (7)
- Test (6)
- Tool (15)
- Work.Solution (15)
- Other (20)
- SSO&CAS&Identity (13)
最新评论
-
hutuxiansheng123:
防火墙、Iptables、netfilter/iptables、NAT 概述 -
dacoolbaby:
非常棒的正则表达式,非常适用。万分感谢。
用python分析nginx的access日志 -
loot00:
您好! 我也遇到了相同的错误信息。我是用f_link_lob ...
LOB variable no longer valid after subsequent fetch -
feihangchen:
@OnApplicationStop public clas ...
Play framework 1.2.3 Jobs定时任务、异步任务、引导任务、触发任务、关闭任务 -
洞渊龙王:
谢谢了
www.w3.org被qiang导致logback报错:Connect reset
项目正式发布后,有需求要分析下nginx的access日志内容,于是写了如下脚本:
得到的HTTP状态码的数量如下:
各IP访问网站的次数如下(前10的IP):
#! /usr/bin/env python # -*- coding: utf-8 -*- #@author zcwang3@gmail.com #@version 2011-04-12 16:34 #Nginx日志分析,初始做成 import os import fileinput import re #日志的位置 dir_log = r"D:\python cmd\nginxlog" #使用的nginx默认日志格式$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"' #日志分析正则表达式 #203.208.60.230 ipP = r"?P<ip>[\d.]*"; #[21/Jan/2011:15:04:41 +0800] timeP = r"""?P<time>\[ #以[开始 [^\[\]]* #除[]以外的任意字符 防止匹配上下个[]项目(也可以使用非贪婪匹配*?) 不在中括号里的.可以匹配换行外的任意字符 *这样地重复是"贪婪的“ 表达式引擎会试着重复尽可能多的次数。 \] #以]结束 """ #"GET /EntpShop.do?method=view&shop_id=391796 HTTP/1.1" requestP = r"""?P<request>\" #以"开始 [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?) \" #以"结束 """ statusP = r"?P<status>\d+" bodyBytesSentP = r"?P<bodyByteSent>\d+" #"http://test.myweb.com/myAction.do?method=view&mod_id=&id=1346" referP = r"""?P<refer>\" #以"开始 [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?) \" #以"结束 """ #"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"' userAgentP = r"""?P<userAgent>\" #以"开始 [^\"]* #除双引号以外的任意字符 防止匹配上下个""项目(也可以使用非贪婪匹配*?) \" #以"结束 """ #原理:主要通过空格和-来区分各不同项目,各项目内部写各自的匹配表达式 nginxLogPattern = re.compile(r"(%s)\ -\ -\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)\ (%s)" %(ipP, timeP, requestP, statusP, bodyBytesSentP, referP, userAgentP), re.VERBOSE) def processDir(dir_proc): for file in os.listdir(dir_proc): if os.path.isdir(os.path.join(dir_proc, file)): print "WARN:%s is a directory" %(file) processDir(os.path.join(dir_proc, file)) continue if not file.endswith(".log"): print "WARN:%s is not a log file" %(file) continue print "INFO:process file %s" %(file) for line in fileinput.input(os.path.join(dir_proc, file)): matchs = nginxLogPattern.match(line) if matchs!=None: allGroups = matchs.groups() ip = allGroups[0] time = allGroups[1] request = allGroups[2] status = allGroups[3] bodyBytesSent = allGroups[4] refer = allGroups[5] # userAgent = allGroups[6] userAgent = matchs.group("userAgent") print userAgent #统计HTTP状态码的数量 GetResponseStatusCount(userAgent) #在这里补充其他任何需要的分析代码 else: raise Exception fileinput.close() allStatusDict = {} #统计HTTP状态码的数量 def GetResponseStatusCount(status): if allStatusDict.has_key(status): allStatusDict[status] += 1; else: allStatusDict[status] = 1; if __name__ == "__main__": processDir(dir_log) print allStatusDict #根据值进行排序(倒序) print sorted(allStatusDict.items(), key=lambda d:d[1], reverse=True) print "done, python is great!"
得到的HTTP状态码的数量如下:
{'200': 287559, '302': 6743, '304': 4074, '404': 152918, '499': 887, '400': 14, '504': 93, '502': 300, '503': 5, '500': 88353}
各IP访问网站的次数如下(前10的IP):
[('220.178.14.98', 323230), ('220.181.94.225', 120870), ('203.208.60.230', 14342), ('61.135.249.220', 6479), ('203.208.60.88', 5426), ('61.135.249.216', 4867), ('123.125.71.94', 1290), ('123.125.71.104', 1282), ('123.125.71.108', 1280), ('123.125.71.110', 1278), 余下不显示] 从原始信息中提取IP后可以做一些额外的分析工作:如访问量前10的IP等 数据量大时采用hashIp后取模再统计
发表评论
-
python sftp&ftp&ssh2
2012-03-06 11:29 10781ftp使用内置模块from ftplib import FTP ... -
python 子进程Subprocess & windows cmd当前目录和python当前目录的区分
2012-03-05 10:28 10919maven命令执行的时候,需要先到project目录,然后再执 ... -
http长连接与nginx resin相关配置
2011-09-20 10:25 3516HTTP1.0 规定浏览器与服务器端只保持短暂的连接,浏览器的 ... -
Nginx的防盗链配置(转)
2011-09-09 14:51 1295转自Nginx的防盗链配置 Nginx的防盗链 一般的防盗链 ... -
nginx访问本机目录下的文件列表
2011-09-09 14:35 16591配置nginx访问resin目录下 ... -
tomcat nginx默认的post大小限制
2011-09-07 11:56 10764执行大文件上传,或者,大数据量提交时,当提交的数据大小超过一定 ... -
http 状态码 504 502
2011-07-31 10:22 45027502 Bad Gateway:tomcat没有 ... -
(转)python 函数参数的传递(参数带星号的说明)
2011-03-18 15:09 1377转自 andylin02的博客 python中函数参数的传递 ... -
(转)Nginx出现“413 Request Entity Too Large”错误解决方法
2011-03-09 09:53 2316转自Nginx出现“413 Request Entity To ... -
ConfigParser读取记事本修改后的配置文件出错问题解决
2010-12-23 10:42 13008使用ConfigParser来读取系统配置文件,当把py2ex ... -
把图片列表合成一个GIF动画图片
2010-12-14 10:04 2515import os from PIL import Im ... -
LOB variable no longer valid after subsequent fetch
2010-12-01 10:50 5489cx_oracle读取oracle wm_concate函数操 ... -
pydev打包后的程序运行报【没有找到 MSVCP71.dll】的错误
2010-11-19 11:44 1728今天把用pydev打包后的程序放到一台新的Windows 20 ... -
客户端机器TCP端口被占满导致mysql报Can't connect to MySQL server on 'computername' (10048)
2010-11-17 16:22 5552用python程序读取csv数据,然后通过MySQLdb模块插 ... -
Python WindowsError
2010-10-28 10:02 11095WindowsError: [Error 2] The sy ... -
PIL使用过程中的异常处理
2010-10-22 14:45 19471IOError: cannot identify image ... -
用python给文件夹下所有图片进行缩放处理
2010-10-20 17:17 6123#! /usr/bin/env python # -* ... -
http代理测速程序
2010-10-18 16:45 6349从网上找到很多代理地址,用来访问目标网站,访问目标网站速度不一 ... -
python连接oracle
2010-09-29 13:39 8212windows下使用python连接oracle(10.2.0 ... -
python处理csv数据
2010-09-26 15:33 37227import csv #从文件读取 reader ...
相关推荐
使用Python 分析Nginx access 日志,根据Nginx日志格式进行分割并存入MySQL数据库。一、Nginx access日志格式如下:复制代码 代码如下:$remote_addr – $remote_user [$time_local] “$request” $status $body_...
本文实例讲述了python实现的分析并统计nginx日志数据功能。分享给大家供大家参考,具体如下: 利用python脚本分析nginx日志内容,默认统计ip、访问url、状态,可以通过修改脚本统计分析其他字段。 一、脚本运行方式 ...
这里使用python分析apache和nginx日志文件输出访客ip列表 ips = {} fh = open("/var/log/nginx/access.log", "r").readlines() for line in fh: ip = line.split(" ")[0] if 6 < len(ip) <=15: ips[ip] = ...
python nginx_logs_splter.py –nginxConf=nginx.conf –nginxDir=xxxxx –logPrefixs=access,error 2.在定时任务中加一个定时任务,调用这个 bat 文件; 2.1 开始-程序-管理工具-任务计划程序; 2.2 ...
分析您的NGINX访问日志并为人们访问您的服务的位置创建精美的地图。 如何使用 首先,请确保您已安装python3.x和geolite2 。 可以使用pip install maxminddb-geolite2 python-geoip-geolite2通过pip pip install ...
数据分析实战-利用pandas对nginx...本次实验以数据小站-数据科学成长之路的某个时间段的nginx访问日志为示例,抽取大概一万条的日志访问记录,通过python中的pandas库,对日志进行挖掘分析,进行一个数据应用实战项目。
log2json /var/log/nginx/access.log -o $HOME /nginx-access.txt 将多个日志文件转换为带有目标目录的文本 log2json /var/log/nginx/access.log /var/log/nginx/error.log -d $HOME /log2json/ 如果未提供目标...
python3 peek.py /var/log/nginx/access.log 根据需要调整/path/to/access.log。 为了保持统计数据的持久性,请添加--persist标志 python3 peek.py /var/log/nginx/access.log --persist 当前,这会将统计信息保存...
ngxtop 允许你对 NGINX 的访问日志 (access log) 进行实时解析, 并输出类似 top 的有用信息。 ngxtop 是 python 脚本安装包,需要python支持。 对于python的包和库文件我们一般喜欢pip管理,没有安装的可以: wget...
第一步。 sudo apt-get update sudo apt-get upgrade 先更新。。 Django的主流部署方式:nginx+uwsgi+django ...3.日志:/var/log/nginx/access.log – error.log 第三步,安装uwsgi sudo apt-get install python3-
tail -f /var/log/nginx/access.log|grep xxxxxFUCKxxxx日志输出多了看不到关键点,输出等级高了看不到系列?多个服务器的日志是否看起来很痛苦?常常使用TMUX开多个小窗口排查问题在哪里,眼睛都看不过来。快试试 ...
球锥 Ballcone是一种快速,轻量级的服务器端Web分析解决方案。 您的网站上不需要JavaScript。 屏幕截图 ...Ballcone会捕获nginx通过捆绑的( 65140/udp )以JSON格式导出的access_log条目。 这些条目存储在