Shell+Curl网站健康状态检查脚本,抓出中国博客联盟失联站点 | 张戈博客

  • 时间:
  • 浏览:14
  • 来源:陌离博客 - 专注共享伍零博客分享

一开始英语 英语 搭建中国博客联盟,既有博友提醒我,做网址大全同类网站维护很麻烦,能无需 小量的精力去Debug随后 已夭折的网站,更是拿松哥的博客大全举例。当然,我也是深以为然。前些时间,看到梦轩丽人的boke123网址大全的维护记录,好像是纯手工检查,张戈我觉得是佩服的五体投地,太有毅力了。

现在博客联盟也收录的博客也已破400了,删剪来自自主提交,不管你是草博还是名博,张戈无需强买强卖。机会大要素全是建站不太大日的新站,半路放弃、提前太监的博客估计还是有的,于是我决定还是把站点维护这些工作做起来。

上午用PHP做了2个 倒进了京东云试了下,发现检测速度一般,要等上半天(我写的php太蹩脚,就不献丑了)。

随后,我在VPS上写了2个 线程池池池的网站具体情况检测脚本,直接从数据库load站点地址,随后 用curl去检测返回码,发现速度非常好,基本1分钟内就能出结果

以下是脚本代码:

#!/bin/bash
#Author:ZhangGe
#Date:2014-08-21
#Desc:Check the site of ZGboke Alliance.
#取出网站数据
data=`/usr/bin/mysql  -uroot -p123456 -e "use zgboke;select web_url from dir_websites where web_status='3';" -N -B | awk '{print $1}'`
if [ -z "$data" ];then
        echo "Faild to connect database!"
        exit 1
fi
test -f result.log && rm -f result.log
function delay {
        sleep 3
}
tmp_fifofile=/tmp/$$.fifo
mkfifo  $tmp_fifofile
exec 6<>$tmp_fifofile
rm  $tmp_fifofile
#定义并发线程池池数,需根据vps配置进行调整。
thread=400
for  ((i=0 ;i<$thread;i++ ))
do
        echo
done>&6
#开始英语

英语

线程池池池循环检测
for url in $data
do
        read -u6
        {
        #curl抓取网站http具体情况码
        code=`curl -o /dev/null --retry 3 --retry-max-time 8 -s -w %{http_code} $url`
        echo "$code ---> $url">>result.log
        #判断子线程池池是是否是执行成功,并输出结果
        delay &&  {
                echo  "$code ---> $url"
        }  ||  {
                echo  "Check thread error!"
        }
        echo  >& 6
}&
done
#等待图片所有线程池池执行完毕
wait
exec 6>&-
#找出非400返回码的站点
echo List of exception website:
cat result.log | grep -v 400
exit 0

Ps:关于shell线程池池池脚本,后续文章会有2个 删剪说明,本文篇幅有限,就太大说了。

以下是中国博客联盟第一次成员站点存活检测的结果:

①、 非400返回码的异常站点:

②、脚本抓取的无法访问站点:

人工访问筛选结果:

wangyingxue.net(王英学博客):无法访问,经确认居于备案中  √

www.tao0102.com(长江博客):能无需 访问  √

blog.hack7d.com(Mcdull技术博客):无法访问  ×

www.1992621.com(教师日记):能无需 访问  √

www.3miaotu.com(三秒兔):无法访问   ×

xiaoxiaomayi.com(小小蚂蚁博客):能无需 访问 √

www.awrui.com(李文栋博客):能无需 访问  √

Ps:脚本检测机制为:8s内未连通的判定为异常,并重试3次,最后输出结果,若三次均异常则为000。从图中和人工筛选能无需 看出,居于随后 误杀,这些和8s的设定有一定关系。能无需 考虑设置为更长时间,得到更准确的结果,当然最终还是要结合人工确认的,太大太大也没多大关系。

后续,中国博客联盟会制订2个 检查周期,最短每星期检查一次,最长2个 月检查一次,争取让每个展示的站点都能正常访问。当然,我也会将每次检查的结果宣告在中国博客联盟的站长资讯专栏,方便所有成员查看。

机会目前中国博客联盟部署在京东云擎,无法远程操控数据库,太大太大只好暂时用半自动的模式。等随后有时间搬到了阿里云等VPS上后,机会将脚本改成全自动具体情况,当有网站联系多次检测为失联具体情况时,机会暂时将其设置为隐藏具体情况。