Python基础入门笔记,利用Python爬取淘宝商品信息

2019-11-13 19:19栏目:专项工作
TAG:

时间:2018年9月4日 22:54:49     #请各位读者注意时效性   以下Python学习笔记基于Python3

ag真人,现在人们哪怕是买个牙刷可能都会在淘宝上面,而且在买东西的时候每个人都会做的一件事情就是看评论,看看之前买家评论了解商品质量,外观是不是和图片一样等等。但是如果真的想要一条一条去看的话,那时间是真的要很多,当然了如果买的小物件那倒无所谓,如果是比较贵重的物品就必须得好好看了(PS:在小编心里100以上就是贵重物品,哈哈哈哈)

玩过电脑游戏的同学对于外挂肯定不陌生,但是你在用外挂的时候有没有想过如何做一个外挂呢?(当然用外挂不是那么道义哈,呵呵),那我们就来看一下如何用python来制作一个外挂。。。。

懒得改格式了,将就一下

ag真人 1

我打开了4399小游戏网,点开了一个不知名的游戏,唔,做寿司的,有材料在一边,客人过来后说出他们的要求,你按照菜单做好端给他便好~ 为啥这么有难度?8种菜单记不清,点点就点错,鼠标还不好使肌肉劳损啥的伤不起啊……

Python学习笔记
1.Python源于1989年圣诞期间,作者:Guido van Rossum
2.任何语言都有缺点,Python也不例外。如:运行速度慢、代码不能加密
3.优点:可以跨平台。
4.命令行写Python好处是可以直接得到结果,坏处是没办法保存。文本编辑器写代码可以保存。
5.print()是输出方法,如果是输出字符串需要添加引号'',遇到逗号(,)会空格一行。
6.input()是输入方法,它会把用户输入的东西变成字符串,并存放到一个变量里。括号里的东西能让用户看到提示。
7.Python的语法比较简单,采用缩进方式。不像传统的语言有中括号。
8.注释用#符号,注释是给人看的,可以是任意内容,解释器会忽略掉注释。
9.数据类型:整数、浮点数、字符串、布尔值、列表、字典等。
10.转义字符:
11.布尔值可以用and、or或not运算。
12.变量名必须是大小写英文、数字和_的组合,且不能用数字开头。
13.变量本身类型不固定的语言称之为动态语言,固定类型的称之静态语言,常量是一个不能变的变量。
14.ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符。
15.len()函数计算的是str的字符数。
16.在Python中,采用的格式化方式和C语言是一致的,用%实现,举例如下:(%d整数 %s字符串 %f浮点型)
  s = 100
  print('get %d' %s)
  get 100

 

首先要声明,这里的游戏外挂的概念,和那些大型网游里的外挂可不同,不能自动打怪,不能喝药不能躲避GM…… 那做这个外挂有啥用?问的好,没用,除了可以浪费你一点时间,提高一下编程技术,增加一点点点点点点的做外挂的基础以外,毫无用处,如果您是以制作一个惊天地泣鬼神不开则已一开立刻超神的外挂为目标过来的话,恐怕要让您失望了,请及早绕道。我的目的很简单,就是自动玩这款小游戏而已。

  补充:如果你不太确定应该用什么,%s永远起作用,它会把任何数据类型转换为字符串。如果要输出'%'字符,可用%%代替
17.练习:小明的成绩从去年的72分提升到了今年的85分,请计算小明成绩提升的百分点,并用字符串格式化显示出'xx.x%',只保留小数点后1位。示例:
  s1 = 72
  s2 = 85
  s3 = (s2-s1)/72*100
  print('%.1f%%' %s3) #输出为18.1%

如果是一般人为了让自己买的东西放心当然是选择一条一条看,或者直接去实体店买。但是身为技(chui)术(niu)人(zhuang)员(bi)的小编,肯定是用Python批量爬取淘宝商品信息并进行简单的数据分析啦~~~~

工具的准备

 

ag真人 2

需要安装autopy和PIL以及pywin32包。autopy是一个自动化操作的python库,可以模拟一些鼠标、键盘事件,还能对屏幕进行访问,本来我想用win32api来模拟输入事件的,发现这个用起来比较简单,最厉害的是它是跨平台的,请搜索安装;而PIL那是大名鼎鼎了,Python图像处理的No.1,下面会说明用它来做什么;pywin32其实不是必须的,但是为了方便(鼠标它在自己动着呢,如何结束它呢),还是建议安装一下,哦对了,我是在win平台上做的,外挂大概只有windows用户需要吧?
截屏和图像处理工具
截屏是获取游戏图像以供分析游戏提示,其实没有专门的工具直接Print Screen粘贴到图像处理工具里也可以。我用的是PicPick,相当好用,而且个人用户是免费的;而图像处理则是为了获取各种信息的,我们要用它得到点菜图像后保存起来,供外挂分析判断。我用的是PhotoShop… 不要告诉Adobe,其实PicPick中自带的图像编辑器也足够了,只要能查看图像坐标和剪贴图片就好饿了,只不过我习惯PS了~
编辑器
这个我就不用说了吧,写代码得要个编辑器啊!俺用VIM,您若愿意用写字板也可以……
原理分析

未完待续。。。(一周一更)

 

外挂的历史啥的我不想说啦,有兴趣请谷歌或度娘(注:非技术问题尽可以百度)。

 

想要爬取评论第一件事就是找到真实的URL地址,具体步骤:

看这个游戏,有8种菜,每种菜都有固定的做法,顾客一旦坐下来,头顶上就会有一个图片,看图片就知道他想要点什么菜,点击左边原料区域,然后点击一下……不知道叫什么,像个竹简一样的东西,菜就做完了,然后把做好的食物拖拽到客户面前就好了。

  1. F12(开发者选项)
  2. Notework
  3. F5(刷新)
  4. feedRateList(文件名)
  5. Headers
  6. 复制Request URL

顾客头上显示图片的位置是固定的,总共也只有四个位置,我们可以逐一分析,而原料的位置也是固定的,每种菜的做法更是清清楚楚,这样一来我们完全可以判断,程序可以很好的帮我们做出一份一份的佳肴并奉上,于是钱滚滚的来:)

然后去除不必要的字段,获取自己想要的内容

autopy介绍

ag真人 3

github上有一篇很不错的入门文章,虽然是英文但是很简单,不过我还是摘几个这次用得到的说明一下,以显示我很勤劳。

 

移动鼠标

看看运行后的效果图

1 import autopy
2 autopy.mouse.move(100, 100) # 移动鼠标
3 autopy.mouse.smooth_move(400, 400) # 平滑移动鼠标(上面那个是瞬间的)

ag真人 4

这个命令会让鼠标迅速移动到指定屏幕坐标,你知道什么是屏幕坐标的吧,左上角是(0,0),然后向右向下递增,所以1024×768屏幕的右下角坐标是……你猜对了,是(1023,767)。

 

不过有些不幸的,如果你实际用一下这个命令,然后用autopy.mouse.get_pos()获得一下当前坐标,发现它并不在(100,100)上,而是更小一些,比如我的机器上是(97,99),和分辨率有关。这个移动是用户了和windows中mouse_event函数,若不清楚api的,知道这回事就好了,就是这个坐标不是很精确的。像我一样很好奇的,可以去读一下autopy的源码,我发现他计算绝对坐标算法有问题:

版权声明:本文由ag真人发布于专项工作,转载请注明出处:Python基础入门笔记,利用Python爬取淘宝商品信息