HTTP协议与html
http:即超文本传输协议:是服务器与客户端进行数据交互的一种形式。
https:即secure超文本传输协议(服务器与客户端数据交互时包含数据加密)
请求方
协议:不同计算机间交流的君子协定。 http:即超文本传输协议:是服务器与客户端进行数据交互的一种形式。 https:即secure超文本传输协议(服务器与客户端数据交互时包含数据加密) 请求方式常用get或者post 请求头(Request Headers)里包含反爬方式等 请求体很重要,返回内容 关于响应 状态码(status code) 200则正常返回4xx(404等)客户端错误 5xx服务端错误 3xx (资源重新定向)请求ok,但要新地址才可以获得数据 1xx 服务器收到请求,需要请求者继续操作(如输入密码等) 放在客户端要使用的一些附加信息:cookie,密钥等 以下信息都可以通过抓包(F12)获取 常用的请求头信息: 1.User-Agent:请求一方的身份标识#查看自己浏览器的标识并应用,可以伪装爬虫程序身份 2.Referer:这次请求从哪个页面来的#可用于实现反爬 3.Connection:请求完毕后,是否断开连接 4.cookie:本地字符串数据信息#即用户登录信息,是反爬的token 常用的响应头信息: 1.Content Type:服务器响应回客户端的数据类型 2.cookie 3.各种莫名其妙的字符串(一般都是token字样,防止各种攻击和反爬,需要多加操练) 关于请求方式 1.get 显性请求即在浏览器最上方网址所发出的 1.加密方式 (1)证书密钥加密(重点)(https所用,客户端与服务器间有证书认证机构,安全性便捷性相对最高) (2)对称密钥加密(客户端给密钥与密文服务器内容加密,传给服务器,有较大拦截风险) (3)非对称密钥加密(客户端有公钥和密文,服务器有私钥,安全性相对较高,但通信速度low) 关于html html即超文本标记语言,编写网页的一种语言 何为语言?她就跟汉语一样,有自己的语法等 何为标记?两端两个标签一标,很多标签,如 huiyuan nihao 网页中打开就是会放大一点,并且居中 注意:h1是标签,align是属性,center是属性值 基本语法 所标记的内容#可以多对属性 如 标签 tr 是表示一行的意思 td 表示一列 #这里是张图片 启发:爬虫bs4可以通过标签,属性值获得目标 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |