php防止数据被爬 php防扒( 二 )


推荐的安全配置选项
error_reporting设置为Off:不要暴露错误信息给用户,开发的时候可以设置为ON
safe_mode设置为Off
register_globals设置为Off
将以下函数禁用:system、exec、passthru、shell_exec、proc_open、popen
open_basedir设置为 /tmp ,这样可以让session信息有存储权限,同时设置单独的网站根目录expose_php设置为Offallow_url_fopen设置为Offallow_url_include设置为Off
SQL注入攻击
对于操作数据库的SQL语句,需要特别注意安全性,因为用户可能输入特定语句使得原有的SQL语句改变了功能 。类似下面的例子:
$sql ="select * from pinfo where product = '$product'";
此时如果用户输入的$product参数为:'39'; DROP pinfo; SELECT 'FOO
那么最终SQL语句就变成了如下的`样子:
select product from pinfo where product = '39';
DROP pinfo;
SELECT 'FOO'
这样就会变成三条SQL语句 , 会造成pinfo表被删除 , 这样会造成严重的后果 。这个问题可以简单的使用PHP的内置函数解决:
$sql = 'Select * from pinfo where product = '"' mysql_real_escape_string($product) . '"';
防止SQL注入攻击需要做好两件事:对输入的参数总是进行类型验证对单引号、双引号、反引号等特殊字符总是使用mysql_real_escape_string函数进行转义但是,这里根据开发经验,不要开启php的Magic Quotes,这个特性在php6中已经废除,总是自己在需要的时候进行转义 。
防止基本的XSS攻击
XSS攻击不像其他攻击 , 这种攻击在客户端进行,最基本的XSS工具就是防止一段javascript脚本在用户待提交的表单页面,将用户提交的数据和cookie偷取过来 。XSS工具比SQL注入更加难以防护 , 各大公司网站都被XSS攻击过,虽然这种攻击与php语言无关,但可以使用php来筛选用户数据达到保护用户数据的目的,这里主要使用的是对用户的数据进行过滤,一般过滤掉HTML标签,特别是a标签 。下面是一个普通的过滤方法:
function transform_HTML( $string , $length null) { // Helps prevent XSS attacks
// Remove dead space.
$string = trim( $string );
// Prevent potential Unicode codec problems.
$string = utf8_decode( $string );
// HTMLize HTML-specific characters.
$string = htmlentities( $string , ENT_NOQUOTES);
$string = str_replace ( "#" , "#" , $string );
$string = str_replace ( "%" , "%" , $string );
$length = intval ( $length );
if ( $length0) {
$string = substr ( $string , 0, $length );
}return $string ;
}
这个函数将HTML的特殊字符转换为了HTML实体,浏览器在渲染这段文本的时候以纯文本形式显示 。如bold会被显示为: BoldText 上述函数的核心就是htmlentities函数 , 这个函数将html特殊标签转换为html实体字符 , 这样可以过滤大部分的XSS攻击 。但是对于有经验的XSS攻击者 , 有更加巧妙的办法进行攻击:将他们的恶意代码使用十六进制或者utf-8编码,而不是普通的ASCII文本,例如可以使用下面的方式进行:
这样浏览器渲染的结果其实是:
a hrefhttps://www.04ip.com/post/= ""
SCRIPT Dosomethingmalicious
这样就达到了攻击的目的 。为了防止这种情况,需要在transform_HTML函数的基础上再将#和%转换为他们对应的实体符号,同时加上了$length参数来限制提交的数据的最大长度 。
使用SafeHTML防止XSS攻击
上述关于XSS攻击的防护非常简单 , 但是不包含用户的所有标记 , 同时有上百种绕过过滤函数提交javascript代码的方法,也没有办法能完全阻止这个情况 。目前,没有一个单一的脚本能保证不被攻击突破,但是总有相对来说防护程度更好的 。一共有两个安全防护的方式:白名单和黑名单 。其中白名单更加简单和有效 。一种白名单解决方案就是SafeHTML,它足够智能能够识别有效的HTML,然后就可以去除任何危险的标签 。这个需要基于HTMLSax包来进行解析 。安装使用SafeHTML的方法:

推荐阅读