用户
 找回密码
 入住 CI 中国社区
搜索
查看: 6940|回复: 5
收起左侧

转载网文 --- Apache Rewrite 规则的常见应用

[复制链接]
发表于 2009-3-9 11:08:19 | 显示全部楼层 |阅读模式
:目的
本文旨在提供如何用Apache重写规则来解决一些常见的URL重写方法的问题,通过常见的实例给用户一些使用重写规则的基本方法和线索。
:为什么需要用重写规则?
一个网站,如果是长期需要放在internet上提供服务,必定会有不断地更新和维护,如临时转移到其它服务器进行维护,重新组织目录结构,变换URL甚至改变到新的域名等等,而为了让客户不会因此受到任何影响,最好的方法就是使用Apache Rewrite Rule(重写规则)
: 重写规则的作用范围
1)
可以使用在Apache主配置文件httpd.conf
2)
可以使用在httpd.conf里定义的虚拟主机配置中
3)
可以使用在基本目录的跨越配置文件.htaccess
:重写规则的应用条件
只有当用户的WEB请求最终被导向到某台WEB服务器的Apache后台,则这台WEB服务器接受进来的请求,根据配置文件该请求是主配置还是虚拟主机,再根据用户在浏览器中请求的URI来配对重写规则并且根据实际的请求路径配对.htaccess中的重写规则。最后把请求的内容传回给用户,该响应可能有两种:

1)
对浏览器请求内容的外部重定向(Redirect)到另一个URL。让浏览器再次以新的URI发出请求(R=301或者R=302,临时的或是永久的重定向)
如:一个网站有正规的URL和别名URL,对别名URL进行重定向到正规URL,或者网站改换成了新的域名则把旧的域名重定向到新的域名(Redirect)

2)
也可能是由Apache内部子请求代理产生新的内容送回给客户[P,L] 这是Apache内部根据重写后的URI内部通过代理模块请求内容并送回内容给客户,而客户端浏览器并不知道,浏览器中的URI不会被重写。但实际内容被 Apache根据重写规则后的URI得到。
如:在公司防火墙上运行的Apache启动这种代理重写规则,代理对内部网段上的WEB服务器的请求。
:重写规则怎样工作?
我们假定在编译Apache时已经把mod_rewrite编译成模块,确信你的httpd.conf中有 LoadModule rewrite_module libexec/mod_rewrite.so
并且在Addmodule中有 Addmodule mod_rewrite.c 则可以使用重写规则。
当外部请求来到ApacheApache调用重写规则中的定义来重写由用户浏览器指定请求的 URI,最后被重写的URI如果是重定向,则送由浏览器作再一次请求;如果是代理则把重写后的 URI 交给代理模块请求最终的内容(Content),最后把内容送回给浏览器。
: 何时使用.htaccess中的重写规则定义?
假如你对你的的网站内容所在的服务器没有管理员权限,或者你的网站放在ISP的服务器上托管等等条件下,你无法改写主配置文件,然而你可以对你的WEB站点内容所在的目录有写权限,则你可以设置自己的.htaccess文件达到同样的目的。但你需要确定主配置文件中对你的网站所在的目录定义了下面的内容:

Options Indexes FollowSymLinks
AllowOverride all

否则你的.htaccess不会工作。
: 应用举例
假定Apache被编译安装在主机192.168.1.56/usr/local/apache/ 目录下面,我们编译进了重写和代理模块。

1)
隐藏Apache下的某个目录,使得对该目录的任何请求都重定向到另一个文件。

a> httpd.conf
的实现方法
我们放下面的部分到/usr/local/apache/conf/httpd.conf


options Indexes followsymlinks
allowoverride all
rewriteengine on
rewritebase /
rewriterule ^(.*)$ index.html.en [R=301]


注:rewriteengine on 为重写引擎开关,如果设为off,则任何重写规则定义将不被应用,该开关的另一好处就是如果为了临时拿掉重写规则,则改为off再重启动Apache即可,不必将下面一条条的重写规则注释掉。rewritebase / 的作用是如果在下面的rewriterule定义中被重写后的部分(此处为文件名index.html.en)前面没有/,则是相对目录,相对于这个 rewritebase后面的定义也就是/usr/local/apache/htdocs/index.html.en,否则,如果此处没有 rewritebase /这一项,则被重写成http: //192.168.1.56/usr/local/apache/htdocs/manual/index.html.en ,显然是不正确的。
不过这里我们也可以不用rewritebase / , 而改为
rewriteengine on
rewriterule ^(.*)$ /index.html.en [R=301]
或者
rewriteengine on
rewriterule ^(.*)$ http://192.168.1.56/index.html.en [R=301]

b> .htaccess
的实现方法
我们先放下面的部分到httpd.conf


options Indexes followsymlinks
allowoverride all


然后放下面的部分到/usr/local/apache/htdocs/manual/.htaccess
rewriteengine on
rewritebase /
rewriterule ^(.*)$ index.html.en [R=301]

注:对文件.htaccess所作的任何改动不需要重启动Apache.

问:要是把这个manual目录重定向到用户jephe的自己的主目录呢?
用下面的.htaccess方案。
rewriteengine on
rewritebase /~jephe/
rewriterule ^(.*)$ $1 [R=301]

则对manual目录下任何文件的请求被重定向到~jephe目录下相同文件的请求。

2)
转换www.username.domain.com的对于username的主页请求为
www.domain.com/username

对于HTTP/1.1的请求包括一个Host: HTTP头,我们能用下面的规则集重写
http://www.username.domain.com/anypath
/home/username/anypath

Rewriteengine on
rewritecond %{HTTP_HOST} ^www\.[^.]+\.host\.com$
rewriterule ^(.+) %{HTTP_HOST}$1 [C]
rewriterule ^www\.([^.]+)\.host\.com(.*) /home/$1$2

注:
rewritecond
条件重写规则,当满足后面定义的条件后才会应用下面的重写规则,rewritecond有各种变量,请查阅相关文档。

3)
防火墙上的重写规则代理内部网段上服务器的请求。

NameVirtualhost 1.2.3.4


servername www.domain.com
rewriteengine on
proxyrequest on
rewriterule ^/(.*)$ http://192.168.1.3/$1 [P,L]


注:当外部浏览器请求www.domain.com时被解析到IP地址1.2.3.4 ,Apache 交出mod_rewrite处理转换成http://192.168.1.3/$1后再交由代理模块mod_proxy得到内容后传送回用户的浏览器。


4)
基本预先设定的转换MAP表进行重写 rewritemap

转换www.domain.com/{countrycode}/anypath Map表中规定的URI,上面是虚拟主机中的定义

rewritelog /usr/local/apache/logs/rewrite.log
rewriteloglevel 9

rewriteengine on
proxyrequest on
rewritemap sitemap txt:/usr/local/apache/conf/rewrite.map
rewriterule ^/([^/]+)+/(.*)$ http://%{REMOTE_HOST}::$1 [C]
rewriterule (.*)::([a-z]+)$ ${sitemap:$2|http://h.i.j.k/} [R=301,L]

文件/usr/local/apache/conf/rewrite.map的内容如下:

sg http://a.b.c.d/
sh http://e.f.g.h/

注:当用户请求http://www.domain.com/sg/anypath时被重写为http://a.b.c.d/anypath .
当需要调试时请用rewritelog and rewriteloglevel 9联合,9为最大即得到最多的调试信息最小为1,最小的调试信息,默认为0,没有调试信息。sitemap的语法是${sitemap: LookupKey | Defaultvalue} ,有些书上把$写成了%是错误的。
正则表达式只是用于字符串匹配的特征串, 我们从如何表示一个字符开始.
[ ] : 表示选择一个字符.
(.) :
表示任何了个除换行符(\n)之外的字符.
\r  :
表示回车
\n  :
表示换行
\t  :
表示TAB
\w  :
表示字母,数字或下划线, 等同于[A-Za-z0-9_]
\W  :
表示非字母,数字或下划线, 等同于[^A-Za-z0-9_]
\s  :
表示空白字符, 等同于[ \f\n\r\t]
\S  :
表示非空白字符, 等同于[^ \f\n\r\t]
\d  :
表示数字字符, 等同于[0-9]
\D  :
表示非数字字符, 等同于[^0-9]

当我们需要表示有特定意义的字符时,  可以用"\"来进行转义, 如要表示一对中括号, 就用"\[\]",其他的类似. "*", "+", ".", "(", ")", "$", "?", "|", "{"出现在中括号内时, 就只表示字符本身而没有其他含义.
| : 或者
* : 表示出现0个或多个
+ : 表示出现1个或多个
? : 表示出现0个或1
{n} : 表示重复出现n
{m,n} : 表示重复出现最少m, 最多n

到这一部份就比较难理解了, 还是举例子来解释吧.
(ab|cd|ef)
"ab", "cd", "ef"中的任一个
[a-zA-Z]+
只包括字母的单词
[A-Z][a-z]*
第一个字母是大写的单词
\d+\.?\d*
表示一个数字
[a-z]{4}
四个小写字母
[+-]?\d*\.\d{1,6}
小数点后有16位的数
.|\n
任何字符
.*
一行
^\s*$
空行
使用UrlRewriteFilter动态URL静态化

(方法一)

假设你已经使用mod_jk2.so整合了Apache2.05x与Tomcat5.x
要完成的功能如下重定向:
1. 修改Apache2\conf\httpd.conf文件,加载mod_rewrite.so
LoadModule rewrite_module modules/mod_rewrite.so

2.
在每个虚拟主机的地方设置Rewrite参数
<VirtualHost *:80>
    ServerAdmin wiseweidong@gmail.com
    DocumentRoot "I:/Job/Java"
    ServerName localhost
    RewriteEngine on
    RewriteRule /([0-9]+).html /test.jsp?id=$1 [PT]
    RewriteRule /([0-9]+)_([0-9]+).html /content.jsp?id=$1&id2=$2 [PT]
</VirtualHost>
 楼主| 发表于 2009-3-9 11:08:31 | 显示全部楼层
(方法二)
    所用基于动态的url http://www.nihaoblog.com/content.jsp?id=1&contentid=404按照各大搜索引擎的喜好,应该美化成http://www.nihaoblog.com/content/1_404.html静态网页的方式,尽管目前的google及几大搜索引擎宣称支持动态页网的抓取,但与传统的html文件相比较抓取率仍不在一个数量级。Apche的mod_rewrite模块具有此功能,但是对于租用虚拟主机的用户来说就比较麻烦不太可能对所有运营商有更多的要求,需要条件依赖就不具通用性。
    目前有一个解决方法,通过UrlRewriteFilter可以完全实现动态URL表态化,你可以将它直接应用到你的web应用中,不管你用的是jsp+javabean还是struts.
   
下面是使用方法:
    1、下载http://tuckey.org/urlrewrite/#download目前版本是1.2,解压缩后将文件考到相应的web-inf/lib和web-inf下,。
    2、配置web.xml
<filter>
       <filter-name>UrlRewriteFilter</filter-name>
       <filter-class>org.tuckey.web.filters.urlrewrite.UrlRewriteFilter</filter-class>
</filter>
<filter-mapping>
       <filter-name>UrlRewriteFilter</filter-name>
       <url-pattern>/*</url-pattern>
</filter-mapping>
根据自己的需要,将相应目录下的url转给UrlRewriteFilter来处理。
    3、配置urlwrite规则文件WEB-INF/urlrewrite.xml
http://www.nihaoblog.com/content.jsp?id=1&contentid=404
静态化为:
http://www.nihaoblog.com/content/1_404.html
配置如下:
<rule>
    <from>/content/([0-9]+)_([0-9]+).html</from>
    <to>/content.jsp?id=$1&amp;contentid=$2</to>
</rule>
RewriteRule
Syntax: RewriteRule Pattern Substitution [flags]
  一条RewriteRule指令,定义一条重写规则,规则间的顺序非常重要。对Apache1.2及以后的版本,模板(pattern)是一个POSIX正则式,用以匹配当前的URL。当前的URL不一定是用记最初提交的URL,因为可能用一些规则在此规则前已经对URL进行了处理。
  对mod_rewrite来说,!是个合法的模板前缀,表示“非”的意思,这对描述“不满足某种匹配条件”的情况非常方便,或用作最后一条默认规则。当使用!时,不能在模板中有分组的通配符,也不能做后向引用。
  当匹配成功后,Substitution会被用来替换相应的匹配,它除了可以是普通的字符串以外,还可以包括:
$N,引用RewriteRule模板中匹配的相关字串,N表示序号,N=0..9
%N,引用最后一个RewriteCond模板中匹配的数据,N表示序号
%{VARNAME},服务器变量
${mapname:key|default},映射函数调用
这些特殊内容的扩展,按上述顺序进行。
  一个URL的全部相关部分都会被Substitution替换,而且这个替换过程会一直持续到所有的规则都被执行完,除非明确地用L标志中断处理过程。
  当susbstitution有”-”前缀时,表示不进行替换,只做匹配检查。
  利用RewriteRule,可定义含有请求串(Query String)的URL,此时只需在Sustitution中加入一个?,表示此后的内容放入QUERY_STRING变量中。如果要清空一个QUERY_STRING变量,只需要以?结束Substitution串即可。
  如果给一个Substitution增加一个http://thishost[:port]的前缀,则mod_rewrite会自动将此前缀去掉。因此,利用http://thisthost做一个无条件的重定向到自己,将难以奏效。要实现这种效果,必须使用R标志。
  Flags是可选参数,当有多个标志同时出现时,彼此间以逗号分隔。
'redirect|R [=code]' (强制重定向)
  给当前的URI增加前缀http://thishost[:thisport]/, 从而生成一个新的URL,强制生成一个外部重定向(external redirection,指生的URL发送到客户端,由客户端再次以新的URL发出请求,虽然新URL仍指向当前的服务器). 如果没有指定的code值,则HTTP应答以状态值302 (MOVED TEMPORARILY),如果想使用300-400(不含400)间的其它值可以通过在code的位置以相应的数字指定,也可以用标志名指定: temp (默认值), permanent, seeother.
  注意,当使用这个标志时,要确实substitution是个合法的URL,这个标志只是在URL前增加http://thishost[:thisport]/前缀而已,重写操作会继续进行。如果要立即将新URL重定向,用L标志来中重写流程。
'forbidden|F' (强制禁止访问URL所指的资源)
  立即返回状态值403 (FORBIDDEN)的应答包。将这个标志与合适的RewriteConds 联合使用,可以阻断访问某些URL。
'gone|G' (强制返回URL所指资源为不存在(gone))
  立即返回状态值410 (GONE)的应答包。用这个标志来标记URL所指的资源永久消失了.
# 'proxy|P' (强制将当前URL送往代理模块(proxy module))
  这个标志,强制将substitution当作一个发向代理模块的请求,并立即将共送往代理模块。因此,必须确保substitution串是一个合法的URI (如, 典型的情况是以http://hostname开头),否则会从代理模块得到一个错误. 这个标志,是ProxyPass指令的一个更强劲的实现,将远程请求(remote stuff)映射到本地服务器的名字空间(namespace)中来。
  注意,使用这个功能必须确保代理模块已经编译到Apache 服务器程序中了. 可以用“httpd -l ”命令,来检查输出中是否含有mod_proxy.c来确认一下。如果没有,而又需要使用这个功能,则需要重新编译``httpd''程序并使用mod_proxy有效。
'last|L' (最后一条规则)
  中止重写流程,不再对当前URL施加更多的重写规则。这相当于perl的last命令或C的break命令。
'next|N' (下一轮)
  重新从第一条重写规则开始执行重写过程,新开的过程中的URL不应当与最初的URL相同。 这相当于Perl的next命令或C的continue命令. 千万小心不要产生死循环。
# 'chain|C' (将当前的规则与其后续规则綑绑(chained))
  当规则匹配时,处理过程与没有綑绑一样;如果规则不匹配,则綑绑在一起的后续规则也不在检查和执行。
'type|T=MIME-type' (强制MIME类型)
  强制将目标文件的MIME-type为某MIME类型。例如,这可用来模仿mod_alias模块对某目录的ScriptAlias指定,通过强制将该目录下的所有文件的类型改为 “application/x-httpd-cgi”.
'nosubreq|NS' (used only if no internal sub-request )
  这个标志强制重写引擎跳过为内部sub-request的重写规则.例如,当mod_include试图找到某一目录下的默认文件时 (index.xxx),sub-requests 会在Apache内部发生. Sub-requests并非总是有用的,在某些情况下如果整个规则集施加到它上面,会产生错误。利用这个标志可排除执行一些规则。
'nocase|NC' (模板不区分大小写)
  这个标志会使得模板匹配当前URL时忽略大小写的差别。
'qsappend|QSA' (追加请求串(query string))
  这个标志,强制重写引擎为Substitution的请求串追加一部分串,则不是替换掉原来的。借助这个标志,可以使用一个重写规则给请求串增加更多的数据。
'noescape|NE' (不对输出结果中的特殊字符进行转义处理)
  通常情况下,mod_write的输出结果中,特殊字符(如'%', '$', ';', 等)会转义为它们的16进制形式(如分别为'%25', '%24', and '%3B')。这个标志会禁止mod_rewrite对输出结果进行此类操作。 这个标志只能在 Apache 1.3.20及以后的版本中使用。
'passthrough|PT' (通过下一个处理器)
  这个标志强制重写引擎用filename字段的值来替换内部request_rec数据结构中uri字段的值。. 使用这个标志,可以使后续的其它URI-to-filename转换器的Alias、ScriptAlias、Redirect等指令,也能正常处理RewriteRule指令的输出结果。用一个小例子来说明它的语义:如果要用mod_rewrite的重写引擎将/abc转换为/def,然后用mod_alas将/def重写为ghi,则要:
RewriteRule ^/abc(.*) /def$1 [PT]
Alias /def /ghi
如果PT标志被忽略,则mod_rewrite也能很好完成工作,如果., 将 uri=/abc/... 转换为filename=/def/... ,完全符合一个URI-to-filename转换器的动作。接下来 mod_alias 试图做 URI-to-filename 转换时就会出问题。
注意:如果要混合都含有URL-to-filename转换器的不同的模块的指令,必须用这个标志。最典型的例子是mod_alias和mod_rewrite的使用。
'skip|S=num' (跳过后面的num个规则)
  当前规则匹配时,强制重写引擎跳过后续的num个规则。用这个可以来模仿if-then-else结构:then子句的最后一条rule的标志是skip=N,而N是else子句的规则条数。
'env|E=VAR:VAL' (设置环境变量)
  设置名为VAR的环境变量的值为VAL,其中VAL中可以含有正则式的后向引用($N或%N)。这个标志可以使用多次,以设置多个环境变量。这儿设置的变量,可以在多种情况下被引用,如在XSSI或CGI中。另外,也可以在RewriteCond模板中以%{ENV:VAR}的形式被引用。

注意:一定不要忘记,在服务器范围内的配置文件中,模板(pattern)用以匹配整个URL;而在目录范围内的配置文件中,目录前缀总是被自动去掉后再进行模板匹配的,且在替换完成后自动再加上这个前缀。这个功能对很多种类的重写是非常重要的,因为如果没有去前缀,则要进行父目录的匹配,而父目录的信息并不是总能得到的。一个例外是,当substitution中有http://打头时,则不再自动增加前缀了,如果P标志出现,则会强制转向代理。
注意:如果要在某个目录范围内启动重写引擎,则需要在相应的目录配置文件中设置“RewriteEngine on”,且目录的“Options FollowSymLinks”必须设置。如果管理员由于安全原因没有打开FollowSymLinks,则不能使用重写引擎。
注:顺序
下表从最高优先级到最低优先级列出各种正则表达式操作符的优先权顺序:

操作符描述

\ 转义符

(), (?:), (?=), [] 圆括号和方括号

*, +, ?, {n}, {n,}, {n,m} 限定符

^, $, \anymetacharacter 位置和顺序

| “或”操作
RewriteRule news/(\d+)\.html news\.php\?id=$1 [N,L]
这样就实现了将http://localhost/news/1000.html 解析为 http://localhost/news.php?id=1000的功能
http://211.100.227.106:8080/wp-c ... t=watch&cid=714
index/[a-zA-Z]/[a-zA-Z]/(\d+)_(\d+)\.html index\.jsp\?mod=$1&act=$2&cid=
RewriteRule ^(power([^/]*))/([^/]+)\.htm(l?)$ series\.php\?fclassname=$1&fb_babrand=$3 [NC]
$ 匹配输入字符串的结束位置。如
将URL http://host/test.jps?id=1 重定向为 http://host/1.html
将URL http://host/conent.jsp?id=1&id2=3 重定向为 http://host/1_3.html
RewriteEngine on
    RewriteRule /([0-9]+).html /test.jsp?id=$1 [PT]
    RewriteRule /([0-9]+)_([0-9]+).html /content.jsp?id=$1&id2=$2 [PT]
index.jsp?lid=2&mod=free&act=watch&cid=714&mid=112312&type=adlska
index/lang/mod/act/type/cid_mid.html
RewriteRule index/(\d+\.?\d*)/(a-z)/(a-z)/(a-z)/([0-9]+)_([0-9]+).html /index.jsp?lid=$1&mod=&2&act=$3&type=$4&cid=$5&mid=$6 [PT]
RewriteRule index/(a-z)/(a-z)/(a-z)/([0-9]+)_([0-9]+).html /index.jsp?mod=&1&act=$2&type=$3&cid=$4&mid=$5 [PT]
RewriteRule /(a-z)/(a-z)/([0-9]+)_([0-9]+).html /?mod=&1&act=$2&cid=$3&mid=$4 [PT]
index.jsp?mod=free&act=watch&cid=714
index.jsp?mod=free&act=watch
index.jsp?mod=free
              
               RewriteRule ^([^/]+)/([^/]+)/(\d+)_(\d+).html$ /index.jsp?mod=$1&act=$2&cid=$3&mid=$4
RewriteRule ^([^/]+)/([^/]+)/([^/]+)/(\d+)_(\d+).html$ /index.jsp?lid=$1&mod=$2&act=$3&cid=$4&mid=$5
         
RewriteRule ^([^/]+)/([^/]+)/(\d+).html$ /index.jsp?mod=$1&act=$2&cid=$3
RewriteRule ^([^/]+)/([^/]+)/(\d+)/(\d+).html$ /index.jsp?lid=$1&mod=$2&act=$3&cid=$4
        
RewriteRule ^(\d+)/(\d+).html$ /index.jsp?mod=$1&act=$2
RewriteRule ^(\d+)/([^/]+)/([^/]+).html$ /index.jsp?lid=$1&mod=$2&act=$3
      
RewriteRule ^([^/]+).html$ /index.jsp?mod=$1
RewriteRule ^(\d+)/([^/]).html$ /index.jsp?lid=$1&mod=$2
发表于 2009-3-9 13:21:58 | 显示全部楼层
支持楼上,看得我头晕
发表于 2009-3-9 13:25:00 | 显示全部楼层
是有些晕,呵呵,不过还是很感谢.
发表于 2009-3-9 13:33:55 | 显示全部楼层
占个位,慢慢看
发表于 2011-11-16 17:29:40 | 显示全部楼层
看的晕死了

本版积分规则