对于使用通配符和元字符的字段,Posix 正则表达式用于匹配或捕获字段的若干部分。它们通常用于文本操作任务。Google Analytics(分析)中包括的多数过滤器使用这些表达式匹配数据并在找到匹配数据后执行操作。例如,排除过滤器专用于该过滤器中的正则表达式与该过滤器所指定字段中包含的数据匹配时排除点击。
正则表达式是包含字符、数字和通配符的文字字符串。下表列出了常见的通配符。注意,在使用这些通配符字符时,请使用反斜杠""作为转义字符。例如,在输入www.google.com/intl/zh-CN/ 时,请用反斜杠作为句点的转义字符:www.google.com/intl/zh-CN/
通配符含义
. 匹配所有单个字符 * 匹配以前的 0 个或多个项目 + 匹配以前的 1 个或多个项目 ? 匹配以前的 0 个或 1 个项目 () 将括号中的内容记忆为项目 [] 匹配此列表中的 1 个项目 – 在列表中创建范围 | 或 ^ 匹配到字段开头处 $ 匹配到字段结尾处 作为以上所有文字字符的转义字符
正则表达式注意事项
- 正则表达式应尽量简单。与简单表达式相比,复杂表达的处理或匹配需要更多时间。
- 如果可能,请避免使用 .*,因为此表达式与任何内容都匹配,会降低表达式的处理速度。例如,如果需要匹配 index.html,请使用 index.html 而不要用 .*index.html.*。
- 如果可能,将各种方案组合使用。例如,要匹配文件扩展名或 .gif、.jpg 和 .png,请使用.(gif|jpg|png) 而不是 .gif|.jpg|.png。
- 如果要匹配这些文字字符,请务必使用正则表达式通配符或元字符的转义字符。
- 只要可能,请使用定位符。定位符指 ^ 和 $,分别用于匹配表达式开头或结尾。尽可能使用定位符可加快处理速度。例如,要匹配 /abc/xyz 中的 abc目录,请使用 ^/abc/ 而不是 /abc/。使用 ^ 可强制从开头处匹配表达式,从而加快处理速度。