正则表达式初探Java String regex Grok

前言

什么是正则表达式?不同的网站的解释略有差别。在此我引用 wikipedia 的版本:In theoretical computer science and formal language theory,a regular expression (sometimes called a rational expression) is a sequence of characters that define a search pattern,mainly for use in pattern matching with strings,or string matching,i.e. “find and replace”-like operations. 直译过来就是:一个字符的序列,它定义了一个搜索模式

很多编程语言内置了regex ( regular expression 的缩写 ) 的功能(都是一些大神写的算法,我们凡人学会使用就行了),不同的语言在语法定义上略有不同。我初次学习正则表达式,是基于 java 的正则表达式。

来几个有用的网址。

Java 正则表达式中文学习网站
Java 正则表达式 English 学习网站
在线测试 Grok 正则表达式网站
Grok 正则表达式学习
BM 算法详解,传说中的 Ctrl + F ?

talk is cheap,show me the code

String 的 regex

String 有 4 个方法用到了 regex : matches( ),split( ),replaceFirst( ),replaceAll( )

package regextest;

public class RegexTestStrings
{
    public final static String EXAMPLE_TEST = 
    "This is my small example string which I'm going to use for pattern matching .";

    public static void main(String[] args)
    {
        // 判断是否是:第一个字符是‘word字符’的字符串
        System.out.println(EXAMPLE_TEST.matches("\\w.*")); 

        // 用 white spaces 拆开字符串,返回拆开后的String数组
        String[] splitString = (EXAMPLE_TEST.split("\\s+")); 
        System.out.println(splitString.length);
        for (String string : splitString)
        {
            System.out.println(string);
        }

        // 把符合正则式"\\s+"的字符串,全部替换成"才"
        System.out.println(EXAMPLE_TEST.replaceFirst("\\s+","才")); 

        // 把符合正则式"\\s+"的字符串,全部替换成"才"
        System.out.println(EXAMPLE_TEST.replaceAll("\\s+","才")); 
    }
}

输出结果:

true
15
This
is
my
small
example
string
which
I'm
going
to
use
for
pattern
matching
.
This才is my small example string which I'm going to use for pattern matching   .
This才is才my才small才example才string才which才I'm才going才tousefor才pattern才matching才.

java. util. regex

import java.util.regex.Matcher 和 java.util.regex.Pattern,里面有很多方法可以用

package regextest;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{

    public static void main(String[] args)
    {
        String line = "The price for iPhone is 5288,which is a little expensive.";
        // 提取字符串中的唯一的数字,圆括号是用来分组的, ^ 是“取反”的意思
        String regex = "(.*[^\\d])(\\d+)(.*)";

        // 创建 Pattern 对象
        Pattern pattern = Pattern.compile(regex);

        // 创建 matcher 对象
        Matcher mather = pattern.matcher(line);

        if (mather.find())
        {
            System.out.println("Found value: " + mather.group(2));
        }
        else
        {
            System.out.println("NO MATCH");
        }
    }

}

输出结果:

Found value: 5288

grok 更加强大的 regex

在 Matcher,Pattern 的基础上, import 了很多包;进行了升级,可以调用的方法更多,更加强大。

import com.google.code.regexp.Matcher;
import com.google.code.regexp.Pattern;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;
import org.apache.commons.lang3.StringUtils;

某网站对Grok的定义:
Java Grok is simple tool that allows you to easily parse logs and other files (single line). With Java Grok,you can turn unstructured log and event data into structured data (JSON).

Java Grok program is a great tool for parsing log data and program output. You can match any number of complex patterns on any number of inputs (processes and files) and have custom reactions.

一个简单的例子:从日志文件中读取数据,提取想要的信息:一是时间,二是来源IP

输入:

Mon Nov  9 06:47:33 2015; UDP; eth1; 461 bytes; from 88.150.240.169:tag-pm to 123.40.222.170:sip
Mon Nov  9 06:47:34 2015; UDP; eth1; 463 bytes; from 88.150.240.169:49208 to 123.40.222.170:sip
Mon Nov  9 06:47:34 2015; UDP; eth1; 463 bytes; from 88.150.240.169:54159 to 123.40.222.170:sip
Mon Nov  9 06:47:34 2015; UDP; eth1; 463 bytes; from 88.150.240.169:53640 to 123.40.222.170:sip
Mon Nov  9 06:47:34 2015; UDP; eth1; 463 bytes; from 88.150.240.169:52483 t
package com.yz.utils.grok.api;

import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;

public class GrokTest
{

        public static void main(String[] args)
        {
            FileInputStream   fiStream = null;
            InputStreamReader iStreamReader = null;
            BufferedReader    bReader = null; 
            //用于包装InputStreamReader,提高处理性能。因为BufferedReader有缓冲的,而InputStreamReader没有。

        try
        {
            String line = "";
            // 从文件系统中的某个文件中获取字节
            fiStream = new FileInputStream("C:\\dev1\\javagrok\\javagrok\\iptraf_eth1_15.06.11"); 

            // InputStreamReader 是字节流通向字符流的桥梁
            iStreamReader = new InputStreamReader(fiStream); 

            // 从字符输入流中读取文件中的内容,封装了一个new InputStreamReader的对象
            bReader = new BufferedReader(iStreamReader); 

            Grok grok = new Grok();
            // Grok 提供了很多现成的pattern,可以直接拿来用。用已有的pattern,来构成新的pattern。
             grok.addPatternFromFile("c:\\dev1\\cloudshield\\patterns\\patterns"); 

            grok.addPattern("fromIP","%{IPV4}");
            // compile 一个 pattern,期间我被空格坑了一下
            grok.compile(".*%{MONTH}\\s+%{MONTHDAY}\\s+%{TIME}\\s+%{YEAR}.*%{fromIP}.* to 123.40.222.170:sip"); 
            Match match = null;

            while((line = bReader.readLine()) != null)       // 注意这里的括号,被坑了一次
            {
                match = grok.match(line);
                match.captures();
                if(!match.isNull())
                {
                    System.out.print(match.toMap().get("YEAR").toString() + " ");
                    System.out.print(match.toMap().get("MONTH").toString() + " ");
                    System.out.print(match.toMap().get("MONTHDAY").toString() + " ");
                    System.out.print(match.toMap().get("TIME").toString() + " ");
                    System.out.print(match.toMap().get("fromIP").toString() + "\n");
                }
                else
                {
                    System.out.println("NO MATCH");
                }
            }

        }
        catch (FileNotFoundException fnfe)
        {
            System.out.println("file not found exception");
            fnfe.printStackTrace();
        }
        catch (IOException ioe)
        {
            System.out.println("input/output exception");
            ioe.printStackTrace();
        }
        catch (Exception e)
        {
            System.out.println("unknown exception");
            e.printStackTrace();
        }
        finally
        {
            try
            {
                bReader.close();
                iStreamReader.close();
                fiStream.close();
            }
            catch(IOException ioe)
            {
                System.out.println("input/output exception");
                ioe.printStackTrace();
            }
        }
    }

}

输出:

2015 Nov 9 06:47:33 88.150.240.169
2015 Nov 9 06:47:34 88.150.240.169
2015 Nov 9 06:47:34 88.150.240.169
2015 Nov 9 06:47:34 88.150.240.169
NO MATCH

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


jquery.validate使用攻略(表单校验) 目录 jquery.validate使用攻略1 第一章 jquery.validate使用攻略1 第二章 jQuery.validate.js API7 Custom selectors7 Utilities8 Validato
/\s+/g和/\s/g的区别 正则表达式/\s+/g和/\s/g,目的均是找出目标字符串中的所有空白字符,但两者到底有什么区别呢? 我们先来看下面一个例子: let name = 'ye wen jun';let ans = name.replace(/\s/g, '&#3
自整理几个jquery.Validate验证正则: 1. 只能输入数字和字母 /^[0-9a-zA-Z]*$/g jQuery.validator.addMethod("letters", function (value, element) { return this.optio
this.optional(element)的用法 this.optional(element)是jquery.validator.js表单验证框架中的一个函数,用于表单控件的值不为空时才触发验证。 简单来说,就是当表单控件值为空的时候不会进行表单校验,此函数会返回true,表示校验通过,当表单控件
jQuery.validate 表单动态验证 实际上jQuery.validate提供了动态校验的方法。而动态拼JSON串的方式是不支持动态校验的。牺牲jQuery.validate的性能优化可以实现(jQuery.validate的性能优化见图1.2 jQuery.validate源码 )。 也可
自定义验证之这能输入数字(包括小数 负数 ) <script type="text/javascript"> function onlyNumber(obj){ //得到第一个字符是否为负号 var t = obj.value.charAt(0); //先把非数字的都
// 引入了外部的验证规则 import { validateAccountNumber } from "@/utils/validate"; validator.js /*是否合法IP地址*/ export function validateIP(rule, value,cal
VUE开发--表单验证(六十三) 一、常用验证方式 vue 中表单字段验证的写法和方式有多种,常用的验证方式有3种: data 中验证 表单内容: <!-- 表单 --> <el-form ref="rulesForm" :rules="formRul
正则表达式 座机的: 例子: 座机有效写法: 0316-8418331 (010)-67433539 (010)67433539 010-67433539 (0316)-8418331 (0316)8418331 正则表达式写法 0\d{2,3}-\d{7,8}|\(?0\d{2,3}[)-]?\d
var reg = /^0\.[1-9]{0,2}$/;var linka = 0.1;console.log (reg.test (linka)); 0到1两位小数正则 ^(0\.(0[1-9]|[1-9]{1,2}|[1-9]0)$)|^1$ 不含0、0.0、0.00 // 验证是否是[1-10
input最大长度限制问题 <input type="text" maxlength="5" /> //可以 <input type="number" maxlength="5" /> //没有效
js输入验证是否为空、是否为null、是否都是空格 目录 1.截头去尾 trim 2.截头去尾 会去掉开始和结束的空格,类似于trim 3.会去掉所有的空格,包括开始,结束,中间 1.截头去尾 trim str=str.trim(); // 强烈推荐 最常用、最实用 or $.trim(str);
正则表达式语法大全 字符串.match(正则):返回符合的字符串,若不满足返回null 字符串.search(正则):返回搜索到的位置,若非一个字符,则返回第一个字母的下标,若不匹配则返回-1 字符串.replace(正则,新的字符串):找到符合正则的内容并替换 正则.test(字符串):在字符串中
正整数正则表达式正数的正则表达式(包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+\d)|0)$正数的正则表达式(不包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+
JS 正则验证 test() /*用途:检查输入手机号码是否正确输入:s:字符串返回:如果通过验证返回true,否则返回false /function checkMobile(s){var regu =/[1][3][0-9]{9}$/;var re = new RegExp(regu);if (r
请输入保留两位小数的销售价的正则: /(^[1-9]([0-9]+)?(\.[0-9]{1,2})?$)|(^(0){1}$)|(^[0-9]\.[0-9]([0-9])?$)/ 1.只能输入英文 <input type="text" onkeyup="value
判断价格的正则表达式 价格的正则表达式 /(^[1-9]\d*(\.\d{1,2})?$)|(^0(\.\d{1,2})?$)/; 1 解析:价格符合两种格式 ^ [1-9]\d*(.\d{1,2})?$ : 1-9 开头,后跟是 0-9,可以跟小数点,但小数点后要带上 1-2 位小数,类似 2,2
文章浏览阅读106次。这篇文章主要介绍了最实用的正则表达式整理,比如校验邮箱的正则,号码相关,数字相关等等,本文给大家列举的比较多,需要的朋友可以参考下。_/^(?:[1-9]d*)$/ 手机号
文章浏览阅读1.2k次。4、匹配中的==、an==、== an9、i9 == "9i"和99p==请注意下面这部分的作用,它在匹配中间内容的时候排除了说明:当html字符串如下时,可以匹配到两处,表示匹配的字符串不包含and且不包含空白字符。说明:在上面的正则表达式中,_gvim正则表达式匹配不包含某个字符串
文章浏览阅读897次。【代码】正则表达式匹配a标签的href。_auto.js 正则匹配herf