Java String类源码阅读笔记

@



本文基于jdk1.8


String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。


一、前置

String类是Java中非常特别的一个类,虽然不是基本数据类型,但是通过一些处理,又在引用数据类型里比较特别,在学习之前,先了解一些JVM的知识。

在这里插入图片描述

  • Method Area:方法区,当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后把这些类型信息(包括类信息、常量、静态变量等)放到方法区中,该内存区域被所有线程共享,本地方法区存在一块特殊的内存区域,叫常量池(Constant Pool)。
  • Heap:堆是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,Java中的。
  • Stack:栈,又叫堆栈或者虚拟机栈。JVM为每个新创建的线程都分配一个栈。也就是说,对于一个Java程序来说,它的运行就是通过对栈的操作来完成的。栈以帧为单位保存线程的状态。JVM对栈只进行两种操作:以帧为单位的压栈和出栈操作。我们知道,某个线程正在执行的方法称为此线程的当前方法。
  • Program Count Register:程序计数器,又叫程序寄存器。JVM支持多个线程同时运行,当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)。如果线程正在执行的是一个Java方法(非native),那么PC寄存器的值将总是指向下一条将被执行的指令,如果方法是 native的,程序计数器寄存器的值不会被定义。 JVM的程序计数器寄存器的宽度足够保证可以持有一个返回地址或者native的指针。
  • Native Stack:本地方法栈,存储本地方方法的调用状态。

常量池(constant pool)指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据。它包括了关于类、方法、接口等中的常量,也包括字符串常量。Java把内存分为堆内存跟栈内存,前者主要用来存放对象,后者用于存放基本类型变量以及对象的引用。


二、String类源码解析

1、String类继承关系

public final class String
    implements java.io.Serializable,Comparable<String>,CharSequence {

看看String类的定义:

  • String是一个final类,既不能被继承的类
  • String类实现了java.io.Serializable接口,可以实现序列化
  • String类实现了Comparable<String>,可以用于比较大小(按顺序比较单个字符的ASCII码)
  • String类实现了 CharSequence 接口,表示是一个有序字符的序列,因为String的本质是一个char类型数组

String类继承关系如下图:

在这里插入图片描述


String类详细继承关系如下图:

在这里插入图片描述


2、成员变量

首先看看String类有哪些成员变量:

//用于字符存储的不可变字符数组
private final char value[];
// 缓存字符串的哈希码
private int hash;   //默认为0
//实现序列化的标识
private static final long serialVersionUID = -6849794470754667710L;

这些成员变量里需要重点关注:

  • private final char value[] 这是String字符串的本质,是一个字符集合,而且是final的,是不可变的。

3、构造方法

  • 无参构造方法
   /**
   * 初始化String对象,将""空字符串的value赋值给实例对象的value,也是空字符,因为字符串是不可变的,所以不需要用这个方法
   * 
   */
    public String() {
        this.value = "".value;
    }

示例:

String str = new String()
str = "hello";
  • 1.先创建了一个空的String对象
  • 2.接着又在常量池中创建了一个"hello",并赋值给第二个String
  • 3.将第二个String的引用传递给第一个String
    这种方式实际上创建了两个对象

  • 参数为String的有参构造方法
  /**
  *  参数为一个String对象
  * 将形参的value和hash赋值给实例对象作为初始化
  * 相当于深拷贝了一个形参String对象
  */
    public String(String original) {
        this.value = original.value;
        this.hash = original.hash;
    }

示例:

String str=new String("hello")

创建了一个对象。


  • 参数为字符数组的有参构造方法
   /**
    * 参数为一个char字符数组
    * 将数组值拷贝赋给不可变字符数组
    * 这里为什么不直接赋值呢?
    * 因为参数char value[]是可变的,如果直接赋值,当参数数组发生变化时,就会影响到新生成的String对象,着就破坏的String的“不可变性”。 
   */
    public String(char value[]) {
        this.value = Arrays.copyOf(value,value.length);
    }

  • 参数为字符数组(指定起止位置)的有参构造方法
   /**
   *  参数为char字符数组,offset(起始位置,偏移量),count(个数)
   * 在char数组的基础上,从offset位置开始计数count个,构成一个新的String的字符串
   **/
    public String(char value[],int offset,int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= value.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > value.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }
        this.value = Arrays.copyOfRange(value,offset,offset+count);
    }

  • 参数为int数组(指定起止位置)的有参构造方法
  	/** 
	* 参数为int字符数组,count(个数)
	* int数组的元素则是字符对应的ASCII整数值
	*/
    public String(int[] codePoints,int count) {
        if (offset < 0) {
            throw new StringIndexOutOfBoundsException(offset);
        }
        if (count <= 0) {
            if (count < 0) {
                throw new StringIndexOutOfBoundsException(count);
            }
            if (offset <= codePoints.length) {
                this.value = "".value;
                return;
            }
        }
        // Note: offset or count might be near -1>>>1.
        if (offset > codePoints.length - count) {
            throw new StringIndexOutOfBoundsException(offset + count);
        }

        final int end = offset + count;

        // Pass 1: Compute precise size of char[]
        int n = count;
        for (int i = offset; i < end; i++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                continue;
            else if (Character.isValidCodePoint(c))
                n++;
            else throw new IllegalArgumentException(Integer.toString(c));
        }

        // Pass 2: Allocate and fill in char[]
        final char[] v = new char[n];

        for (int i = offset,j = 0; i < end; i++,j++) {
            int c = codePoints[i];
            if (Character.isBmpCodePoint(c))
                v[j] = (char)c;
            else
                Character.toSurrogates(c,v,j++);
        }

        this.value = v;
    }

有一些标为过时我们就不再关注了。


  • 参数为byte数组(指定起止位置、字符编码)的有参构造方法
  	/** 
	* 参数为byte数组,长度,和字符编码格式
	* 传入一个byte数组,从offset开始截取length个长度,其字符编码格式为charsetName,如UTF-8
	*/
    public String(byte bytes[],int length,String charsetName)
            throws UnsupportedEncodingException {
        if (charsetName == null)
            throw new NullPointerException("charsetName");
        //判断byte数组是否越界    
        checkBounds(bytes,length);
        this.value = StringCoding.decode(charsetName,bytes,length);
    }

StringCoding类的decode方法:

    static char[] decode(String charsetName,byte[] ba,int off,int len)
        throws UnsupportedEncodingException
    {
        StringDecoder sd = deref(decoder);
        String csn = (charsetName == null) ? "ISO-8859-1" : charsetName;
        if ((sd == null) || !(csn.equals(sd.requestedCharsetName())
                              || csn.equals(sd.charsetName()))) {
            sd = null;
            try {
                Charset cs = lookupCharset(csn);
                if (cs != null)
                    sd = new StringDecoder(cs,csn);
            } catch (IllegalCharsetNameException x) {}
            if (sd == null)
                throw new UnsupportedEncodingException(csn);
            set(decoder,sd);
        }
        return sd.decode(ba,off,len);
    }

其余的从byte数组构造String的构造方法都是调用这个方法,这里就不再赘述。


  • 参数为StringBuffer的有参构造方法
   /**
   *  参数类型为StringBuffer,将StringBuffer值数组拷贝给String的值数组
   * 线程安全的
   **/
    public String(StringBuffer buffer) {
        synchronized(buffer) {
            this.value = Arrays.copyOf(buffer.getValue(),buffer.length());
        }
    }

使用StringBuilder为参数构造类似,不过不是线程安全的。


4、长度/判空

  • length()
   /**
   *  返回value数组的长度
   */
    public int length() {
        return value.length;
    }
  • isEmpty()
     /**
     *  value数组的长度是否为0
   */
    public boolean isEmpty() {
        return value.length == 0;
    }

5、取字符

  • charAt(int index)
   /**
   * 获取下标为index的value数组字符
   */
    public char charAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return value[index];
    }
  • codePointAt(int index)
   /**
    * 返回String对象的char数组index位置的元素的ASSIC码(int类型)
    */
    public int codePointAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointAtImpl(value,index,value.length);
    }
  • codePointBefore(int index)
   /**
    * 返回index位置元素的前一个元素的ASSIC码(int型)
    */
    public int codePointBefore(int index) {
        int i = index - 1;  //获得index前一个元素的索引位置
        if ((i < 0) || (i >= value.length)) { //所以,index不能等于0,因为i = 0 - 1 = -1
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointBeforeImpl(value,0);
    }
  • getChars(char dst[],int dstBegin)
   /**
    * 将value数组dstBegin下标起的字符拷贝给dst
    */
    void getChars(char dst[],int dstBegin) {
        System.arraycopy(value,dst,dstBegin,value.length);
    }

6、比较

  • equals(Object anObject)
   /**
   *  String的equals方法,重写了Object的equals方法(区分大小写)
   * 比较的是两个字符串的值是否相等
   * 参数是一个Object对象,而不是一个String对象。这是因为重写的是Object的equals方法,所以是Object
   */
    public boolean equals(Object anObject) {
        //如果较地址是否相等,是同一个对象
        if (this == anObject) {
            return true;
        }
        //判断anObject是否是String类型
        if (anObject instanceof String) {
           //将anObject转换为String类型
            String anotherString = (String)anObject;
            int n = value.length;
            //判断anotherString是否和当前String的value数组长度相同
            if (n == anotherString.value.length) {
                 //v1为当前String的值,v2为参数对象anotherString的值
                char v1[] = value;
                char v2[] = anotherString.value;
                int i = 0;
                //每次循环长度-1,直到长度消耗完,循环结束 
                while (n-- != 0) {
                   //相同下标位置字符串比较,有一个不相同,返回false
                    if (v1[i] != v2[i])
                        return false;
                    i++;
                }
                //如比较期间没有问题,则说明相等,返回true
                return true;
            }
        }
        return false;
    }
  • equalsIgnoreCase(String anotherString)
   	/**
	* 这也是一个String的equals方法,与上一个方法不用,该方法(不区分大小写),从名字也能看出来
	* 是对String的equals方法的补充。
	* 这里参数这是一个String对象,而不是Object了,因为这是String本身的方法,不是重写谁的方法
	*/
    public boolean equalsIgnoreCase(String anotherString) {
       //先判断是否为同一个对象
        return (this == anotherString) ? true
                : (anotherString != null)
                //再判断长度是否相等
                && (anotherString.value.length == value.length)
                //再调用regionMatchs方法 
                && regionMatches(true,anotherString,value.length);
    }
  • compareTo(String anotherString)
	/**
	* 这是一个比较字符串中字符大小的函数,因为String实现了Comparable<String>接口,所以重写了compareTo方法
	* Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。
	* 实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arrays.sort进行自动排序。
	* 
	* 参数是需要比较的另一个String对象
	* 返回的int类型,正数为大,负数为小,是基于字符的ASSIC码比较的
	* 
	*/
    public int compareTo(String anotherString) {
        int len1 = value.length;
        int len2 = anotherString.value.length;
        int lim = Math.min(len1,len2);
        char v1[] = value;
        char v2[] = anotherString.value;

        int k = 0;
        while (k < lim) {
            char c1 = v1[k];
            char c2 = v2[k];
            if (c1 != c2) {
                return c1 - c2;
            }
            k++;
        }
        return len1 - len2;
    }

7、包含

  • startsWith(String prefix,int toffset)
   	/**
	* 作用就是当前对象[toffset,toffset + prefix.value.lenght]区间的字符串片段等于prefix
	* 也可以说当前对象的toffset位置开始是否以prefix作为前缀
	* prefix是需要判断的前缀字符串,toffset是当前对象的判断起始位置
	*/
    public boolean startsWith(String prefix,int toffset) {
      //获得当前对象的值
        char ta[] = value;
        //获得需要判断的起始位置,偏移量
        int to = toffset;
        //获得前缀字符串的值
        char pa[] = prefix.value;
        int po = 0;
        int pc = prefix.value.length;
        // Note: toffset might be near -1>>>1.
        if ((toffset < 0) || (toffset > value.length - pc)) {
            return false;
        }
         //循环pc次,既prefix的长度
        while (--pc >= 0) {
        //每次比较当前对象的字符串的字符是否跟prefix一样
            if (ta[to++] != pa[po++]) {
                //一样则pc--,to++,po++,有一个不同则返回false
                return false;
            }
        }
        return true;
    }
  • startsWith(String prefix)
   // 判断当前对象[0,prefix.value.lenght]区间的字符串片段等于prefix。
    public boolean startsWith(String prefix) {
        return startsWith(prefix,0);
    }
  • endsWith(String suffix)
   //判断当前字符串对象是否以字符串prefix结尾
    public boolean endsWith(String suffix) {
        return startsWith(suffix,value.length - suffix.value.length);
    }
    //是否含有CharSequence这个子类元素,通常用于StrngBuffer,StringBuilder
    public boolean contains(CharSequence s) {
        return indexOf(s.toString()) > -1;
    }

8、hashCode

     /**
      * String类重写了Object类的hashCode方法。
      * 哈希表来实现的数据结构来使用,比如String对象要放入HashMap中。
      *
   */
    public int hashCode() {
       //hash是成员变量,所以默认为0
        int h = hash;
        ////如果hash为0,且字符串对象长度大于0,不为""
        if (h == 0 && value.length > 0) {
            //获取当前对象的value
            char val[] = value;
            // 通过算法s[0]31^(n-1) + s[1]31^(n-2) + ... + s[n-1]计算hash值 
            for (int i = 0; i < value.length; i++) {
                //每次都是31 * 每次循环获得的h +第i个字符的ASSIC码
                h = 31 * h + val[i];
            }
            hash = h;
        }
        return h;
    }

9、查询索引

  • indexOf(int ch,int fromIndex)
	/**
	 * index方法就是返回ch字符第一次在字符串中出现的位置
	 * 既从fromIndex位置开始查找,从头向尾遍历,ch整数对应的字符在字符串中第一次出现的位置
	 * -1代表字符串没有这个字符,整数代表字符第一次出现在字符串的位置
	 */
 public int indexOf(int ch,int fromIndex) {
        final int max = value.length;
        if (fromIndex < 0) {
            fromIndex = 0;
        } else if (fromIndex >= max) {
            // Note: fromIndex might be near -1>>>1.
            return -1;
        }
       ////一个char占用两个字节,如果ch小于2的16次方(65536),绝大多数字符都在此范围内
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            //从 fromIndex位置起遍历value数组
            for (int i = fromIndex; i < max; i++) {
                //存在相等的字符,返回第一次出现该字符的索引位置,并终止循环
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return indexOfSupplementary(ch,fromIndex);
        }
    }



      public int indexOf(int ch) {
        return indexOf(ch,0);//从第一个字符开始搜索
      }
  • indexOf(String str)

/**
	* 这是一个不对外公开的静态函数
	* source就是原始字符串,sourceOffset就是原始字符串的偏移量,起始位置。
	* sourceCount就是原始字符串的长度,target就是要查找的字符串。
	* fromIndex就是从原始字符串的第fromIndex开始遍历
	*
	*/
    static int indexOf(char[] source,int sourceOffset,int sourceCount,String target,int fromIndex) {
        return indexOf(source,sourceOffset,sourceCount,target.value,target.value.length,fromIndex);
    }

/**
	*
	* 从fromIndex开始遍历,返回第一次出现str字符串的位置
	*
	*/
    public int indexOf(String str,int fromIndex) {
        return indexOf(value,value.length,str.value,str.value.length,fromIndex);
    }

	/**
	* 返回第一次出现的字符串的位置
	*
	*/
    public int indexOf(String str) {
        return indexOf(str,0);
    }
  • lastIndexOf(int ch)
   /**
	* 从尾部向头部遍历,返回cn第一次出现的位置,value.length - 1就是起点 
	* 为了理解,我们可以认为是返回cn对应的字符在字符串中最后出现的位置
	*  
	* ch是字符对应的整数
	*/
    public int lastIndexOf(int ch) {
        return lastIndexOf(ch,value.length - 1);
    }
  • public int lastIndexOf(int ch,int fromIndex)
  /**
	* 从尾部向头部遍历,从fromIndex开始作为起点,返回ch对应字符第一次在字符串出现的位置
	* 既从头向尾遍历,返回cn对应字符在字符串中最后出现的一次位置,fromIndex为结束点
	*
	*/
    public int lastIndexOf(int ch,int fromIndex) {
        if (ch < Character.MIN_SUPPLEMENTARY_CODE_POINT) {
            // handle most cases here (ch is a BMP code point or a
            // negative value (invalid code point))
            final char[] value = this.value;
            int i = Math.min(fromIndex,value.length - 1);
            for (; i >= 0; i--) {
                if (value[i] == ch) {
                    return i;
                }
            }
            return -1;
        } else {
            return lastIndexOfSupplementary(ch,fromIndex);
        }
    }

10、获取子串

  • substring(int beginIndex)
   /**
	*  截取当前字符串对象的片段,组成一个新的字符串对象
	*  beginIndex为截取的初始位置,默认截到len - 1位置
	*/
    public String substring(int beginIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        int subLen = value.length - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        //利用构造函数生成新的String对象
        return (beginIndex == 0) ? this : new String(value,beginIndex,subLen);
    }
  • substring(int beginIndex,int endIndex)
   	/**
	* 截取一个区间范围
	* [beginIndex,endIndex),不包括endIndex
	*/
    public String substring(int beginIndex,int endIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        if (endIndex > value.length) {
            throw new StringIndexOutOfBoundsException(endIndex);
        }
        int subLen = endIndex - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        return ((beginIndex == 0) && (endIndex == value.length)) ? this
                : new String(value,subLen);
    }

11、拼接

  • concat(String str)
   /**
	* String的拼接函数
	* 例如:String  str = "abc"; str.concat("def")    output: "abcdef"
	*
	*/
    public String concat(String str) {
        int otherLen = str.length();
        if (otherLen == 0) {
            return this;
        }
        //获得当前String对象的长度 
        int len = value.length;
        //将数组扩容,将value数组拷贝到buf数组中,长度为len + str.lenght
        char buf[] = Arrays.copyOf(value,len + otherLen);
        //然后将str字符串从buf字符数组的len位置开始覆盖,得到一个完整的buf字符数组
        str.getChars(buf,len);
        //生成新的Strintg对象
        return new String(buf,true);
    }
  • join(CharSequence delimiter,CharSequence... elements)
   /**
   * 拼接CharSequence,包含String、StringBuilder、StringBuffer
   */
    public static String join(CharSequence delimiter,CharSequence... elements) {
        Objects.requireNonNull(delimiter);
        Objects.requireNonNull(elements);
        // Number of elements not likely worth Arrays.stream overhead.
        StringJoiner joiner = new StringJoiner(delimiter);
        for (CharSequence cs: elements) {
            joiner.add(cs);
        }
        return joiner.toString();
    }


12、替换

  • replace(char oldChar,char newChar)
   //替换,将字符串中的oldChar字符全部替换成newChar
    public String replace(char oldChar,char newChar) {
        if (oldChar != newChar) {
            int len = value.length;
            int i = -1;
            char[] val = value; /* avoid getfield opcode */
            //循环len次 
            while (++i < len) {
                //找到第一个旧字符,打断循环
                if (val[i] == oldChar) {
                    break;
                }
            }
            //如果第一个旧字符的位置小于len
            if (i < len) {
               //new一个字符数组,len个长度
                char buf[] = new char[len];
                for (int j = 0; j < i; j++) {
                   //把旧字符的前面的字符都复制到新字符数组上
                    buf[j] = val[j];
                }
                 //从i位置开始遍历
                while (i < len) {
                    char c = val[i];
                    //发现旧字符就替换,不相关的则直接复制
                    buf[i] = (c == oldChar) ? newChar : c;
                    i++;
                }
                //通过新字符数组buf重构一个新String对象
                return new String(buf,true);
            }
        }
        return this;
    }
  • replaceAll(String regex,String replacement)
   //当不是正规表达式时,与replace效果一样,都是全体换。如果字符串的正则表达式,则规矩表达式全体替换
    public String replaceAll(String regex,String replacement) {
        return Pattern.compile(regex).matcher(this).replaceAll(replacement);
    }

13、切割

  • split(String regex,int limit)
   /**
   *  根据切割符号切割字符串
   */
    public String[] split(String regex,int limit) {
      /* 1、单个字符,且不是".$|()[{^?*+\\"其中一个
       * 2、两个字符,第一个是"\",第二个大小写字母或者数字
       */
        char ch = 0;
        if (((regex.value.length == 1 &&
             ".$|()[{^?*+\\".indexOf(ch = regex.charAt(0)) == -1) ||
             (regex.length() == 2 &&
              regex.charAt(0) == '\\' &&
              (((ch = regex.charAt(1))-'0')|('9'-ch)) < 0 &&
              ((ch-'a')|('z'-ch)) < 0 &&
              ((ch-'A')|('Z'-ch)) < 0)) &&
            (ch < Character.MIN_HIGH_SURROGATE ||
             ch > Character.MAX_LOW_SURROGATE))
        {
            int off = 0;
            int next = 0;
            //大于0,limited==true,反之limited==false
            boolean limited = limit > 0;
            ArrayList<String> list = new ArrayList<>();
            while ((next = indexOf(ch,off)) != -1) {
            //当参数limit<=0 或者 集合list的长度小于 limit-1
                if (!limited || list.size() < limit - 1) {
                    list.add(substring(off,next));
                    off = next + 1;
                } else {    // last one
                    //判断最后一个list.size() == limit - 1
                    list.add(substring(off,value.length));
                    off = value.length;
                    break;
                }
            }
            //如果没有一个能匹配的,返回一个新的字符串,内容和原来的一样
            if (off == 0)
                return new String[]{this};

           // 当 limit<=0 时,limited==false,或者集合的长度 小于 limit是,截取添加剩下的字符串
            if (!limited || list.size() < limit)
                list.add(substring(off,value.length));

            // 当 limit == 0 时,如果末尾添加的元素为空(长度为0),则集合长度不断减1,直到末尾不为空
            int resultSize = list.size();
            if (limit == 0) {
                while (resultSize > 0 && list.get(resultSize - 1).length() == 0) {
                    resultSize--;
                }
            }
            String[] result = new String[resultSize];
            return list.subList(0,resultSize).toArray(result);
        }
        return Pattern.compile(regex).split(this,limit);
    }
  • split(String regex)
    public String[] split(String regex) {
        return split(regex,0);
    }

14、大小写转换

  • toLowerCase(Locale locale)
  /**
  * 将大写字符转换为小写
  */
  public String toLowerCase(Locale locale) {
        if (locale == null) {
            throw new NullPointerException();
        }

        int firstUpper;
        final int len = value.length;

        /* Now check if there are any characters that need to be changed. */
        scan: {
            for (firstUpper = 0 ; firstUpper < len; ) {
                char c = value[firstUpper];
                //判断字符是否大写
                if ((c >= Character.MIN_HIGH_SURROGATE)
                        && (c <= Character.MAX_HIGH_SURROGATE)) {
                    int supplChar = codePointAt(firstUpper);
                    if (supplChar != Character.toLowerCase(supplChar)) {
                        break scan;
                    }
                    firstUpper += Character.charCount(supplChar);
                } else {
                    if (c != Character.toLowerCase(c)) {
                        break scan;
                    }
                    firstUpper++;
                }
            }
            return this;
        }

        char[] result = new char[len];
        int resultOffset = 0;  /* result may grow,so i+resultOffset
                                * is the write location in result */

        /* Just copy the first few lowerCase characters. */
        System.arraycopy(value,result,firstUpper);

        String lang = locale.getLanguage();
        boolean localeDependent =
                (lang == "tr" || lang == "az" || lang == "lt");
        char[] lowerCharArray;
        int lowerChar;
        int srcChar;
        int srcCount;
        for (int i = firstUpper; i < len; i += srcCount) {
            srcChar = (int)value[i];
            if ((char)srcChar >= Character.MIN_HIGH_SURROGATE
                    && (char)srcChar <= Character.MAX_HIGH_SURROGATE) {
                srcChar = codePointAt(i);
                srcCount = Character.charCount(srcChar);
            } else {
                srcCount = 1;
            }
            if (localeDependent ||
                srcChar == '\u03A3' || // GREEK CAPITAL LETTER SIGMA
                srcChar == '\u0130') { // LATIN CAPITAL LETTER I WITH DOT ABOVE
                lowerChar = ConditionalSpecialCasing.toLowerCaseEx(this,i,locale);
            } else {
                lowerChar = Character.toLowerCase(srcChar);
            }
            if ((lowerChar == Character.ERROR)
                    || (lowerChar >= Character.MIN_SUPPLEMENTARY_CODE_POINT)) {
                if (lowerChar == Character.ERROR) {
                    lowerCharArray =
                            ConditionalSpecialCasing.toLowerCaseCharArray(this,locale);
                } else if (srcCount == 2) {
                    resultOffset += Character.toChars(lowerChar,i + resultOffset) - srcCount;
                    continue;
                } else {
                    lowerCharArray = Character.toChars(lowerChar);
                }

                /* Grow result if needed */
                int mapLen = lowerCharArray.length;
                if (mapLen > srcCount) {
                    char[] result2 = new char[result.length + mapLen - srcCount];
                    System.arraycopy(result,result2,i + resultOffset);
                    result = result2;
                }
                for (int x = 0; x < mapLen; ++x) {
                    result[i + resultOffset + x] = lowerCharArray[x];
                }
                resultOffset += (mapLen - srcCount);
            } else {
                result[i + resultOffset] = (char)lowerChar;
            }
        }
        return new String(result,len + resultOffset);
    }

15、去空格

  • trim()
   /**
	* 去除字符串首尾部分的空值,如,' ' or " ",非""
	* 原理是通过substring去实现的,首尾各一个指针
	* 头指针发现空值就++,尾指针发现空值就--
	* ' '的Int值为32,其实不仅仅是去空的作用,应该是整数值小于等于32的去除掉
	*/
    public String trim() {
        //代表尾指针,实际是尾指针+1的大小
        int len = value.length;
        //代表头指针
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */
        //st<len,且字符的整数值小于32则代表有空值,st++
        while ((st < len) && (val[st] <= ' ')) {
            st++;
        }
        //len - 1才是真正的尾指针,如果尾部元素的整数值<=32,则代表有空值,len--
        while ((st < len) && (val[len - 1] <= ' ')) {
            len--;
        }
        ////截取st到len的字符串(不包括len位置)
        return ((st > 0) || (len < value.length)) ? substring(st,len) : this;
    }

16、字符/字符串转换

  • toString()
    //返回自己
    public String toString() {
        return this;
    }
  • toCharArray()
   /**
   * 返回value数组的拷贝
   */
    public char[] toCharArray() {
        // Cannot use Arrays.copyOf because of class initialization order issues
        char result[] = new char[value.length];
        System.arraycopy(value,value.length);
        return result;
    }
  • valueOf(Object obj)
   //将Object转换为字符串
    public static String valueOf(Object obj) {
        return (obj == null) ? "null" : obj.toString();
    }

17、格式化

  • format(String format,Object... args)
   //JAVA字符串格式化
	//新字符串使用本地语言环境,制定字符串格式和参数生成格式化的新字符串。
    public static String format(String format,Object... args) {
        return new Formatter().format(format,args).toString();
    }
  • format(Locale l,String format,Object... args)
   //使用指定的语言环境,制定字符串格式和参数生成格式化的字符串。
    public static String format(Locale l,Object... args) {
        return new Formatter(l).format(format,args).toString();
    }


18、intern()

一个本地方法。

当调用intern方法时,如果池中已经包含一个与该String确定的字符串相同equals(Object)的字符串,则返回该字符串。否则,将此String对象添加到池中,并返回此对象的引用。

  public native String intern();

三、常量池

在查看构造函数的时候,我们知道最常见的两种声明一个字符串对象的形式有两种:

①、通过“字面量”的形式直接赋值

String str = "hello";

②、通过 new 关键字调用构造函数创建对象

String str = new String("hello");

这两种声明方式有什么区别呢?首先了解 JDK1.7(不包括1.7)以前的 JVM 的内存分布:

在这里插入图片描述

  • ①、程序计数器:也称为 PC 寄存器,保存的是程序当前执行的指令的地址(也可以说保存下一条指令的所在存储单元的地址),当CPU需要执行指令时,需要从程序计数器中得到当前需要执行的指令所在存储单元的地址,然后根据得到的地址获取到指令,在得到指令之后,程序计数器便自动加1或者根据转移指针得到下一条指令的地址,如此循环,直至执行完所有的指令。线程私有。

  • ②、虚拟机栈:基本数据类型、对象的引用都存放在这。线程私有。

  • ③、本地方法栈:虚拟机栈是为执行Java方法服务的,而本地方法栈则是为执行本地方法(Native Method)服务的。在JVM规范中,并没有对本地方法栈的具体实现方法以及数据结构作强制规定,虚拟机可以自由实现它。在HotSopt虚拟机中直接就把本地方法栈和虚拟机栈合二为一。

  • ④、方法区:存储了每个类的信息(包括类的名称、方法信息、字段信息)、静态变量、常量以及编译器编译后的代码等。注意:在Class文件中除了类的字段、方法、接口等描述信息外,还有一项信息是常量池,用来存储编译期间生成的字面量和符号引用。
  • ⑤、堆:用来存储对象本身的以及数组(当然,数组引用是存放在Java栈中的)。

在 JDK1.7 以后,方法区的常量池被移除放到堆中了,如下:

在这里插入图片描述


常量池:Java运行时会维护一个String Pool(String池), 也叫“字符串缓冲区”。String池用来存放运行时中产生的各种字符串,并且池中的字符串的内容不重复。

  • ①、字面量创建字符串或者纯字符串(常量)拼接字符串会先在字符串池中找,看是否有相等的对象,没有的话就在字符串池创建该对象;有的话则直接用池中的引用,避免重复创建对象。
  • ②、new关键字创建时,直接在堆中创建一个新对象,变量所引用的都是这个新对象的地址,但是如果通过new关键字创建的字符串内容在常量池中存在了,那么会由堆在指向常量池的对应字符;但是反过来,如果通过new关键字创建的字符串对象在常量池中没有,那么通过new关键词创建的字符串对象是不会额外在常量池中维护的。
  • ③、使用包含变量表达式来创建String对象,则不仅会检查维护字符串池,还会在堆区创建这个对象,最后是指向堆内存的对象。
String str1 = "hello";
String str2 = "hello";
String str3 = new String("hello");
System.out.println(str1==str2);//true
System.out.println(str1==str3);//fasle
System.out.println(str2==str3);//fasle
System.out.println(str1.equals(str2));//true
System.out.println(str1.equals(str3));//true
System.out.println(str2.equals(str3));//true

首先 String str1 = "hello",会先到常量池中检查是否有“hello”的存在,发现是没有的,于是在常量池中创建“hello”对象,并将常量池中的引用赋值给str1;

第二个字面量 String str2 = "hello",在常量池中检测到该对象了,直接将引用赋值给str2;第三个是通过new关键字创建的对象,常量池中有了该对象了,不用在常量池中创建,然后在堆中创建该对象后,将堆中对象的引用赋值给str3,再将该对象指向常量池。如下图所示:

在这里插入图片描述

注意:看上图红色的箭头,通过 new 关键字创建的字符串对象,如果常量池中存在了,会将堆中创建的对象指向常量池的引用。

使用包含变量表达式创建对象:

String str1 = "hello";
String str2 = "helloworld";
String str3 = str1+"world";//编译器不能确定为常量(会在堆区创建一个String对象)
String str4 = "hello"+"world";//编译器确定为常量,直接到常量池中引用

System.out.println(str2==str3);//fasle
System.out.println(str2==str4);//true
System.out.println(str3==str4);//fasle

str3 由于含有变量str1,编译器不能确定是常量,会在堆区中创建一个String对象。而str4是两个常量相加,直接引用常量池中的对象即可。

在这里插入图片描述


四、其它扩展

1、String 真的不可变吗?

String 类是用 final 关键字修饰的,不可被继承,仅此而已。

我们通过阅读源码知道,字符串是由字符组成,字符存在value数组中。

private final char value[];

value 被 final 修饰,只能保证引用不被改变,但是 value 所指向的堆中的数组,才是真实的数据,只要能够操作堆中的数组,依旧能改变数据。而且 value 是基本类型构成,那么一定是可变的,即使被声明为 private,我们也可以通过反射来改变。

所以String的不可变性仅仅是正常情况下的不可变,但绝非完全的不可变。


2、String类为什么要设计为不可变的?

  • 便于实现字符串池(String pool)
  • 多线程安全
  • 避免安全问题
  • 加快字符串处理速度

3、String对“+”的重载

在API文档上查阅到:

Java 语言提供对字符串串联符号("+")以及将其他对象转换为字符串的特殊支持。字符串串联是通过 StringBuilder(或 StringBuffer)类及其 append 方法实现的。字符串转换是通过 toString 方法实现的,该方法由 Object 类定义,并可被 Java 中的所有类继承。有关字符串串联和转换的更多信息,请参阅 Gosling、Joy 和 Steele 合著的 The Java Language Specification。

可以通过代码反编译验证一下:

public class StringDemo01 {

    public static void main(String[] args) {
        String a = "abc";
        String b = "def";
        System.out.println("abcdef" == a+b);
    }
}

通过javap命令分析java汇编指令可以得知底层使用了StringBuilder实现


	
javap -v StringDemo.class
Classfile /home/qiao/桌面/课程/spring_study/java_study/spring_cloud_demo/java_demo/src/main/java/string/StringDemo01.class
  Last modified 2020-6-6; size 730 bytes
  MD5 checksum 8847314e26430be9703f9490a6d8ecf3
  Compiled from "StringDemo01.java"
public class string.StringDemo01
  minor version: 0
  major version: 52
  flags: ACC_PUBLIC,ACC_SUPER
Constant pool:
   #1 = Methodref          #12.#25        // java/lang/Object."<init>":()V
   #2 = String             #26            // abc
   #3 = String             #27            // def
   #4 = Fieldref           #28.#29        // java/lang/System.out:Ljava/io/PrintStream;
   #5 = String             #30            // abcdef
   #6 = Class              #31            // java/lang/StringBuilder
   #7 = Methodref          #6.#25         // java/lang/StringBuilder."<init>":()V
   #8 = Methodref          #6.#32         // java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
   #9 = Methodref          #6.#33         // java/lang/StringBuilder.toString:()Ljava/lang/String;
  #10 = Methodref          #34.#35        // java/io/PrintStream.println:(Z)V
  #11 = Class              #36            // string/StringDemo01
  #12 = Class              #37            // java/lang/Object
  #13 = Utf8               <init>
  #14 = Utf8               ()V
  #15 = Utf8               Code
  #16 = Utf8               LineNumberTable
  #17 = Utf8               main
  #18 = Utf8               ([Ljava/lang/String;)V
  #19 = Utf8               StackMapTable
  #20 = Class              #38            // "[Ljava/lang/String;"
  #21 = Class              #39            // java/lang/String
  #22 = Class              #40            // java/io/PrintStream
  #23 = Utf8               SourceFile
  #24 = Utf8               StringDemo01.java
  #25 = NameAndType        #13:#14        // "<init>":()V
  #26 = Utf8               abc
  #27 = Utf8               def
  #28 = Class              #41            // java/lang/System
  #29 = NameAndType        #42:#43        // out:Ljava/io/PrintStream;
  #30 = Utf8               abcdef
  #31 = Utf8               java/lang/StringBuilder
  #32 = NameAndType        #44:#45        // append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
  #33 = NameAndType        #46:#47        // toString:()Ljava/lang/String;
  #34 = Class              #40            // java/io/PrintStream
  #35 = NameAndType        #48:#49        // println:(Z)V
  #36 = Utf8               string/StringDemo01
  #37 = Utf8               java/lang/Object
  #38 = Utf8               [Ljava/lang/String;
  #39 = Utf8               java/lang/String
  #40 = Utf8               java/io/PrintStream
  #41 = Utf8               java/lang/System
  #42 = Utf8               out
  #43 = Utf8               Ljava/io/PrintStream;
  #44 = Utf8               append
  #45 = Utf8               (Ljava/lang/String;)Ljava/lang/StringBuilder;
  #46 = Utf8               toString
  #47 = Utf8               ()Ljava/lang/String;
  #48 = Utf8               println
  #49 = Utf8               (Z)V
{
  public string.StringDemo01();
    descriptor: ()V
    flags: ACC_PUBLIC
    Code:
      stack=1,locals=1,args_size=1
         0: aload_0
         1: invokespecial #1                  // Method java/lang/Object."<init>":()V
         4: return
      LineNumberTable:
        line 11: 0

  public static void main(java.lang.String[]);
    descriptor: ([Ljava/lang/String;)V
    flags: ACC_PUBLIC,ACC_STATIC
    Code:
      stack=4,locals=3,args_size=1
         0: ldc           #2                  // String abc
         2: astore_1
         3: ldc           #3                  // String def
         5: astore_2
         6: getstatic     #4                  // Field java/lang/System.out:Ljava/io/PrintStream;
         9: ldc           #5                  // String abcdef
        11: new           #6                  // class java/lang/StringBuilder
        14: dup
        15: invokespecial #7                  // Method java/lang/StringBuilder."<init>":()V
        18: aload_1
        19: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        22: aload_2
        23: invokevirtual #8                  // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
        26: invokevirtual #9                  // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
        29: if_acmpne     36
        32: iconst_1
        33: goto          37
        36: iconst_0
        37: invokevirtual #10                 // Method java/io/PrintStream.println:(Z)V
        40: return
      LineNumberTable:
        line 14: 0
        line 15: 3
        line 17: 6
        line 21: 40
      StackMapTable: number_of_entries = 2
        frame_type = 255 /* full_frame */
          offset_delta = 36
          locals = [ class "[Ljava/lang/String;",class java/lang/String,class java/lang/String ]
          stack = [ class java/io/PrintStream ]
        frame_type = 255 /* full_frame */
          offset_delta = 0
          locals = [ class "[Ljava/lang/String;",class java/lang/String ]
          stack = [ class java/io/PrintStream,int ]
}
SourceFile: "StringDemo01.java"

String拼接,有字符串变量参与时,中间会产生StringBuilder对象(JDK1.5之前产生StringBuffer)





参考:

【1】:String源码分析
【2】:【Java源码分析】Java8的String源码分析
【3】:Java String API
【4】:Java 源码学习系列1——String
【5】:JDK1.8源码(三)——java.lang.String 类
【6】:Java中的String为什么要设计成不可变的?
【7】:String\”+\”拼接底层实现原理

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


@ 注解能被用来为程序元素( 类、 方法、 成员变量等) 设置元数据。 值得指出的是, 注解不影响程序代码的执行, 无论增加、 删除注解, 代码都始终如一地执行。 如果希望让程序中的注解在运行时起一定
@ 1、线性表的概念 线性表是最常见也是最简单的一种数据结构。简言之, 线性表是n个数据元素的有限序列。 其一般描述为: A={a1,a2,……an) 一个数据元素通常包含多个数据项, 此时每个数据元
简介 ArrayList是开发中使用比较多的集合,它不是线程安全的,CopyOnWriteArrayList就是线程安全版本的ArrayList。CopyOnWriteArrayList同样是通过数组
在 Java String类源码阅读笔记 里学习了String类的源码,StringBuilder、StringBuffer是经常拿来和String类做对比的两个类,可谓是“爱恨纠缠” ,这里我们继续
话不多说,先上图。 1、基本概念 欲说线程,必先说进程。 进程:进程是代码在数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位。 线程:线程是进程的一个执行路径,一个进程中至少有一个线程,进
@ 网络基础 计算机网络是指两台或更多的计算机组成的网络,在同一个网络中,任意两台计算机都可以直接通信,因为所有计算机都需要遵循同一种网络协议。 那什么是互联网呢?互联网是网络的网络(internet
JVM是面试中必问的部分,本文通过思维导图以面向面试的角度整理JVM中不可不知的知识。 先上图: 1、JVM基本概念 1.1、JVM是什么 JVM 的全称是 「Java Virtual Machine
@ 本文基于jdk1.8 HashMap采用 key/value 存储结构,每个key对应唯一的value。 在jdk1.7之前,HashMap 的内部存储结构是数组+链表。 在jdk1.8中 Has
@ Eclipse是很多Java开发者的第一个开发工具,尽管开源的Eclipse在一后起之秀的对比下,显得有些颓势,但是,Eclipse有着丰富的插件支持。选择合适的插件,Eclipse表示:老夫也能
@ 准备 LinkedList是基于双向链表数据结构实现的Java集合(jdk1.8以前基于双向循环链表),在阅读源码之前,有必要简单了解一下链表。 先了解一下链表的概念:链表是由一系列非连续的节点组
@ 写博客哪有刷逼乎有意思 1 写博客哪有刷逼乎有意思 2 写博客哪有刷逼乎有意思 3 类的加载、 连接和初始化 系统可能在第一次使用某个类时加载该类, 也可能采用预加载机制来加载某个类。 JVM 和
树结构是一类重要的非线性数据结构。直观来看,树是以分支关系定义的层次结构。树结构在客观世界广泛存在,如人类社会的族谱和各种社会组织机构都可用树来形象表示。 树在计算机领域中也得到广泛应用,尤以二叉树最
@ 本文基于jdk1.8 String类可谓是我们开发中使用最多的一个类了。对于它的了解,仅仅限于API的了解是不够的,必须对它的源码进行一定的学习。 一、前置 String类是Java中非常特别的一
随便打开一个招聘网站,看看对高级Java工程师的技能要求。 抛开其它的经验能力等等,单纯从技术,或者说知识上来讲,可以发现一些共通的地方。 Java基础 计算机基础 数据库,SQL/NoSQL 常用开
@ JDBC指Java 数据库连接,是一种标准Java应用编程接口( JAVA API),用来连接 Java 编程语言和广泛的数据库。 1、JDBC典型用法 1.1、JDBC 4.2 常用接口和类简介
简介 ArrayList是基于数组实现的一种列表。 ArrayList继承体系如下: 图一:ArrayList继承体系 ArrayList实现了List, RandomAccess, Cloneabl
@ Java 的 IO 通过 java.io 包下的类和接口来支持, 在 java.io 包下主要包括输入、 输出两种 10 流, 每种输入、 输出流又可分为字节流和字符流两大类。 其中字节流以字节为
@ 使用断言 断言(Assertion)是一种调试程序的方式。在Java中,使用assert关键字来实现断言。 断言的概念 假设确信某个属性符合要求, 并且代码的执行依赖于这个属性。例如, 需要计算:
@ Java 程序在不同操作系统上运行时,可能需要取得平台相关的属性,或者调用平台命令来完成特定功能。 Java 提供了 System 类和 Runtime 类来与程序的运行平台进行交互。 Syste
@ Java 提供了一个操作 Set 、 List 和 Map等集合的类:Collections , 该工具类里提供了大量方法对集合元素进行排序、 查询和修改等操作,还提供了将集合对象设置为不可变、对