Swift3.0 中 Strings/Characters 闲聊

前言

本篇文章主要浅析字符串字符在 Swift 和 Objective-C 之间的区别及其简单用法。如有不妥的地方还望大家及时帮忙纠正。

字符串判空

在 swift 语言中空字符串初始化方式常用的有两种:

// 方式一:
let testEmptyString0 = ""

// 方式二:
let testEmptyString1 = String()

在开发过程中,我们应该如何用正确的方式来对字符串进行判空处理呢?

// 方式一:这种方式其实就是判断 characters.count 是否为0
if testEmptyString0.isEmpty {
    // empty
}

// 方式二:
if testEmptyString0.characters.count {
    // empty
}

// 方式三:
if (testEmptyString0 as NSString).length {
    // empty
}

字符串长度计算

Objective-C

首先我们来回忆一下,在 Objective-C 中字符串是怎么计算长度的?我想大家都应该知道。来看看苹果是怎么说的:

A string object is implemented as an array of Unicode characters (in other words,a text string). An immutable string is a text string that is defined when it is created and subsequently cannot be changed. To create and manage an immutable string,use the NSString class. To construct and manage a string that can be changed after it has been created,use NSMutableString.

A string object presents itself as an array of Unicode characters. You can determine how many characters it contains with the length method and can retrieve a specific character with the characterAtIndex: method.

看完这段话,想必大家都明白 NSString 是怎么实现的,以及如何获取其长度。通过 length 方法即可,那么 length 方法是如何实现的呢?苹果官方是这样说的:length 方法利用的是 UTF-16 表示的十六位编码单元数字为单位进行计算的(The number of UTF-16 code units in the receiver.)。UTF-16是什么?(感兴趣的童鞋可以看一下我之前写的一篇文章,字符编码(一)),此处不再详述。

Swift 3.0

Unicode 标量表示

在 Swift 中,字符和字符串都是基于 Unicode 标量建立的,采用21位二进制进行编码,共17个平面(除了基本多文种平面中的 UTF-16 代理对码位外,即U+D800至U+DFFF的编码空间),也就是说编码范围是U+0000-U+D7FFF 或者 U+E000-U+10FFFF。

A Unicode scalar is any Unicode code point in the range U+0000 to U+D7FF inclusive or U+E000 to U+10FFFF inclusive. Unicode scalars do not include the Unicode surrogate pair code points,which are the code points in the range U+D800 to U+DFFF inclusive.”

因此在 Swift 中,我们可直接采用 Unicode 标量的形式来表示字符或字符串,如:

let tingC = "\u{542C}" // 听

let xinC = "\u{5FC3}" // 心

可扩展的字形群集(簇)

在 Swift 中,每一个 Character 类型实例都代表单个可扩展的字形群集——即由一个或多个 Unicode 标量的序列组成的一个可读字符。

汉字 “听” 拼音为 tīng,以字母 ī 为例,用两种方式表示。第一种,可以直接用单个 Unicode 标量 ī (LATIN SMALL LETTER I WITH MACRON) 来表示,即 U+012B,该字形群集中包含一个 Unicode 标量。第二种,可以采用两个 Unicode 标量来表示,一个拉丁字母 i (LATIN SMALL LETTER I) 加上一个音调符(元音,COMBINING MACRON ACCENT)的标量,即 U+0069U+0304,这样,当字母 i 被 Unicode 文字渲染系统时就会转换成 ī,该字形群集中包含两个 Unicode 标量。

let tingO = "t" + "\u{0069}" + "ng" // Prints "ting "

let tingPS = "t" + "\u{0069}" + "\u{0304}" + "ng" // Prints "tīng"

let tingPD = "t" + "\u{012B}" + "ng" // Prints "tīng"

这两种情况中,字母 ī 即代表了 Swift 中单个 Character 类型实例,也代表了一个可扩展的字形群集。想了解更多关于可扩展的字形群集,可参考此链接

字符串长度

我们已经简单了解了可扩展的字形群集,现在我们再来看看 Swift 字符串中一些有意思的事。

Swift 中 String 类型,说白了就是 Character 类型实例的集合,在开发过程中,我们一般采用两种方式来求字符串的长度,第一种是转成 Objective-C 中的 NSString 类型,通过 length 方法来获取其长度,第二种是通过字符串属性 characters.count 的方式获得。本小节主要讨论第二种,本文会在结尾针对这两种方式进行比较。

在 Swift 中,细心的同学或许已经发现 tingPD 与 tingPS 字符串的字符数量是一样的:

print("tingPD-Count:\(tingPD.characters.count),tingPS-Count:\(tingPS.characters.count)") 
// Prints "tingPD-Count:4,tingPS-Count:4"

下面我们来解决此疑惑,笔者已在前文说过,Swift 中 StringCharacter 都是基于 Unicode 标量建立的,且 String 是 Character 的集合(即包含关系),而 String 属性 characters.count 其实就是计算 Character 的数量,那么 character 是怎么定义的呢,或者说什么才算是一个 character?此时又引出了一个概念——字形群集界限(Grapheme Cluster Boundaries),而”什么才算是一个 character?“这个问题就是字形群集界限给出的答案,想深入了解的同学请看:传送门。从用户感观(user-perceived)角度讲,不管是字符 ī(U+012B) 或者是 i(U+0069)再加上一个音调符(U+0304),这两种表示最终的结果都是组成一个相同的可读的字符,因此 tingPD 与 tingPS 字符串中的字符数量是一样的。

通过上文的简单解释,可以得出两个结论:

  1. 一个字符串拼接一个字符时,不一定会更改字符串的数量,即 characters.count 的值。

  2. 在没有获取到字形群集界限的时候,无法计算出该字符串的字符数量,因此必须遍历字符串中全部的 Unicode 标量以获取字形群集界限,进而确定字符串的字符数量。

下面在看一个例子,相信大家都已明白输出结果的原因:

var iWord = "i"

print("iword-Count: \(iWord.characters.count)")
// Prints "iword-Count: 1"

iWord += "\u{0304}" // ī
print("iword-Count: \(iWord.characters.count)")
// Prints "iword-Count: 1"

.length 与 .characters.count 的区别

首先 .length 是 Objective-C 中字符串长度计算方法,而 .characters.count 可以说是 Swift 中字符串长度计算方法,由于 Swift 中 String 类型可以转成 Objective-C 中的 NSString 类型,因此在 Swift 开发过程中可能有如下两种写法:

print("tingPS.characters.count")
// Prints "4"
print("(tingPS as NSString).length")
// Prints "5"

从上述结果可看出,.length 方法得到的字符串长度为5,而 .characters.count 等于4,可能读者会有点懵,同一个字符串怎么计算的长度不一致?其实 .length 与 .characters.count 的计算原理在上文已经做了解释,本小节就简单总结一下:

.length 与 .characters.count 返回值不总是相同的,.length 方法是采用 UTF-16 表示的编码单元为单位进行计算并返回的,即字母 i(U+0069)、音调符(U+0304)会当做两个字符,因而长度为2。.character.count 的值是通过字形群集界限来确定字符数量的,如还不理解请查看上文。(PS:其实这里也是 Swift 中采用索引的方式访问字符串的原因)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


软件简介:蓝湖辅助工具,减少移动端开发中控件属性的复制和粘贴.待开发的功能:1.支持自动生成约束2.开发设置页面3.做一个浏览器插件,支持不需要下载整个工程,可即时操作当前蓝湖浏览页面4.支持Flutter语言模板生成5.支持更多平台,如Sketch等6.支持用户自定义语言模板
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。目前我们在计算机上进行音频播放都需要依赖于音频文件。那么音频文件如何生成的呢?音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,我们人耳所能听到的声音频率范围为(20Hz~20KHz),因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论,音频文件的采样率一般在40~50KHZ之间。奈奎斯特采样定律,又称香农采样定律。...............
前言最近在B站上看到一个漂亮的仙女姐姐跳舞视频,循环看了亿遍又亿遍,久久不能离开!看着小仙紫姐姐的蹦迪视频,除了一键三连还能做什么?突发奇想,能不能把舞蹈视频转成代码舞呢?说干就干,今天就手把手教大家如何把跳舞视频转成代码舞,跟着仙女姐姐一起蹦起来~视频来源:【紫颜】见过仙女蹦迪吗 【千盏】一、核心功能设计总体来说,我们需要分为以下几步完成:从B站上把小姐姐的视频下载下来对视频进行截取GIF,把截取的GIF通过ASCII Animator进行ASCII字符转换把转换的字符gif根据每
【Android App】实战项目之仿抖音的短视频分享App(附源码和演示视频 超详细必看)
前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160.pdf欢迎大家指出我论文中的问题,特别是语法与用词问题在github上,我也上传了完整的项目:https://github.com/Whiffe/Custom-ava-dataset_Custom-Spatio-Temporally-Action-Video-Dataset关于自定义ava数据集,也是后台
因为我既对接过session、cookie,也对接过JWT,今年因为工作需要也对接了gtoken的2个版本,对这方面的理解还算深入。尤其是看到官方文档评论区又小伙伴表示看不懂,所以做了这期视频内容出来:视频在这里:本期内容对应B站的开源视频因为涉及的知识点比较多,视频内容比较长。如果你觉得看视频浪费时间,可以直接阅读源码:goframe v2版本集成gtokengoframe v1版本集成gtokengoframe v2版本集成jwtgoframe v2版本session登录官方调用示例文档jwt和sess
【Android App】实战项目之仿微信的私信和群聊App(附源码和演示视频 超详细必看)
用Android Studio的VideoView组件实现简单的本地视频播放器。本文将讲解如何使用Android视频播放器VideoView组件来播放本地视频和网络视频,实现起来还是比较简单的。VideoView组件的作用与ImageView类似,只是ImageView用于显示图片,VideoView用于播放视频。...
采用MATLAB对正弦信号,语音信号进行生成、采样和内插恢复,利用MATLAB工具箱对混杂噪声的音频信号进行滤波
随着移动互联网、云端存储等技术的快速发展,包含丰富信息的音频数据呈现几何级速率增长。这些海量数据在为人工分析带来困难的同时,也为音频认知、创新学习研究提供了数据基础。在本节中,我们通过构建生成模型来生成音频序列文件,从而进一步加深对序列数据处理问题的了解。
基于yolov5+deepsort+slowfast算法的视频实时行为检测。1. yolov5实现目标检测,确定目标坐标 2. deepsort实现目标跟踪,持续标注目标坐标 3. slowfast实现动作识别,并给出置信率 4. 用框持续框住目标,并将动作类别以及置信度显示在框上
数字电子钟设计本文主要完成数字电子钟的以下功能1、计时功能(24小时)2、秒表功能(一个按键实现开始暂停,另一个按键实现清零功能)3、闹钟功能(设置闹钟以及到时响10秒)4、校时功能5、其他功能(清零、加速、星期、八位数码管显示等)前排提示:前面几篇文章介绍过的内容就不详细介绍了,可以看我专栏的前几篇文章。PS.工程文件放在最后面总体设计本次设计主要是在前一篇文章 数字电子钟基本功能的实现 的基础上改编而成的,主要结构不变,分频器将50MHz分为较低的频率备用;dig_select
1.进入官网下载OBS stdioOpen Broadcaster Software | OBS (obsproject.com)2.下载一个插件,拓展OBS的虚拟摄像头功能链接:OBS 虚拟摄像头插件.zip_免费高速下载|百度网盘-分享无限制 (baidu.com)提取码:6656--来自百度网盘超级会员V1的分享**注意**该插件必须下载但OBS的根目录(应该是自动匹配了的)3.打开OBS,选中虚拟摄像头选择启用在底部添加一段视频录制选择下面,进行录制.
Meta公司在9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频。基于**文本到图像生成技术的最新进展**,该技术旨在实现文本到视频的生成,可以仅用几个单词或几行文本生成异想天开、独一无二的视频,将无限的想象力带入生活
音频信号叠加噪声及滤波一、前言二、信号分析及加噪三、滤波去噪四、总结一、前言之前一直对硬件上的内容比较关注,但是可能是因为硬件方面的东西可能真的是比较杂,而且需要渗透的东西太多了,所以学习进展比较缓慢。因为也很少有单纯的硬件学习研究,总是会伴随着各种理论需要硬件做支撑,所以还是想要慢慢接触理论学习。但是之前总找不到切入点,不知道从哪里开始,就一直拖着。最近稍微接触了一点信号处理,就用这个当作切入点,开始接触理论学习。二、信号分析及加噪信号处理选用了matlab做工具,选了一个最简单的语音信号处理方
腾讯云 TRTC 实时音视频服务体验,从认识 TRTC 到 TRTC 的开发实践,Demo 演示& IM 服务搭建。
音乐音频分类技术能够基于音乐内容为音乐添加类别标签,在音乐资源的高效组织、检索和推荐等相关方面的研究和应用具有重要意义。传统的音乐分类方法大量使用了人工设计的声学特征,特征的设计需要音乐领域的知识,不同分类任务的特征往往并不通用。深度学习的出现给更好地解决音乐分类问题提供了新的思路,本文对基于深度学习的音乐音频分类方法进行了研究。首先将音乐的音频信号转换成声谱作为统一表示,避免了手工选取特征存在的问题,然后基于一维卷积构建了一种音乐分类模型。
C++知识精讲16 | 井字棋游戏(配资源+视频)【赋源码,双人对战】
本文主要讲解如何在Java中,使用FFmpeg进行视频的帧读取,并最终合并成Gif动态图。
在本篇博文中,我们谈及了 Swift 中 some、any 关键字以及主关联类型(primary associated types)的前世今生,并由浅及深用简明的示例向大家讲解了它们之间的奥秘玄机。