如何解决具有给定每个字符数的字符串的子字符串数
给定一个字符串和一个整数k,我们需要找到所有不同字符恰好出现k次的子字符串数。
示例:s =“ aabbcc”,k = 2 输出:6
子字符串[aa,bb,cc,aabb,bbcc和aabbcc]包含频率为2的不同字符。
我能想到的方法是遍历所有子字符串并存储当前子字符串的频率,并在频率等于k时增加结果。这将导致O(n * n)的最坏情况复杂度,其中n是字符串s的长度。
有没有更好的方法来解决这个问题?
解决方法
我们可以在O(n * log(size_of_alphabet))
中解决此问题。让f(i)
代表最有效的子字符串,以第i
个字符结尾。然后:
f(i) ->
1 + f(j - 1)
where j is the rightmost index smaller
than or equal to i where s[j..i] is a
valid substring and (j - 1) is inside
the current window. Call s[j..i] the
"minimal" valid substring ending at
index i.
对于我们的窗口,不变的是,如果一个字符被k + 1
看到过一次,我们就会将其左边界移到该字符在窗口中最左边的实例。这样可以确保当前窗口中的一个串联的有效子字符串中的任何两个子字符串都不能具有共享字符,从而保持有效的串联。
每次到达字符k
的第c
个实例时,最右边的索引必须小于或等于i
,其中s[j..i]
是有效的子字符串,必须以窗口中所有计数少于k
的字符的右边。要找到最右边的索引,我们可能还需要移到窗口中已经看到的有效相邻子字符串的前面。
要找到该索引,我们可以维护一个max indexed-heap,该窗口在当前窗口中存储的每个不同字符的最右实例,其计数小于k
,并按其索引优先,这样我们的{{ 1}}始终位于堆根目录的右侧(或堆为空)。对该堆进行了索引,这使我们可以删除j
中的特定元素。
我们还将保留窗口中已经看到的有效最小子字符串的左右边界索引。我们可以使用双端队列进行O(log(size_of_alphabet))
更新,因为有效的子字符串可以出现在另一个字符串的右边,也可以封装现有的字符串。并且,我们保留了O(1)
查找的左边界哈希图。
此外,我们必须在窗口中保留每个不同字符的计数,以保持不变,O(1)
以上没有这样的计数,并且它们在窗口中最有效的子串前提条件的最左边索引。
程序:
k
例如:
for each index i in s:
let c be the character s[i]
if s[i] is the (k+1)th instance of c in the window:
move the left bound of the window
just past the leftmost instance of
c in the window,removing all
elements in the heap who's rightmost
instance we passed while updating
our window; and adding to the heap
the rightmost instance of characters
who's count has fallen below k
as we move the left bound of
the window. If the boundary moves
past the left bound of valid minimal
substrings,remove their boundaries
from the queue,and their left bound
from the hashmap.
if s[i] is the kth instance of c:
remove the previous instance of c
from the heap.
if the leftmost instance of c in the
window is to the right of the heap
root:
if (root_index + 1) is the
left bound of a valid minimal
substring in our queue:
we must be adding to the right
of all of them,so add a new
valid minimal substring,starting
at the next index after the
rightmost of those that ends
at i
otherwise:
add a new valid minimal substring,starting at (root_index + 1)
and ending at i
otherwise:
remove the previous instance of c
in the heap and insert this one.
,
此类字符串的长度必须恰好是K的倍数。这会大大降低搜索的深度。
{实际上,它只能用K乘以整数之一,直到不重复的字符数为止。}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。