java实现哈弗曼树

O(∩_∩)O~~

 

概述

 

我想学过数据结构的小伙伴一定都认识哈弗曼,这位大神发明了大名鼎鼎的“最优二叉树”,为了纪念他呢,我们称之为“哈弗曼树”。哈弗曼树可以用于哈弗曼编码,编码的话学问可就大了,比如用于压缩,用于密码学等。今天一起来看看哈弗曼树到底是什么小编。

 

概念

 

当然,套路之一,首先我们要了解一些基本概念。

 

1.              路径长度:从树中的一个结点到另一个结点之间的分支构成这两个结点的路径,路径上的分支数目称为路径长度。

2.              树的路径长度:从树根到每一个结点的路径长度之和,我们所说的完全二叉树就是这种路径长度最短的二叉树。

3.              树的带权路径长度:如果在树的每一个叶子结点上赋上一个权值,那么树的带权路径长度就等于根结点到所有叶子结点的路径长度与叶子结点权值乘积的总和。

 

那么我们怎么判断一棵树是否为最优二叉树呢,先看看下面几棵树:




 

他们的带权长度分别为:

WPL1:7*2+5*2+2*2+4*2=36

WPL2:7*3+5*3+2*1+4*2=46

WPL3:7*1+5*2+2*3+4*3=35

很明显,第三棵树的带权路径最短(不信的小伙伴可以试一试,要是能找到更短的,估计能拿图灵奖了),这就是我们所说的“最优二叉树(哈弗曼树)”,它的构建方法很简单,依次选取权值最小的结点放在树的底部,将最小的两个连接构成一个新结点,需要注意的是构成的新结点的权值应该等于这两个结点的权值之和,然后要把这个新结点放回我们需要构成树的结点中继续进行排序,这样构成的哈弗曼树,所有的存储有信息的结点都在叶子结点上。

概念讲完,可能有点小伙伴还是“不明觉厉”。下面举个例子构建一下就清楚了。

 有一个字符串:aaaaaaaaaabbbbbaaaaaccccccccddddddfff

第一步,我们先统计各个字符出现的次数,称之为该字符的权值。a 15,b 5,c 8,d 6,f 3。

第二步,找去这里面权值最小的两个字符,b5和f3,构建节点。

然后将f3和b5去掉,现在是a15,c8,d6,fb8。

第三步,重复第二步,直到构建出只剩一个节点。

 

 现在是dfb14,a15,c8。

最后,

ok,这样我们的哈弗曼树就构造完成了。

 

构建的步骤

 

按照上面的逻辑,总结起来,就是一下几个步骤:

1.统计字符串中字符以及字符的出现次数;

2.根据第一步的结构,创建节点;

3.对节点权值升序排序;

4.取出权值最小的两个节点,生成一个新的父节点;

5.删除权值最小的两个节点,将父节点存放到列表中;

6.重复第四五步,直到剩下一个节点;

7.将最后的一个节点赋给根节点。

 

java代码

 

原理说完了,接下来是代码实现了。

首先需要有个节点类来存放数据。

 1 package huffman;
 2 /**
 3  * 节点类
 4  * @author yuxiu
 5  *
 6  */
 7 public class Node {
 8     public String code;// 节点的哈夫曼编码
 9     int codeSize; 节点哈夫曼编码的长度
10     public String data; 节点的数据
11     int count; 节点的权值
12     public Node lChild;
13      Node rChild;
14 
15      Node() {
16     }
17 
18     public Node(String data,int count) {
19         this.data = data;
20         this.count = count;
21 22 
23     public Node( count,Node lChild,Node rChild) {
24         25         this.lChild = lChild;
26         this.rChild = rChild;
27 28 
29     30         31         32         33         34 35 }

 然后就是实现的过程了。

  1   2 
  3 import java.io.*;
  4 import java.util.*  5 
  6  Huffman {
  7     private String str; 最初用于压缩的字符串
  8     private String newStr = ""; 哈夫曼编码连接成的字符串    
  9     private Node root; 哈夫曼二叉树的根节点
 10     private boolean flag; 最新的字符是否已经存在的标签
 11     private ArrayList<String> charList; 存储不同字符的队列 相同字符存在同一位置
 12     private ArrayList<Node> NodeList; 存储节点的队列
 13    
 14      15      16      17      * 构建哈夫曼树
 18      * 
 19      * @param str
 20       21     void creatHfmTree(String str) {
 22         this.str = str;
 23         charList = new ArrayList<String>();
 24         NodeList = new ArrayList<Node> 25          1.统计字符串中字符以及字符的出现次数
 26          基本思想是将一段无序的字符串如ababccdebed放到charList里,分别为aa,bbb,cc,dd,ee
 27          并且列表中字符串的长度就是对应的权值
 28         for (int i = 0; i < str.length(); i++) {
 29             char ch = str.charAt(i);  从给定的字符串中取出字符
 30             flag = true 31             int j = 0; j < charList.size(); j++ 32                 if (charList.get(j).charAt(0) == ch) { 如果找到了同一字符
 33                     String s = charList.get(j) + ch;
 34                     charList.set(j,s);
 35                     flag = false 36                     break 37                 }
 38             }
 39             if (flag) {
 40                 charList.add(charList.size(),ch + "");
 41  42         }
 43          2.根据第一步的结构,创建节点
 44         int i = 0; i < charList.size(); i++ 45             String data = charList.get(i).charAt(0) + "";  获取charList中每段字符串的首个字符
 46             int count = charList.get(i).length();  列表中字符串的长度就是对应的权值
 47             Node node = new Node(data,count);  创建节点对象
 48             NodeList.add(i,node);  加入到节点队列
 49  50 
 51          3.对节点权值升序排序
 52         Sort(NodeList);
 53         while (NodeList.size() > 1) { 当节点数目大于一时
 54              4.取出权值最小的两个节点,生成一个新的父节点
 55              5.删除权值最小的两个节点,将父节点存放到列表中
 56             Node left = NodeList.remove(0 57             Node right = NodeList.remove(0 58             int parentWeight = left.count + right.count; 父节点权值等于子节点权值之和
 59             Node parent = new Node(parentWeight,left,right);
 60             NodeList.add(0,parent);  将父节点置于首位
 61 
 62  63          6.重复第四五步,就是那个while循环
 64          7.将最后的一个节点赋给根节点
 65         root = NodeList.get(0 66  67     68      * 升序排序
 69  70  nodelist
 71       72     void Sort(ArrayList<Node> nodelist) {
 73         int i = 0; i < nodelist.size() - 1; i++ 74             int j = i + 1; j < nodelist.size(); j++ 75                 Node temp;
 76                 if (nodelist.get(i).count > nodelist.get(j).count) {
 77                     temp = nodelist.get(i);
 78                     nodelist.set(i,nodelist.get(j));
 79                     nodelist.set(j,temp);
 80  81 
 82  83  84 
 85  86 
 87      88      * 遍历
 89  90  node
 91      *            节点
 92       93      output(Node node) {
 94         if (node.lChild != null 95             output(node.lChild);
 96  97         System.out.print(node.count + "   ");  中序遍历
 98         if (node.rChild !=  99             output(node.rChild);
100 101 102 
103      output() {
104         output(root);
105 106 107      * 主方法
108 109  args
110      111     static  main(String[] args) {
112         Huffman huff = new Huffman();创建哈弗曼对象
113         huff.creatHfmTree("sdfassvvdfgsfdfsdfs");构造树
114     }

 

原文地址:https://www.cnblogs.com/yuxiuyan

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


本文从从Bitcask存储模型讲起,谈轻量级KV系统设计与实现。从来没有最好的K-V系统,只有最适合应用业务实际场景的系统,做任何的方案选择,要结合业务当前的实际情况综合权衡,有所取有所舍。
内部的放到gitlab pages的博客,需要统计PV,不蒜子不能准确统计,原因在于gitlab的host设置了strict-origin-when-cross-origin, 导致不蒜子不能正确获取referer,从而PV只能统计到网站的PV。 为了方便统计页面的PV,这里简单的写了一个java程
PCM 自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 采样率 采样频率,也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数
本文介绍如何离线生成sst并在线加载,提供一种用rocksdb建立分布式kv系统替换mongodb的思路
验证用户输入是否正确是我们应用程序中的常见功能。Spring提供了`@Valid`和@`Validated`两个注解来实现验证功能,本文详细介绍 [@Valid]和[@Validated]注解的区别 。
引入pdf2dom &lt;dependency&gt; &lt;groupId&gt;net.sf.cssbox&lt;/groupId&gt; &lt;artifactId&gt;pdf2dom&lt;/artifactId&gt; &lt;version&gt;1.8&lt;/version&
grafana 是一款非常优秀的可视化报表工具,有设计精良的可视化工具,今天来聊一聊如何将grafana集成到自己的应用中。 原理是: grafana允许iframe访问,开启auth.proxy, java 后端鉴权后代理grafana 前端通过iframe访问后端代理过的grafana graf
介绍 Call Graph是一款IDEA插件,用于可视化基于IntelliJ平台的IDE的函数调用图。 这个插件的目标是让代码更容易理解,有助于读懂和调试代码。当前只支持Java。针对Typescript、Javascript或Python工具,可以使用作者的另外一款工具Codemap(https:
原理 通过线程安全findAndModify 实现锁 实现 定义锁存储对象: /** * mongodb 分布式锁 */ @Data @NoArgsConstructor @AllArgsConstructor @Document(collection = &quot;distributed-loc
Singleton 单例模式 单例模式是确保每个应用程序只存在一个实例的机制。默认情况下,Spring将所有bean创建为单例。 你用@Autowired获取的bean,全局唯一。 @RestController public class LibraryController { @Autowired
pipeline 分布式任务调度器 目标: 基于docker的布式任务调度器, 比quartzs,xxl-job 更强大的分布式任务调度器。 可以将要执行的任务打包为docker镜像,或者选择已有镜像,自定义脚本程序,通过pipeline框架来实现调度。 开源地址: https://github.c
python训练的模型,转换为onnx模型后,用python代码可以方便进行推理,但是java代码如何实现呢? 首先ONNX 推理,可以使用`onnxruntime` ```xml com.microsoft.onnxruntime onnxruntime 1.15.1 ``` 另外,训练的模型需要
要获取内网地址,可以尝试连接到10.255.255.255:1。如果连接成功,获取本地套接字的地址信息就是当前的内网IP。 python实现: ```python import socket def extract_ip(): st = socket.socket(socket.AF_INET, s
为什么要有索引 gremlin 其实是一个逐级过滤的运行机制,比如下面的一个简单的gremlin查询语句: g.V().hasLabel(&quot;label&quot;).has(&quot;prop&quot;,&quot;value&quot;) 运行原理就是: 找出所有的顶点V 然后过滤出
最近在分析一个应用中的某个接口的耗时情况时,发现一个看起来极其普通的对象创建操作,竟然每次需要消耗 8ms 左右时间,分析后发现这个对象可以通过对象池模式进行优化,优化后此步耗时仅有 0.01ms。
点赞再看,动力无限。Hello world : ) 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码网站 已经收录,有很多知识点和系列文章。 此篇文章介绍 Java JMX 技术的相关概念和具体的使用方式。 当前文章属于Java 性能分析优化系列
如何将Java JAR 转化为 win/mac/linux 独立可执行程序?不需要预装 JRE 运行?
点赞再看,动力无限。 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章。 Java 19 在2022 年 9 月 20 日正式发布,Java 19 不是一个长期支持版本,直到 2023 年 3 月它将被 JD
点赞再看,动力无限。Hello world : ) 微信搜「 程序猿阿朗 」。 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章。 前言 Java 反编译,一听可能觉得高深莫测,其实反编译并不是什么特别高级的操作,Java 对于 Cla
JSON 对于开发者并不陌生,如今的 WEB 服务、移动应用、甚至物联网大多都是以 **JSON** 作为数据交换的格式。学习 JSON 格式的操作工具对开发者来说是必不可少的。这篇文章将介绍如何使用 **Jackson** 开源工具库对 JSON 进行常见操作。