data-analysis - 编程之家

我试图对文本数据进行聚类，数据是清晰的，标记化的，等等。如何在Kmeans或其他聚类模型中输入相似

预先道歉，因为我在技术上对我想用python解决的问题有一些疑问，但是由于它们是相关的，所以我将其

我尝试过： <pre><code> query = "SELECT * FROM GPSEventsData09 where GPSDateTime Between '%s' and '%s'"

我需要获取归一化的直方图。因此，在<a href="https://playnotebook.jsdata.org" rel="nofollow noreferrer">Danfo notebooks</

通过从json文件的日期创建df，我得到的轴反转的结果比我想要的要多。例如。为... <code>df = pd.DataF

以下是由银行客户的交易数据组成的示例表。我需要创建一个单独的列作为从<code>txn_description</code>列获

我正在尝试在dataiku平台中重新排列数据。我正在执行多项操作，以透视方式转置数据，但创建了更多的

我有一个非常脏的大量文本数据集。尽管各个列的值用制表符分隔，但所需的数据行中有许多换行符。

说我在Pandas DataFrame中已经有一个PDF（概率密度函数）。 <pre><code>import pandas as pd import numpy as np from scip

我有以下数据框列： <img src="https://i.stack.imgur.com/kqQfy.png" alt="Columm of Dataset"/> 我需要将csv列

对于我的数据分析，我希望获得数据不同部分的线性拟合。由于它的数据集很大，我希望python计算出linea

我有数百种产品的销售数据。根据销售单位和收入，它们在一年中的销售方式。每种产品的销售彼此之

我有一个带有RFM分析项目的客户细分。我按照RFM级别将客户分为“不能放松”，“忠诚”，“冠军”等

我认为有人问过类似的问题，但它不是很清楚。我有2个表-点表和线表。对于点表中的每个点，我需要

我有一个非常大的数据文件，其中x =时间，y =距离。我想弄清楚不同部分的速度如何。理想情况下，我

列出的x中包含从1月1日到12月31日的日期像这样： x = ['2020年1月1日'，2020年1月2日'，2020年1月3日'，2020年1

<a href="https://i.stack.imgur.com/tRWp0.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/tRWp0.png" alt="enter image

在代码中，我找出了两条线的交点（22,50），并希望在图形中显示（有一个箭头指向与（22,50）的交点）

帮助。我尝试运行以下代码： <pre><code>import numpy as np import pandas as pd import statsmodels.formula.api as smf impor

我需要一些建议，因为我需要将数据聚集成一个聚类名称并设置为每一行。如下所示，数据框包含 <pr