如何解决如何从每个类中提取两个值以将其放入测试集中?
所以我有一个包含120行和124列的数据集。从属列是人员的字符串名称。共有20个不同的名称。我想从每个类中提取两行(因此为每个类提取具有相同名称的两行),以便我可以用它创建一个测试集。任何帮助将不胜感激。谢谢
解决方法
您可以使用以下功能来做到这一点:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,stratify =y)
在这里
X =具有所有自变量的数据框。
y =具有因变量的级数。
test_size =您要用作测试尺寸的百分比,此处为20%。
分层 =所有类别的平均分配,在您的情况下为20个人。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。