在多个数据框中搜索包含的特定文本,并在新列中返回这些值多次出现

如何解决在多个数据框中搜索包含的特定文本,并在新列中返回这些值多次出现

在另一个数据帧的列(文本正文)中从一个数据帧中搜索多个特定单词并随后将这些值提取到新列中,寻求一些帮助。

进一步解释:

  • 首先,我有一个包含 14 个国家/地区的大量文本摘要的数据框。
  • 其次,我有第二个数据框,其中包含所有行政级别 (lvl_2) 名称,例如省、村庄等。
  • 我想基本上从大摘要中提取任何提及这些特定 adm2 省/村庄名称的内容,并用这些词中的每一个创建一个新列,旋转更长的时间。

以下是一些示例数据,您可以使用它们来重现我的问题,其中包含两个数据框:(1) test_admin 用于我要搜索的管理员级别列表,以及 (2) test_dataset$Summary这是我要运行搜索的列。 (您可以忽略 Other_Variables 的值,这些值填充了真实数据集中的大量值)

test_admin <- data.frame(adm1_name = c("Sindh"),adm2_name = c("Central Karachi","Dadu","East Karachi","Ghotki","Sujawal","Sukkur"))
                   
test_dataset <- data.frame(Summary = c("In Cox's Bazar,this and that happened.","In Yangon,something else happened","In Central Karachi,this happened","In Sindh,"In Dadu AND East Karachi,this happened"),Other_Variable_1 = 1:5,Other_Variable_2 = 1:5)

让事情更复杂的是,我还希望能够从 test_admin 数据框中的两列 列中搜索值。例如,如果您的值“Sindh”来自 adm1_level 列,那么也返回 adm2_level 下的所有结果会非常酷。

但如果你能在更基本的层面上解决它(只搜索一栏),我也会很满意。

我要寻找的输出类似于下面的数据框,它还会返回多行,表示出现多个值的位置。

                                   Summary Other_Variable_1 Other_Variable_2       Locations
1  In Cox's Bazar,this and that happened.                1                1            <NA>
2       In Yangon,something else happened                2                2            <NA>
3        In Central Karachi,this happened                3                3 Central Karachi
4                  In Sindh,this happened                4                4 Central Karachi
5                  In Sindh,this happened                4                4            Dadu
6                  In Sindh,this happened                4                4    East Karachi
7                  In Sindh,this happened                4                4          Ghotki
8                  In Sindh,this happened                4                4         Sujawal
9                  In Sindh,this happened                4                4          Sukkur
10 In Dadu AND East Karachi,this happened                5                5            Dadu
11 In Dadu AND East Karachi,this happened                5                5    East Karachi

我尝试了一些 mutate 和 grepl 函数,但效果不佳。我发现的其他示例似乎仅适用于精确值或单个搜索。感谢您的帮助!

#tidyverse 首选解决方案

解决方法

这是一种方法:

library(tidyverse)

map_df(seq(nrow(test_dataset)),function(i) {
  inds <- str_detect(test_dataset$Summary[i],test_admin$adm1_name) | 
             str_detect(test_dataset$Summary[i],test_admin$adm2_name)
  if(any(inds)) tibble(test_dataset[i,],Locations = test_admin$adm2_name[inds])
    else tibble(test_dataset[i,Locations = NA)
})

#  Summary                                 Other_Variable_1 Other_Variable_2 Locations      
#   <chr>                                              <int>            <int> <chr>          
# 1 In Cox's Bazar,this and that happened.                1                1 NA             
# 2 In Yangon,something else happened                     2                2 NA             
# 3 In Central Karachi,this happened                      3                3 Central Karachi
# 4 In Sindh,this happened                                4                4 Central Karachi
# 5 In Sindh,this happened                                4                4 Dadu           
# 6 In Sindh,this happened                                4                4 East Karachi   
# 7 In Sindh,this happened                                4                4 Ghotki         
# 8 In Sindh,this happened                                4                4 Sujawal        
# 9 In Sindh,this happened                                4                4 Sukkur         
#10 In Dadu AND East Karachi,this happened                5                5 Dadu           
#11 In Dadu AND East Karachi,this happened                5                5 East Karachi   

对于 Summary 中的每个值,我们检查它是否匹配 adm1_nameadm2_name。如果任何行匹配,我们在输出中包含相应的 Location 值,否则返回 NA

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-