数据挖掘中的模式发现八轨迹模式挖掘、空间模式挖掘

这是模式挖掘、数据挖掘的一部分应用。

空间模式挖掘(Mining Spatiotemporal Patterns)

两个空间实体之间存在若干拓扑关系,这些关系基于两个实体的位置:

  • 分离
  • 相交
  • 包含

图1

如图所示地表示位置信息,可以提取类似下面的规则:

is_a(x,large_town)intersect(x,highway)adjacent_to(x,water)[7%,85%]

逐步求精(Progressive Refinement)

我们可以知道语言中有很对二义性的词语,并且可以用不同的词汇表达相同或者相近的意思。

比如,我们表示“靠近”,可以用“临近”、“接近”、“比邻”等等。那么我们就可以用Progressive Refinement来解决,因此空间关系可以应用在一个更加粗糙或者更精细的层次上。

Step 1

粗略计算,用于筛选

使用MBR(Minimum Bounding Rectangle)或者R-tree粗略估计。

Step2

更加细节的处理算法,用于精细处理

只处理那些通过粗略计算的数据(不小于最小支持度),从而节约时间与空间。

共置模式(Colocation pattern)

图5

现有如图所示地拓扑结构,用数字表示每一个样本点,其符号是表示样本点的种类。

共置模式指的是一组空间事件或者物体经常发生在相同的区域,在拓扑图中这样的事件用线连在一起。

其中{3,6,17},{4,7,10,16},{2,8,11,14,15},9}就是一个Colocation pattern。

rowset集合

而rowset(SET)则表示SET集合中每一个元素都出现在的Colocation pattern。

rowset({A,B,C,D})={{4,7,10,16},{2,11,14,15},{8,11,14,15}}

rowset({A,B})={{5,13},{7,10},{2,14},{8,14}}

条件概率

Condition Probability

定义如下

图2

计算条件概率必须按照定义来。

图3

不是恒等于的。

例如,求 cp(AB)

其中 Rowset(A)={1,5,6,7,14} Rowset({A,B}) 如上文的例子。

Rowset({A,B}) 中包含14的有两个元素,但是根据定义也只能计算一次。

所以 cp(AB)=35

Participation Ratio

定义如下

图4

Participation ratio pr(C,f) : probability that C is observed in a neighbor-set wherever feature f is observed。

表示在 f 发生的情况下,有多少情况是在 C 情况下发现的。(注意,我这不是原原本本地翻译,但是应该是等价的翻译。)

例如,

pr({A,B,C,D},A)=25

我们可以看到总共有 5 A ,但是只有 2 A 发生在 {A,B,C,D} 的情况下。

pr({A,B,C,D},D)=2÷2=1

类Apriori算法

算法思想和Apriori算法是一致的。

产生候选集的理论依据是Participation Ratio的单调性:

现有两个Co-location pattern: C C ,且 CC ,那么对于任意 f ,我们都可以得到 pr(C,f)pr(C,f)

轨道模式挖掘(Mining and Aggregating Patterns over Multiple Trajectories)

轨迹的挖掘任务

轨迹聚类:基于空间/时空的几何估计进行分组

轨迹联合:给定两个轨迹数据库,检索所有的相似对

图6

这里写图片描述

通过挖掘能够处理多种问题,包括,路线规划、城市规划、识别物体、模式分类。

基本定义

基本运动模式

描述移动事件,不考虑绝对位置

  • Constance:连续时间序列的相等运动属性,即保持运动方向不变
  • Concurrence:有相等运动属性的多个对象,在某个时刻运动方向相同的多个物体
  • Trendsetter:—组的共享目标的运动图形(constance + concurrence)

图8

上图中箭头表示运动方向,横坐标表示时间,纵坐标表示物体。

空间运动模式

基本运动模式+空间约束

  • Track:单个对象,保持相同运动(constance + 空间约束)
  • Flock:一组对象,同时保持相同运动(concurrence + 空间约束)
  • Leadership:—个领导,踉着一组具有相同的运动物体(trendsetter + 空间约束)

图9

  • Flock(m,k,r):在半径r内,m个对象,k个连续点
  • Meet(m,k):至少m个对象,在半径r内,至少K个连续点

图10

聚合/分离运动模式

描述聚合和分离对象的运动

  • Encounter(m,r) : 至少m个对象同时到达半径为r的范围内
  • Convergence (m,r) : 至少m个对象经过达半径为r的范围内(不需要同时)
  • Divergence : 与Convergence相反
  • Breakup : 与Encounter相反

图11

基于密度的轨迹模式

  • TRACLUS
    • 密度相连轨迹段的聚类
    • 不考虑时间

图12

  • Moving Cluster

    • 在一个时间段内,一组对象相互靠近
  • Convoy

    • 基于密度链接的 “Flock (m,r).”

图14

  • Swarm
    • Time-relaxed convoy. 对象在时间上的倒数

图15

挖掘语义丰富的运动模式(Mining Semantics-Rich Movement Patterns)

  • 频繁移动模式:频繁出现在输入轨迹数据库中的移动序列
  • 频繁移动模式与频繁连续模式:
    • 两者都旨在从输入序列数据库找到频繁的子序列
    • 对于挖掘频繁运动模式,类似地方(例如下图右图以功能分类)可能需要分组以共同形成频繁子序列

图16

  • 语义丰富的运动模式:
    • 除了知道人们如何移动,从一个地区到另一个地区,我们也想了解地区的功能
    • 例如,office和home可能是在相同的地方,有着相同的功能;也可能在不同的地方,有着不同的功能。如上图左图所示。

Step1

找到一组反映人们粗糙的语义级转换的模式。例如,办公室→餐馆,家庭→健身房。

粗糙的语义在之前讲的progressive refinement中说过,是一些粗糙的语义定义,比如,办公室、办公场所,甚至是一些更加具体的名词,如政府办等。

Step2

通过分组,将每个粗糙分类的相似图案分成几个细粒度图案运动片段。

论文:C. Zhang et al.,Splitter: Mining Fine-Grained Sequential Patterns in Semantic Trajectories,VLDB 2014

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读5.3k次,点赞10次,收藏39次。本章详细写了mysql的安装,环境的搭建以及安装时常见的问题和解决办法。_mysql安装及配置超详细教程
文章浏览阅读1.8k次,点赞50次,收藏31次。本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。_直接将第4题的计算结果保存到/user/root/lisi目录中lisipi文件里。
文章浏览阅读7.8k次,点赞9次,收藏34次。ES查询常用语法目录1. ElasticSearch之查询返回结果各字段含义2. match 查询3. term查询4. terms 查询5. range 范围6. 布尔查询6.1 filter加快查询效率的原因7. boosting query(提高查询)8. dis_max(最佳匹配查询)9. 分页10. 聚合查询【内含实际的demo】_es查询语法
文章浏览阅读928次,点赞27次,收藏18次。
文章浏览阅读1.1k次,点赞24次,收藏24次。作用描述分布式协调和一致性协调多个节点的活动,确保一致性和顺序。实现一致性、领导选举、集群管理等功能,确保系统的稳定和可靠性。高可用性和容错性Zookeeper是高可用的分布式系统,通过多个节点提供服务,容忍节点故障并自动进行主从切换。作为其他分布式系统的高可用组件,提供稳定的分布式协调和管理服务,保证系统的连续可用性。配置管理和动态更新作为配置中心,集中管理和分发配置信息。通过订阅机制,实现对配置的动态更新,以适应系统的变化和需求的变化。分布式锁和并发控制。
文章浏览阅读1.5k次,点赞26次,收藏29次。为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
文章浏览阅读1.2k次,点赞26次,收藏28次。在安装Hadoop之前,需要进行以下准备工作:确认操作系统:Hadoop可以运行在多种操作系统上,包括Linux、Windows和Mac OS等。选择适合你的操作系统,并确保操作系统版本符合Hadoop的要求。安装Java环境:Hadoop是基于Java开发的,因此需要先安装和配置Java环境。确保已经安装了符合Hadoop版本要求的Java Development Kit (JDK),并设置好JAVA_HOME环境变量。确认硬件要求:Hadoop是一个分布式系统,因此需要多台计算机组成集群。
文章浏览阅读974次,点赞19次,收藏24次。# 基于大数据的K-means广告效果分析毕业设计 基于大数据的K-means广告效果分析。
文章浏览阅读1.7k次,点赞6次,收藏10次。Hadoop入门理论
文章浏览阅读1.3w次,点赞28次,收藏232次。通过博客和文献调研整理的一些农业病虫害数据集与算法。_病虫害数据集
文章浏览阅读699次,点赞22次,收藏7次。ZooKeeper使用的是Zab(ZooKeeper Atomic Broadcast)协议,其选举过程基于一种名为Fast Leader Election(FLE)的算法进行。:每个参与选举的ZooKeeper服务器称为一个“Follower”或“Candidate”,它们都有一个唯一的标识ID(通常是一个整数),并且都知道集群中其他服务器的ID。总之,ZooKeeper的选举机制确保了在任何时刻集群中只有一个Leader存在,并通过过半原则保证了即使部分服务器宕机也能维持高可用性和一致性。
文章浏览阅读10w+次,点赞62次,收藏73次。informatica 9.x是一款好用且功能强大的数据集成平台,主要进行各类数据库的管理操作,是使用相当广泛的一款ETL工具(注: ETL就是用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)到目的端的过程)。本文主要为大家图文详细介绍Windows10下informatica powercenter 9.6.1安装与配置步骤。文章到这里就结束了,本人是在虚拟机中装了一套win10然后在此基础上测试安装的这些软件,因为工作学习要分开嘛哈哈哈。!!!!!_informatica客户端安装教程
文章浏览阅读7.8w次,点赞245次,收藏2.9k次。111个Python数据分析实战项目,代码已跑通,数据可下载_python数据分析项目案例
文章浏览阅读1.9k次,点赞61次,收藏64次。TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。_星环tdh没有hive
文章浏览阅读836次,点赞21次,收藏19次。
文章浏览阅读1k次,点赞21次,收藏15次。主要介绍ETL相关工作的一些概念和需求点
文章浏览阅读1.4k次。本文以Android、java为开发技术,实现了一个基于Android的博物馆线上导览系统 app。基于Android的博物馆线上导览系统 app的主要使用者分为管理员和用户,app端:首页、菜谱信息、甜品信息、交流论坛、我的,管理员:首页、个人中心、用户管理、菜谱信息管理、菜谱分类管理、甜品信息管理、甜品分类管理、宣传广告管理、交流论坛、系统管理等功能。通过这些功能模块的设计,基本上实现了整个博物馆线上导览的过程。
文章浏览阅读897次,点赞19次,收藏26次。1.背景介绍在当今的数字时代,数据已经成为企业和组织中最宝贵的资源之一。随着互联网、移动互联网和物联网等技术的发展,数据的产生和收集速度也急剧增加。这些数据包括结构化数据(如数据库、 spreadsheet 等)和非结构化数据(如文本、图像、音频、视频等)。这些数据为企业和组织提供了更多的信息和见解,从而帮助他们做出更明智的决策。业务智能(Business Intelligence,BI)...
文章浏览阅读932次,点赞22次,收藏16次。也就是说,一个类应该对自己需要耦合或调用的类知道的最少,类与类之间的关系越密切,耦合度越大,那么类的变化对其耦合的类的影响也会越大,这也是我们面向对象设计的核心原则:低耦合,高内聚。优秀的架构和产品都是一步一步迭代出来的,用户量的不断增大,业务的扩展进行不断地迭代升级,最终演化成优秀的架构。其根本思想是强调了类的松耦合,类之间的耦合越弱,越有利于复用,一个处在弱耦合的类被修改,不会波及有关系的类。缓存,从操作系统到浏览器,从数据库到消息队列,从应用软件到操作系统,从操作系统到CPU,无处不在。
文章浏览阅读937次,点赞22次,收藏23次。大数据可视化是关于数据视觉表现形式的科学技术研究[9],将数据转换为图形或图像在屏幕上显示出来,并进行各种交互处理的理论、方法和技术。将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息,更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里,也是用户最直接感知数据的环节。数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。大数据可视化的实施是一系列数据的转换过程。