高考考试网
当前位置: 首页 高考资讯

tensorflow脉冲神经网络(拓扑机器学习的神圣三件套)

时间:2023-07-04 作者: 小编 阅读量: 3 栏目名: 高考资讯

但是它正迅速成长,并引起了数据科学家的注意。所以TDA真的储存了一组你不可能在其他地方找到的数据特征。现在我们可以根据意愿重复这个操作,得到一堆点云。这对我们是个好消息:TDA可以直接计算这些结构是否能出现。相当明显的是后者有个洞,但前者没有TDA跟踪这些洞的方式实际上相当简单。红色的点代表相连的成分,蓝色的点代表洞接下来我们将解决的任务则是给定点云预测r的值。

作者:Mathieu Carrière

翻译:孙韬淳

校对:和中华

本文约4500字,建议阅读10分钟

本文简要介绍了机器学习中拓扑数据分析的力量并展示如何配合三个Python库:Gudhi,Scikit-Learn和Tensorflow进行实践。

标签:数据可视化

Hi大家好。今天,我想强调下在机器学习中拓扑数据分析(TDA,Topological Data Analysis)的力量,并展示如何配合三个Python库:Gudhi,Scikit-Learn和Tensorflow进行实践。

拓扑数据分析?

首先,让我们谈谈TDA。它是数据科学中相对小众的一个领域,尤其是当与机器学习和深度学习对比的时候。但是它正迅速成长,并引起了数据科学家的注意。很多初创企业和公司正积极把这些技术整合进它们的工具箱中(比如IBM,Fujitsu,Ayasdi),原因则是近年来它在多种应用领域的成功,包括生物学、时间序列、金融、科学可视化、计算机图形学等。未来我可能会写一个关于TDA一般用途和最佳实践的帖子,所以请大家等待下。

TDA:

https://en.wikipedia.org/wiki/Topological_data_analysis

IBM:

https://researcher.watson.ibm.com/researcher/view_group.php?id=6585

Fujitsu:

https://www.fujitsu.com/global/about/resources/news/press-releases/2016/0216-01.html

Ayasdi:

https://www.ayasdi.com/platform/technology/

生物学:

https://www.ncbi.nlm.nih.gov/pubmed/28459448

时间序列:

https://www.ams.org/journals/notices/201905/rnoti-p686.pdf

金融:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2931836

科学可视化:

https://topology-tool-kit.github.io/

计算机图形学:

http://www.lix.polytechnique.fr/~maks/papers/top_opt_SGP18.pdf

TDA的目标是对你数据的拓扑性质进行计算和编码,这意味着记录数据集中多样的连接成分,环,腔和高维结构。这非常有用,主要是因为其他描述符不可能计算这类信息。所以TDA真的储存了一组你不可能在其他地方找到的数据特征。现实情况是这类特征已被证明对提升机器学习预测能力很有用,所以如果你以前还没见过或听过这类特征,我来带你快速了解一下。

我已经写过很多这个主题的文章,你可以在Medium找到关于TDA的很多其他帖子,所以我不打算浪费时间在数学定义上面,而是通过解释TDA文献中的典型例子,来展示如何在你的数据集上应用TDA。

文章:

https://towardsdatascience.com/mixing-topology-and-deep-learning-with-perslay-2e60af69c321

帖子:

https://towardsdatascience.com/applied-topological-data-analysis-to-deep-learning-hands-on-arrhythmia-classification-48993d78f9e6

TDA的参考示例:点云分类

这个数据集在一篇开创性的TDA文章上介绍过。它由通过下述动力系统生成的轨迹来得到的点云集组成:

开创性的TDA文章

http://jmlr.org/papers/v18/16-337.html

一个动力系统的方程

这意味着我们将从一个单位正方形内随机抽取一个初始点,并通过上面的方程生成一个点的序列。这将给我们一个点云。现在我们可以根据意愿重复这个操作,得到一堆点云。这些点云的一个有趣的属性在于,根据你用来生成点序列的r参数的值,点云会有非常不一样且有意思的结构。比如,如果r=3.5,得到的点云似乎覆盖了整个单位正方形,但如果r=4.1,单位正方形的一些区域就是空的:换句话说,在你的点云里有好多洞。这对我们是个好消息:TDA可以直接计算这些结构是否能出现。

r=3.5(左)和r=4.1(右)计算出的点云。相当明显的是后者有个洞,但前者没有

TDA跟踪这些洞的方式实际上相当简单。想象给定半径为R的每个球的圆心都在你点云的每个点上。如果R=0,这些球的并集就是点云本身。如果R为无穷,那么球的并集是整个单位正方形。但如果R被很精心的选择,球的并集可能存在很多拓扑结构,比如,洞。

球并集的例子。对于中间图的并集,它清晰的组成了一个洞。整张图片被我“不要脸”地借用自我之前的一个帖子

帖子

https://towardsdatascience.com/a-concrete-application-of-topological-data-analysis-86b89aa27586

那么,为了避免人工选择R的“好值”,TDA将针对每一个可能的R值(从0到无穷)计算球的并集,并记录每个洞出现或者消失时的半径,并对一些点使用这些半径值作为二维坐标。TDA的输出则是另一个点云,其中每个点代表一个洞:这叫做Rips持续图(Rips persistence diagram)。假设点云在一个numpy数组X中储存(shape为N*2),通过Gudhi,这个图可以用两行代码计算出来:

import gudhirips = gudhi.RipsComplex(points=X).create_simplex_tree()dgm = rips.persistence()

这个漂亮的持续图由r=4.1对应的点云计算出。红色的点代表相连的成分,蓝色的点代表洞

接下来我们将解决的任务则是给定点云预测r的值。

通过Gudhi Scikit-Learn进行拓扑机器学习

持续图很简洁,是不是?它们存在的问题则是,从不同点云计算出的持续图可能有不同数量的点(因为点云可能有不同数量的洞)。所以如果你想用Scikit-Learn从持续图中预测r,不幸的是,没有直接的方法,因为这些库预期输入是一个结构化的向量。这也是为什么目前大量的工作是关于将这些持续图转化为固定长度的欧几里得向量,或者是开发对应的核。这很棒,但是你应该使用哪种呢?

不要担心!Gudhi再一次给你解决办法。通过它的表达(representation)模块,你不仅可以计算所有的向量和核,甚至也可以使用Scikit-Learn来交叉验证并且(或)选择最佳的一种。就像下面这么简单:

表达

https://gudhi.inria.fr/python/latest/representations.html

import gudhi.representations as tdafrom sklearn.pipeline importPipelinefrom sklearn.svm importSVCfrom sklearn.ensemble importRandomForestClassifier as RFfrom sklearn.neighbors importKNeighborsClassifier as kNNfrom sklearn.model_selection importGridSearchCVpipe = Pipeline([("TDA", tda.PersistenceImage()),("Estimator", SVC())])param = [{"TDA": [tda.SlicedWassersteinKernel()], "TDA__bandwidth": [0.1, 1.0],"TDA__num_directions": [20],"Estimator": [SVC(kernel="precomputed")]},{"TDA": [tda.PersistenceWeightedGaussianKernel()], "TDA__bandwidth": [0.1, 0.01],"TDA__weight": [lambda x: np.arctan(x[1]-x[0])], "Estimator": [SVC(kernel="precomputed")]},{"TDA": [tda.PersistenceImage()], "TDA__resolution": [ [5,5], [6,6] ],"TDA__bandwidth": [0.01, 0.1, 1.0, 10.0],"Estimator": [SVC()]},{"TDA": [tda.Landscape()], "TDA__resolution": [100],"Estimator": [RF()]},{"TDA": [tda.BottleneckDistance()], "TDA__epsilon": [0.1], "Estimator: [kNN(metric="precomputed")]}]model = GridSearchCV(pipe, param, cv=3)model = model.fit(diagrams, labels)

在前面的代码中,我尝试了带切片Wasserstein核和持续权重Gaussian核的核SVM、带有Persistence Images的C-SVM,带有Persistence Landscapes的随机森林,和一个带有所谓的持久图之间瓶颈距离(bottleneck distance)的简单KNN。在Gudhi中还有许多其他的可能,所以你一定要试试!如果想了解更多细节你也可以看看Gudhi的Tutorial。

带切片Wasserstein核:

http://proceedings.mlr.press/v70/carriere17a/carriere17a.pdf

持续权重Gaussian核:

http://proceedings.mlr.press/v48/kusano16.html

Persistence Images:

http://jmlr.org/papers/v18/16-337.html

Persistence Landscapes:

http://www.jmlr.org/papers/volume16/bubenik15a/bubenik15a.pdf

Gudhi的Tutorial:

https://github.com/GUDHI/TDA-tutorial/blob/master/Tuto-GUDHI-representations.ipynb

用Gudhi和Tensorflow/Pytorch进行拓扑优化

我很确信你目前已经成为了TDA的爱好者。如果你仍不相信,我还有其他的东西给你,这是受这篇论文启发。想象你现在想解决一个更难的问题:我想让你给我一个点云,这个点云的持续图有尽可能多的点。换句话说,你需要生成一个有好多洞的点云。

论文:

https://arxiv.org/abs/1905.12200

我可以看见你额头上出汗了。但我是很仁慈的,转眼间就能让你知道Gudhi(1)可以做这个。想一想:当你生成一个持续图时,这个图中不同点的坐标并不受全部的初始点云影响,是不是?对于这个持续图的一个给定点p,p的坐标仅依赖于在初始点云中组成p对应洞的点的位置,以一种简单的方式:这些坐标仅是球的并集使得这个洞出现或者消失时候的半径;或者,等价表达是,这些点中的最大的成对距离。而Gudhi(2)可以通过它的persistence_pairs()函数找出这些关系。梯度则可以简单的定义成欧几里得距离函数的导数(正式定义见这篇论文)。

Gudhi(1):

http://gudhi.gforge.inria.fr/python/latest/

Gudhi(2):

https://gudhi.inria.fr/python/latest/

这篇论文:

https://sites.google.com/view/hiraoka-lab-en/research/mathematical-research/continuation-of-point-cloud-data-via-persistence-diagram

接下来让我们写两个函数,第一个从点云中计算Rips持续图,第二个计算持续图点集的导数。为了可读性我简化了一点点代码,实际的代码可以从这里找到。

https://github.com/GUDHI/TDA-tutorial/blob/master/Tuto-GUDHI-optimization.ipynbdefcompute_rips(x):rc = gd.RipsComplex(points=x)st = rc.create_simplex_tree()dgm = st.persistence()pairs = st.persistence_pairs()return[dgm, pairs]defcompute_rips_grad(grad_dgm, pairs, x):grad_x = np.zeros(x.shape, dtype=np.float32)for i in range(len(dgm)):[v0a, v0b] = pairs[i][0][v1a, v1b] = pairs[i][1]grad_x[v0a,:] =grad_dgm[i,0]*(x[v0a,:]-x[v0b,:])/val0grad_x[v0b,:] =grad_dgm[i,0]*(x[v0b,:]-x[v0a,:])/val0grad_x[v1a,:] =grad_dgm[i,1]*(x[v1a,:]-x[v1b,:])/val1grad_x[v1b,:] =grad_dgm[i,1]*(x[v1b,:]-x[v1a,:])/val1returngrad_x

现在让我们把函数封装进Tensorflow函数中(对Pytorch同样简单),并定义一个损失loss,这个损失是持续图点到其对角线的距离的相反数。这将迫使图有很多点,它们的纵坐标比横坐标大得多。这样的话,一个点云会有很多大尺寸的洞。

import tensorflow as tffrom tensorflow.python.framework importopsdefpy_func(func, inp, Tout, stateful=True, name=None, grad=None):rnd_name = "PyFuncGrad"str(np.random.randint(0, 1e 8))tf.RegisterGradient(rnd_name)(grad)g = tf.get_default_graph()withg.gradient_override_map({"PyFunc": rnd_name}):returntf.py_func(func, inp, Tout, stateful=stateful, name=name)defRips(card, hom_dim, x, Dx, max_length, name=None):withops.op_scope([x], name, "Rips")asname:returnpy_func(compute_rips, [x], [tf.float32], name=name, grad=_RipsGrad)def_RipsGrad(op, grad_dgm):pairs = op.outputs[1]x = op.inputs[0]grad_x = tf.py_func(compute_rips_grad, [grad_dgm,pairs,x], [tf.float32])[0]return[None,None, grad_x,None,None]tf.reset_default_graph()x = tf.get_variable("X", shape=[n_pts,2], initializer=tf.random_uniform_initializer(0.,1.), trainable=True)dgm, pairs = Rips(x)loss = -tf.reduce_sum(tf.square(dgm[:,1]-dgm[:,0]))opt = tf.train.GradientDescentOptimizer(learning_rate=0.1)train = opt.minimize(loss)

现在我们开始优化!这是epochs 0,20,90的结果:

好多洞,好漂亮。。我们是不是在梦里。如果你想往前看看,使用其它的损失,查阅这个Gudhi的tutorial。

https://github.com/GUDHI/TDA-tutorial/blob/master/Tuto-GUDHI-optimization.ipynb

最后的话

这个帖子仅是一瞥由Gudhi,Scikit-Learn和Tensorflow提供的众多可能性。我希望我可以使你相信,在你的流程中整合TDA已经成为很简单的事情。即使许多TDA应用已经在文献中出现,肯定还有更多的应用需要去发现!

原文标题:

The Holy Trinity of Topological Machine Learning: Gudhi, Scikit-Learn and Tensorflow

原文链接:

https://towardsdatascience.com/the-holy-trinity-of-topological-machine-learning-gudhi-scikit-learn-and-tensorflow-pytorch-3cda2aa249b5

编辑:王菁

校对:林亦霖

译者简介

孙韬淳,首都师范大学大四在读,主修遥感科学与技术。目前专注于基本知识的掌握和提升,期望在未来有机会探索数据科学在地学应用的众多可能性。爱好之一为翻译创作,在业余时间加入到THU数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步。

—完—

关注清华-青岛数据科学研究院官方微信公众平台“ THU数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。

    推荐阅读
  • 济宁流动人员档案接收办理指南(山东省济宁市档案接收)

    2.非公有制企业和社会组织聘用人员:已在受理单位办理了单位委托集体存档申请。

  • 带墨的古风唯美名字(带墨的名字拼音及含义)

    跟着小编一起来看一看吧!带墨的古风唯美名字墨染:mòrǎn。用墨染成或指黑色。介词,古代工作。传说舜所作的乐曲名。墨辞红笺,长袖添香。

  • road怎么读(英语road怎么读)

    英语road怎么读road英[rəʊd]美[roʊd],n.路;道路;公路;(用于道路名称,尤指城镇的)路;途径;方法;路子[例句]Theroadwasclosedtotrafficfortwodays.这条路已经封路。

  • 你靠补钙就能治疗骨质疏松吗(光靠补钙就能治疗骨质疏松症)

    光靠补钙就能治疗骨质疏松症​30岁后,身体骨量会逐年减少,透过补钙想改善骨质疏松,大约能得到10%的效果,因为不只需要保健保养,这5件事情,也要从生活中建立习惯,才能有效改善骨质和减缓流失骨质疏松,几乎没有任何前兆,通常是不小。

  • 网店上应该怎么公示营业执照 网店上应该怎么公示营业执照名字

    我已办理了营业执照,网店上应该怎么亮照呢?《网络交易监督管理办法》第十二条规定:网络交易经营者应当在其网站首页或者从事经营活动的主页面显著位置,持续公示经营者主体信息或者该信息的链接标识。鼓励网络交易经营者链接到国家市场监督管理总局电子营业执照亮照系统,公示其营业执照信息。

  • 萌医甜妻电视剧多少集(萌医甜妻讲述了什么)

    萌医甜妻电视剧多少集“《萌医甜妻》这部网络剧一共24集,在2020年1月18日上映,该剧是由上海观达影业出品,该剧是由孙千、黄俊捷、康宁儿、纪征主演。”主要讲述了田七在太医院任职小太医,阴差阳错下被调职节度使府,遇到了冰山节度使纪衡,引发了一桩桩乌龙囧事的故事。

  • 幽默地夸自己的句子(适合夸自己的说说)

    幽默地夸自己的句子如果美是一种罪,那我已经罪恶滔天。有人说我美,我想了一晚上,究竟是谁走漏了风声。经常被自己美到双眼迷离,又不能亲自己。我要好好努力,要不然人家会说我除了长得好看,其他一无是处。像我这么美的人,一旷课就马上被老师发现。成绩这种东西,你丑你先排,我漂亮我随意。其实有时候,会不自觉的认为自己好美。每次去逛街,都有很多人给我发小广告、小传单,唉,这就是我,美得令人发纸。

  • 多疑是不是病(多疑也是病)

    避免自己受伤害。不相信父母,以为父母有可能偏心。不相信爱人对自己永远的忠诚。甚至不相信孩子永远忠诚自己的利益和意志。这些怀疑,对自己的人际关系和人情家庭产生了非常大的伤害。损伤肝肾精血,导致心肝血虚,心气不足。有些人还会出现胸闷心慌气短,劳累后加重,心口疼痛,等心脏症状。缺乏胆魄,难以决策,犹犹豫豫,在做事情创业方面,前怕老虎后怕狼。尽早治病求本,滋养肝肾精血,补益心肝之气,宁心安神。

  • 羊城通学生卡怎么办理(具体是怎么操作的)

    羊城通学生卡怎么办理?接下来我们就一起去研究一下吧!羊城通学生卡怎么办理下载羊城通APP并注册用户,进入“学生卡”-“学生卡申办”页面,按照指引进行学生资料填写、表格下载打印盖章及资料上传线上付费操作。羊城通公司进行资料审核,制卡完成。邮政快递小哥上门送卡。

  • 西游记五大未解谜团(西游记未解之谜)

    图片来源网络《西游记》的故事家喻户晓,表面上看讲的是唐僧取经,师徒四人不畏艰险战胜困难,终成正果。于是,民间就有这样一句俗语:“看了西游记,说话象放屁。”因此,我们可以十分肯定的说,《西游记》既没有宣传道家,也没有宏扬佛法。全篇第一回,开宗明义,诗曰:欲知造化会元功,须看《西游释厄传》。就像一天有12个时辰,一年有12个月一样。读《西游记》能更好的帮助我们了解人生的命运与造化。