您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > Maxent简要使用教程
Maxent简要使用教程在AT&TLabs-Research、普林斯顿大学、生物多样性和生物技术研究中心以及美国自然历史博物馆的支持下,本教程由StevenPhillips,MiroDudik和RobSchapire撰写,基本介绍了如何使用MaxEnt程序对物种的地理分布进行最大熵建模。有关最大熵建模背后的理论以及此处使用的数据和统计分析的主要类型的详细说明,请参见StevenJ.Phillips,RobertP.AndersonandRobertE.Schapire,Maximumentropymodelingofspeciesgeographicdistributions.EcologicalModelling,Vol190/3-4pp231-259,2006.Twoadditionalpapersdescribingmorerecently-addedfeaturesoftheMaxentsoftwareare:StevenJ.PhillipsandMiroslavDudik,ModelingofspeciesdistributionswithMaxent:newextensionsandacomprehensiveevaluation.Ecography,Vol31,pp161-175,2008.StevenJ.Phillips,etal.Openingtheblackbox:anopen-sourcereleaseofMaxent.Ecography,Inpress,2017.我们使用的环境数据包括南美的气候和海拔数据以及潜在的植被层。我们的物种样本是褐喉三趾树懒(Bradypusvariegatus)。这些数据来自2001年的Anderson&Handley分类法修订版(),和Phillips的2006年论文中。本教程将假定所有数据文件都与maxent程序文件位于同一目录中。否则,您将需要在此处使用的文件名前面使用路径(例如c:\data\maxent\tutorial)。如果您想在出版物,报告或在线文章中引用本教程,请适当引用以下内容:Phillips,S.J.2017.ABriefTutorialonMaxent.Availablefromurl:开始下载该软件包含一个jar文件maxent.jar,可以在运行Java1.4或更高版本的任何计算机上使用。可从下载Maxent及其相关文献。可以从java.sun.com/javase/downloads获得Java运行时环境。如果您使用的是MicrosoftWindows(如此处假设),则还应下载文件maxent.bat,并将其保存在与maxent.jar相同的目录中。该网站有一个名为“readme.txt”的文件,其中包含有关在计算机上安装程序的说明。注:maxent网址在中国国内须通过VPN才能打开。安装如果使用的是MicrosoftWindows,只需单击文件maxent.bat。或者,请在命令外壳程序中输入“java-mx512m-jarmaxent.jar”(其中“512”可以替换为您希望程序可用的兆字节内存)。或者选中maxent.jar,点击鼠标右键,打开方式选择OpenJDKplatformbinary。将出现以下屏幕:要执行运行,您需要提供一个包含存在位置(经纬度)的文件(“samples”),一个包含环境变量(环境图层)的目录和一个输出目录。在我们的示例中,存在位置的文件位于“samples\bradypus.csv”中,环境层位于目录“layers”中,输出将进入目录“outputs”。您可以手动输入这些位置,或浏览它们。注:samples和layers文件可以在,点击tutoria下的tutorial-data,进行下载。浏览环境变量时,请记住,您正在寻找包含它们的目录-无需向下浏览到目录中的文件。输入或浏览Bradypus的文件后,该程序如下所示:注:本人将所有文件都放入D:\MAXENT模型软件。包含存在位置的csv格式文件“samples\bradypus.csv”。前几行是如下:species,longitude,latitudebradypus_variegatus,-65.4,-10.3833bradypus_variegatus,-65.3833,-10.3833bradypus_variegatus,-65.1333,-16.8bradypus_variegatus,-63.6667,-17.45bradypus_variegatus,-63.85,-17.4同一样本文件中可能有多个物种,在这种情况下,伴随着bradypus,面板上会出现更多物种。如果样本文件和环境层使用相同的坐标系,则可以使用纬度和经度以外的坐标系。示例文件中的“x”坐标(在我们的情况下为经度)应在“y”坐标(纬度)之前。如果状态数据具有重复记录(同一网格单元中相同物种的多个记录),则默认情况下将删除重复记录;可以通过单击“设置”按钮来更改取消选择“删除重复的在场记录”。目录“图层”包含许多ascii栅格网格(以ESRI的.asc格式),每个栅格网格都描述了一个环境变量。网格必须都具有相同的地理范围和像元大小(即所有ascii文件标题必须彼此完全匹配)。我们的变量之一“ecoreg”是描述潜在植被类别的分类变量。类别必须用数字表示,而不是字母或单词。您必须告诉程序哪些变量是类别变量,如上图所示。运行只需按下“运行”按钮。进度监视器描述了要采取的步骤。加载环境层并完成一些初始化后,maxent模型的训练进度如下所示:增益与偏差密切相关,偏差是广义加性模型和广义线性模型中使用的拟合优度的度量。它从0开始,并在运行过程中向渐近线增加。在此过程中,Maxent正在从网格的均匀分布开始,并不断提高数据的拟合度,从而在网格中的像素上生成概率分布。增益定义为当前样本的平均对数概率,减去使均匀分布具有零增益的常数。运行结束时,增益表示模型在当前样本周围的集中程度。例如,如果增益为2,则表示当前样本的平均可能性比随机背景像素的平均可能性高exp(2)≈7.4倍。请注意,Maxent不是直接计算“发生概率”。它分配给每个像素的概率通常很小,因为在网格中所有像素的值之和必须为1(尽管在比较输出格式时返回到这一点)。运行会生成多个输出文件,其中最重要的HTML文件是“bradypus.html”,这是分析模型时最重要的文件。该文件的一部分提供了指向其他输出的指针,如下所示:看一个预测要查看bradpus.html中可能还有其他(更有趣的)输出,我们将打开几个选项并重新运行模型。按“Makepicturesofpredictions”,然后单击“Settings”,然后在“Randomtestpercentage”条目中键入“25”。然后,再次按“运行”按钮。运行完成后,文件bradypus.html包含以下图片:注:仅选择Autofeature出的图注:选择Autofeature,Linearfeatures,Quadraticfeatures,Productfeatures,Hingefeatures出的图图像使用颜色指示条件适合的预测概率,红色指示该物种适合的条件的概率很高,绿色指示该物种适合的条件的典型条件,蓝色的浅阴影指示适合条件的概率较低。对于Bradypus来说,我们预计中美洲大多数低地,南美西北部的湿地低地地区,亚马逊河流域,加勒比海岛屿以及巴西东南部的许多大西洋森林都非常可能有合适的条件。网页中显示的图像文件(.png),您可以单击(在Windows中)或在大多数图像处理软件中打开。如果要复制这些图像,或者要使用其他软件打开它们,则将在运行之后,创建为输出名为“plots”的目录中找到.png文件。测试点是从物种存在地点中抽取的随机样本。每次在同一数据集上运行Maxent时,都会使用相同的随机样本,除非您选择“Randomseed”设置面板上的选项。或者,可以通过“设置”面板中名称为“Testsamplefile”的browser提供单独的文件中的一种或多种物种的测试数据。输出格式Maxent支持四种输出模型值的格式:原始,累积,逻辑和阻塞。首先,原始输出只是Maxent指数模型本身。第二,对应于r原始值的累加值是最大r下的原始值的Maxent分布百分比。最好根据预测遗漏率来解释累积输出:如果我们将累积阈值设置为c,则用Maxent分布本身抽取的样本的二元预测的遗漏率将为c%,并且我们可以从物种分布中得出预测样本的相似遗漏率。第三,如果c是最大分布熵的指数,则与r的原始值对应的逻辑值为c·r/(1+c·r)。这是一个逻辑函数,因为原始值是环境变量的指数函数。与r的原始值对应的cloglog值为1-exp(-c·r)。四种输出格式都是单调相关的,但它们的缩放比例是不同的,并且具有不同的解释。默认输出是cloglog,这是最容易概念化的:给出存在概率在0到1之间的估计值。请注意,存在的可能性在很大程度上取决于采样设计的细节,例如方形样本的大小和(对于易变的生物)观察时间;cloglog输出估计存在的概率,假设采样设计使典型存在位置的每个方格个体的达到预期丰度,这导致存在的概率约为0.63。上面Bradypus模型的图片使用逻辑格式输出,该格式与cloglog输出非常相似,但是基于不同的理论依据。相比之下,使用原始格式可得到以下图片:请注意,我们的颜色使用了对数刻度。线性刻度主要是蓝色的,带有少量红色像素(您可以通过在“settings”面板Experiental栏取消选择“Logscalepictures”来验证这一点),因为原始格式输出通常会为少数位置提供相对较大的值-这可以认为是原始输出由指数分布给出的人工产物。使用累积输出格式可以看到下图:与原始输出一样,我们使用对数刻度为图片着色,以强调较小值之间的差异。累积输出可以被认为是根据阈值在1-20(或从黄色到橙色,在此图中为黄色)之间预测物种的合适情况,取决于使用可接受的预测遗漏水平。统计分析我们为“randomtestpercentage”输入的“25”告诉程序随机留出25%的样本记录进行测试。这使程序可以进行一些简单的统计分析。许多分析使用阈值进行二元线性预测,其中合适的条件预测高于阈值,而不合适的条件低于阈值。第一个图显示了测试和训练的遗漏以及预测面积随累积阈值的选择而变化,如下图所示:在这里,我们看到测试样本的遗漏率与预测的遗漏率非常匹配,该预测率是从Maxent分布本身得出的测试数据的遗漏率。根据累积输出格式的定义,预测的遗漏率是直线。在某些情况下,测试遗漏线位于预测遗漏线的下方:常见原因是测试和训练数据不是独立的,例如,如果它们来自相同的空间自相关的存在数据。下图给出了训练和测试数据的接收机工作特性曲线(ROC),如下所示。此处还给出了ROC曲线下的面积(AUC)。如果有测试数据,则稍后将在网页中给出测试数据上AUC的标准误差。如果您使用相同的数据进行训练和测试,则红线和蓝线将相同。如果将数据分成两个分区,一个用于训练,一个用于测试,则红色(训练)行显示的AUC高于蓝色(测试)行是正常的。红色(训练)线显示了模型对训练数据的“拟合”。蓝色(测试)线表示模型与测试数据的拟合,并且是模型预测能力的真实测试。绿松石线表示如果模型不比随机模型好,您所期望的线。如果蓝线(测试线)低于绿松石线,则表明您的模型比随机模型的性能差。蓝线越靠近图
本文标题:Maxent简要使用教程
链接地址:https://www.777doc.com/doc-7213798 .html