您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 边界检测基准的元理论
边界检测基准的元理论摘要人们以相应的评价算法标记数据集,在边界检测中发挥重要的作用。我们在这里提出了一种心理物理学实验,以确定该基准测试的可靠性。而为了找到更好的准则以评估任何一种边界检测算法的性能,我们提出了消除人类不适当的标签和估计边界的固有特性计算框架。1引言许多问题在人类和在计算机的视觉中是不明确的。在诸如边界检测的问题,没有客观的标准,确定是否有感知意义上相应的边界在描述中的某处界限。在制定边界检测算法性能的标准上,人们标记的数据集(例如bsds300[2]200训练图像和测试我100)起着关键作用。这些数据集描述以被人类标记的少数数据为隐含模型进行边界界定。然而,贴标机制并不总是很融洽。异变的本质与边界检测的不确定性质有关。然而,这里有一些令人惊讶的关于数据变异对边界检测和基准测试的影响的论述。即人们普遍认为,边界数据机(如BSDS300)是可靠的。单独检查,每一个边界似乎都有理由成为信息描述中的一些潜在的界限。在马丁等人看来[2],考虑到标签的变化是由于不同的贴标机制在不同层次的细节划分,[2]认为一个贴标机制可以将某一部分信息反应的十分详细,而对其他部分的描述则十分粗糙,不同的贴标机制是一致的在某种意义上,密集的标签细化稀疏标签没有矛盾。换句话说,这些不同的标签都来自同一个概念的知觉层次结构。尽管如此,一个特定区域内的整体相容性并不足以合理的成为整个系统的基准。为了能够客观的评估一个算法,基准材料必须避免类型一(假数据)和类型二(遗漏)的错误统计。而即使该标准在一个基准数据集的边界似乎是合理的,但它仍然是可能会遗漏一些同样重要的界限,留给我们一个不太完美的基准。有这两种错误类型的基准可能会对检测真实边界产生很不利的影响。我们在这里提出了一个框架来分析任何基准质量或benchability,并验证一定数量的实验已完善基准的最新资料库。2评估边界基准风险虽然不同的人们对同一个界限的标注往往包含几个像素的空间偏移,但他们相互之间并没有太多矛盾(例如,一个绘图里水平边界和其他的垂直边界在相同的位置)。基于这些观察,我们可以将来自不同层面对同一概念(图像边界)的标记进行混合之后形成一个主图,在每个像素位置i,贴标机制的响应L是一个二进制值(即,边缘和非边缘)。通过将所有贴标机制的响应联系起来。我们使用分配算法和主因素[3],以确定是否在某一位置(同一位置)合并相邻的来自不同分析层面的界限。为了评估一个基准的正确性,我们采用了一个双向的强制选择范式(如图1所示)。在任何一个试验中,一个想法是要求比较两局部边界段的相对感性的力量。类似于[2],我们没有给出具体的说明,可能会对一个特定类型的边界的结果偏差。这2种替代实验的优点是,它取消了大多数的认知因素的波动,如空间注意偏向,主题疲劳,和决策阈值,在每个主题是不同的。此外,相比繁琐的标签过程中,这种模式是更简单,更便宜地实现通过人群采购。给定足够数量的比较和受试者,我们可以确定任何对边界段的相对感性强度。这个框架对总边界的成分组合规划了严格的分类排序。我们通过设置每个边界段的边界加权值X进而映射于总边界上,因为一个采用更频繁的边界段(即选择更频繁地由受试者)的X是更大的想比另一个采用概率不高的边界段的X值。设定S是所有边界的数据集,是S中的一段边界值,并且是他的重要组成部分。我们可以定义一个边界集S的关系中产生的一些参考系数A作为边界算法的保险设置,算法如下:这种模式使我们能够评估任何数据的相关风险,如BSDS300。由于其杰出的人气,我们选择pB范围[3]作为算法的参考A值,我们选择pB的在边界的数量的一个临界值,使该算法下S值和参考值A相同S(#A=#S)。为了进一步说明其影响,我们进一步限制了采样标签集的子集,我们称S1为孤立标签,是指只有一个标签标记的边界而不是由其他L−1贴标机制。BSDS300的边界数据集的30.88%是孤立标签。我们使用了5个科目,对100对边界段进行比较分析(共500个试验)。对于每一对,我们使用的模式的所有5个科目的响应结果,以对其进行综合认定。预估S1的平均系数是0.44。那就意味着,几乎有半数情况,一个“误报”算法的边界响应要强于孤立标签的影响,它通常会被认为“真实”。鉴于孤立标签占据很大成分(几乎三分之一的所有边界),这使得使用BSDS300基准怀疑任何一个算法的有效性。给定的临界值τ,从而得到一个零风险的完美边界集,使得对于任何的和以及任意的都符合的。这个完美的集合可以由来自所有图像的所有可能的边界检查边界强度形成。当然,依据当前不可靠的贴标机制而注释的不完善的边界集S缺乏绝大多数未标记的像素信息。有一种可能性,“合格”的τ的边界存在于未标记的像素中。这个概率随着τ增加,因为在所有贴标机制中相对较强的边界是不可能被忽视的。事实上,以临界值τ1,我们得到了一个简单的解决方案:无风险但无用的空边。在本文中,我们把我们的分析限制在BSDS300现有的边界标签中,并试图为每段边界推断出更具决定意义的成分。通过图1的形式推断感知强度:通过双重例证,严格选取最优的实验。左边的图显示边界子集的维恩图。厚圆包含内是完整的边界集S,在S中孤立标签S1用绿色显示。PB的边界集A设置为虚线椭圆形。由算法A\S鉴定的虚边,即红色的凸显部分。在每次试验中,我们随机从S1(绿圈)和A\S(红色椭圆)中各选一个边界段,通过那五个科目测试评估判断哪一个是感性更强。双边界段(高对比度的红色线)叠加到原始图像(如图中所示)。同时,在一个单独的窗口中也将原始数据呈现给主体。总共有100个图像对所有5个科目进行比较。正确的数字显示风险该数据库的所有5个科目(即,错误的算法影响高于人的标签),。虚线是平均概率(0.5)。图1测试图像主题号选择一个合适的阈值,并形成一个边界段的子集,平衡程序的风险和实用度,我们指的是在选定的子集中可用的数据点的总数。在下一节中,我们提出了一个图形化模型,估计边界的感知强度。3模型与推理在标记过程,每个主题L,由她/他的内部物理参数决定,响应不同的感知强度段。所有的界限的响应和参数产生伯努利混合分布。此外,我们认为产生一个sigmoid函数形式。标记过程的图形化模型如图所示:图2图2:标记过程的图形化模型。该模型假设标签概率是由直觉因素和贴标机制的侧面响应确定的,并且通过隐藏参数更进一步的对其限制。灰色圆圈表示可观测变量,这是一个边界段的二进制的个体反应。该模型的输出是对各边界段的感知强度以及每个贴标机制的参数进行估测。在我们的模型中,产生一个均匀分布的。在S(•)的Sigmoid函数:。的概率视μ的投票不同而定,即。是高斯概率密度函数的零响应时σ的标准差。我们定义σ=0.5。我们用EM算法估计,(χ),和。我们从作为初始预演。在每一次迭代中,μ的值是通过给定。θ则取决于。对于X的估计,我们采用。优化过程收敛于20次迭代。知觉强度的分布如图3所示:4实验验证鉴于推断感知强度,我们选择了4个阈值=0.2,,和,形成了4个子集边界段。对于每个我们使用PB算法生成像这样的方式#=#。最后,通过那五项科目的实验对的风险进行评估。对于每一个图像,我们随机选择和的一段,然后把我们的受试者的反应投票多寡来估计相对强弱排序。以500个试验的平均值来估计每个子集的风险。结果如图3所示:图3:左1:初始猜测的感知强度分布。左二:感性的最终估计的强度分布。右1:对单个的风险评估。在这图像中,每个颜色对应于一个主题。右2:基于所有投票人的多数的风险评估。在右图中的虚线表明图1中的的风险系数。5讨论未来趋势在图3中显示的知觉强度分布有2个主要的趋势。首先,初始尖峰分布已成功地解决了,因为每个学科都有自己独特的特点。因此,在评估强度时他们的反应标记权重的不同。其次,许多边界强度自动抑制到零。事实上,这些零强度的边界段对应的孤立标签,这是最大的数据集来源。从右边的两图,我们看到,部分子集的风险随感性的强度阈值τ上升而降低。这一结果支持我们在美国证券交易委员会2所提到的风险效用模型。我们已经发现,即一个人标记的数据集,以很好的编制和检测,可以降低重要的风险对评估算法性能影响。我们首先提出一个物理测试估计人体数据集的风险,该风险来自于我们的错误分类,而大大增强了假信息的影响。我们讨论了一种推理模型来探明各边界段的感性力量,并用它来平衡风险与效用的权衡。由于篇幅限制,我们无法讨论其他因素如贴标机的图像分配的稳定性及其在感知强度的估计上的影响;双向受力的选择信息的理论极限,并利用不同的算法结果的变化。这些问题将在本论文的期刊投稿[1]。致谢作者在此感谢伟王,尹力,陈西(史蒂芬),和卡特丽娜。该研究得到了约翰霍普金斯大学和ONR通过,由Mathers基金作出裁决。
本文标题:边界检测基准的元理论
链接地址:https://www.777doc.com/doc-1996118 .html