操作是指对要描述的数据的操作 。包括每个操作的操作类型和具体操作模式 。数据的一些操作与其中隐含的推理规则相关联,推理规则用于操作目标类型的有效数据对象集 。
约束是指数据结构内部或数据与数据之间的组织规则、相互关系、约束和依赖关系 , 以及数据动态变化的规范 。数据约束的目的是保证数据在存储和处理过程中的正确性、一致性和兼容性 。
基于数据结构、数据操作和数据约束的底层逻辑 , 形成了三种常见的数据模型:层次数据模型、网格数据模型和关系数据模型 。
3.函数模型的含义
函数是表示实体变量和实体变量之间转换关系的模型 。
与业务模型和数据模型不同,功能模型几乎只用于表达实体变量之间的关系 。这种关系用数学函数的形式表达,更加准确、多样、简洁、丰富 。函数的“规范和标准”是现实世界和商业中实体变量之间的真实关系 。而它的“风格”是一种功能 。在数学中,一个函数有三个要素:定义域、值域和相应的规则,这三个要素也是函数模型的前提和要素 。
域定义函数的输入范围 , 值域定义函数的输出范围,对应规则决定输入到输出的映射关系 。对于函数模型,可以预先指定这种映射关系,指定的内容既包括函数形式,也包括参数值 。也可以不指定参数值,先确定函数形式,使用时再确定其参数值 。
一般使用函数模型时 , 首先要确定函数形式 。函数参数的确定有两种方式:一种是直接指定这些函数的参数,或者经过一定程度的分析后指定函数模型的参数;另一种想法是假设当前数据的输入和输出之间的映射结果是已知的,或者输出的目标形式是已知的 。根据投入产出的关系,设定一定的目标,通过一定的机制自动计算这些参数 。在确定函数形式后,通过数据计算参数的整个过程 , 通常称为机器学习 。利用数据计算参数的功能模型就是机器学习模型 , 利用数据计算机器学习模型参数的动态过程称为模型参数训练 , 简称训练 。
常见的机器学习模型(包括深度学习模型)都是功能模型 。
02如何理解“好”?
可见,模型是对现实世界的丰富和模仿 。一个好的模型必须是能够以尽可能低的成本尽可能真实地反映客观世界的总体情况的模型 。
但是,这种说法很简单,面对实际场景,“好”的具体形式往往会让我们感到力不从心 。
这不得不提到数据科学领域非常流行的一句话:“好数据胜过好特征,好特征胜过好算法 。”当应用到机器学习时,这句话还有另一种表达方式:“数据和特征决定了机器学习的上限,而模型刚好逼近这个上限” 。因此,无论是在推荐领域还是在广告领域;无论是在电子商务系统中还是在Feed流中...确定某些业务场景,确定数据规模和数据维度,几乎可以确定“最佳”模型能够实现的最佳能力 。我只是说,找到这样的模式会特别困难 。
1.一个好的模型是一个能取得更好商业成果的模型 。
在不同的业务场景中,数据形式是不同的 。即使在相同的业务场景中,由于数据量的大小和数据维度的数量,“上限”也会有所不同 。有时候,我们认为能取得更好商业成果的模式才是更好的模式 。说真的,有时候这个锅真的不应该有模型做后盾 。一个好的模型应该是在一定的数据规模和数据维度下 , 能够最接近上限的映射反应 。
2.好的模型是能够反映真实业务关系的模型 。
接近数据上限和特征确定主要取决于模型本身通过参数的调整能力 。但影响模型商业效果的另一个因素也不容忽视:模型的归纳偏差 。在数据科学理论中 , 模型的归纳偏差被视为反映数据样本的先验假设 。归纳偏差是数学和逻辑中的一个形式概念,但在数据科学中,这个概念与函数模型很好地解耦 。归纳偏向是一些简单的逻辑表达,不应该由空来构思 , 应该根据实际的业务场景来细化 。
例如,在SVM模型中 , 我们认为不同分类的分类超平面与两个分类的支持向量之间的距离应该相等且最大 。但是为什么呢?这是因为我们认为两类之间的间隔应该是这样的,这是从“业务”中带进来的一个假设 。但是在下面的场景中,两类之间的平面应该更接近A还是B呢?方块的数量很大,这么多样品集中在一块空 。我们也有理由相信B更有可能是分类的边界超平面 。当然,这也是一种假设 。
在考虑建模时,不需要过多考虑归纳偏差 。真正需要考虑的归纳偏差应该在模型建立之前(即选择模型时)进行 。在选择或设计模型时 , 归纳偏差是一个非常重要的考虑因素 。有些模型甚至是基于特定的电感偏置设计的 。如果归纳偏差本身远离商业现实,基于归纳偏差设计的模型将失去意义 。
推荐阅读
- 稻田养什么鱼最好养
- 环牛变压器的绕法
- 猫跑到家里有什么征兆 猫跑家里有什么预兆
- 激光冷凝术的副作用,激光手术后有哪些副作用?
- 秋天的菠萝能吃吗 中秋节的菠萝可以吃吗
- 流水施工的经济效果有哪些
- 宋太祖怕史官文言文翻译 宋太祖怕史官文言文翻译是什么
- 重返艾泽拉斯是什么梗 重返艾泽拉斯是什么意思
- 《侠客风云传前传》画面感受分享