人脸识别主要算法原理

主流的人脸识别技术基本上可以归结为三类，即：基于几何特征的方法、基于模板的方法和基于模型的方法。

1. 基于几何特征的方法是最早、最传统的方法，通常需要和其他算法结合才能有比较好的效果；
2. 基于模板的方法可以分为基于相关匹配的方法、特征脸方法、线性判别分析方法、奇异值分解方法、神经网络方法、动态连接匹配方法等。
3. 基于模型的方法则有基于隐马尔柯夫模型，主动形状模型和主动外观模型的方法等。

1. 基于几何特征的方法

人脸由眼睛、鼻子、嘴巴、下巴等部件构成，正因为这些部件的形状、大小和结构上的各种差异才使得世界上每个人脸千差万别，因此对这些部件的形状和结构关系的几何描述，可以做为人脸识别的重要特征。几何特征最早是用于人脸侧面轮廓的描述与识别，首先根据侧面轮廓曲线确定若干显著点，并由这些显著点导出一组用于识别的特征度量如距离、角度等。Jia 等由正面灰度图中线附近的积分投影模拟侧面轮廓图是一种很有新意的方法。
采用几何特征进行正面人脸识别一般是通过提取人眼、口、鼻等重要特征点的位置和眼睛等重要器官的几何形状作为分类特征,但Roder对几何特征提取的精确性进行了实验性的研究，结果不容乐观。

可变形模板法可以视为几何特征方法的一种改进，其基本思想是 :设计一个参数可调的器官模型 (即可变形模板),定义一个能量函数，通过调整模型参数使能量函数最小化，此时的模型参数即做为该器官的几何特征。
这种方法思想很好，但是存在两个问题，一是能量函数中各种代价的加权系数只能由经验确定，难以推广，二是能量函数优化过程十分耗时，难以实际应用。基于参数的人脸表示可以实现对人脸显著特征的一个高效描述，但它需要大量的前处理和精细的参数选择。同时，采用一般几何特征只描述了部件的基本形状与结构关系，忽略了局部细微特征，造成部分信息的丢失，更适合于做粗分类，而且目前已有的特征点检测技术在精确率上还远不能满足要求，计算量也较大。

2. 局部特征分析方法（Local Face Analysis）

主元子空间的表示是紧凑的，特征维数大大降低，但它是非局部化的，其核函数的支集扩展在整个坐标空间中，同时它是非拓扑的，某个轴投影后临近的点与原图像空间中点的临近性没有任何关系，而局部性和拓扑性对模式分析和分割是理想的特性，似乎这更符合神经信息处理的机制，因此寻找具有这种特性的表达十分重要。基于这种考虑，Atick提出基于局部特征的人脸特征提取与识别方法。这种方法在实际应用取得了很好的效果，它构成了FaceIt人脸识别软件的基础。

3. 特征脸方法（Eigenface或PCA）

特征脸方法是90年代初期由Turk和Pentland提出的目前最流行的算法之一，具有简单有效的特点, 也称为基于主成分分析(principal component analysis,简称PCA)的人脸识别方法。
特征子脸技术的基本思想是：从统计的观点，寻找人脸图像分布的基本元素，即人脸图像样本集协方差矩阵的特征向量，以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。

实际上，特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇，统称特征子脸。特征子脸在相应的图像空间中生成子空间，称为子脸空间。计算出测试图像窗口在子脸空间的投影距离，若窗口图像满足阈值比较条件，则判断其为人脸。
    基于特征分析的方法，也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量，这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系，而且也保留了各部件本身的信息，而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法。现在Eigenface(PCA)算法已经与经典的模板匹配算法一起成为测试人脸识别系统性能的基准算法；而自1991年特征脸技术诞生以来，研究者对其进行了各种各样的实验和理论分析，FERET'96测试结果也表明，改进的特征脸算法是主流的人脸识别技术，也是具有最好性能的识别方法之一。
    该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性，然后再计算出它们的几何特征量，而这些特征量形成一描述该面像的特征向量。其技术的核心实际为“局部人体特征分析”和“图形/神经识别算法。”这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。Turk和Pentland提出特征脸的方法，它根据一组人脸训练图像构造主元子空间，由于主元具有脸的形状，也称为特征脸  ,识别时将测试  图像投影到主元子空间上，得到一组投影系数，和各个已知人的人脸图像比较进行识别。Pentland等报告了相当好的结果，在 200个人的 3000幅图像中得到 95%的正确识别率，在ＦＥＲＥＴ数据库上对 150幅正面人脸象只有一个误识别。但系统在进行特征脸方法之前需要作大量预处理工作如归一化等。
    在传统特征脸的基础上，研究者注意到特征值大的特征向量 (即特征脸 )并不一定是分类性能好的方向，据此发展了多种特征 (子空间 )选择方法，如Peng的双子空间方法、Weng的线性歧义分析方法、Belhumeur的FisherFace方法等。事实上，特征脸方法是一种显式主元分析人脸建模，一些线性自联想、线性压缩型ＢＰ网则为隐式的主元分析方法，它们都是把人脸表示为一些向量的加权和，这些向量是训练集叉积阵的主特征向量，Valentin对此作了详细讨论。总之，特征脸方法是一种简单、快速、实用的基于变换系数特征的算法，但由于它在本质上依赖于训练集和测试集图像的灰度相关性，而且要求测试图像与训练集比较像，所以它有着很大的局限性。

基于KL 变换的特征人脸识别方法
基本原理:
KL变换是图象压缩中的一种最优正交变换，人们将它用于统计特征提取，从而形成了子空间法模式识别的基础，若将KL变换用于人脸识别，则需假设人脸处于低维线性空间，且不同人脸具有可分性，由于高维图象空间KL变换后可得到一组新的正交基，因此可通过保留部分正交基，以生成低维人脸空间，而低维空间的基则是通过分析人脸训练样本集的统计特性来获得，KL变换的生成矩阵可以是训练样本集的总体散布矩阵，也可以是训练样本集的类间散布矩阵，即可采用同一人的数张图象的平均来进行训练，这样可在一定程度上消除光线等的干扰，且计算量也得到减少，而识别率不会下降。

4. 基于弹性模型的方法

    Ｌａｄｅｓ等人针对畸变不变性的物体识别提出了动态链接模型 (ＤＬＡ)，将物体用稀疏图形来描述 (见下图)，其顶点用局部能量谱的多尺度描述来标记，边则表示拓扑连接关系并用几何距离来标记，然后应用塑性图形匹配技术来寻找最近的已知图形。Ｗｉｓｃｏｔｔ等人在此基础上作了改进，用ＦＥＲＥＴ图像库做实验，用 300幅人脸图像和另外 300幅图像作比较，准确率达到 97.3%。此方法的缺点是计算量非常巨大。
    Nastar将人脸图像 (Ⅰ ) (ｘ，ｙ)建模为可变形的 3Ｄ网格表面 (ｘ，ｙ，Ｉ(ｘ，ｙ) ) (如下图所示 )，从而将人脸匹配问题转化为可变形曲面的弹性匹配问题。利用有限元分析的方法进行曲面变形，并根据变形的情况判断两张图片是否为同一个人。这种方法的特点在于将空间 (ｘ，ｙ)和灰度Ｉ(ｘ,ｙ)放在了一个 3Ｄ空间中同时考虑，实验表明识别结果明显优于特征脸方法。
    Lanitis等提出灵活表现模型方法，通过自动定位人脸的显著特征点将人脸编码为 83个模型参数，并利用辨别分析的方法进行基于形状信息的人脸识别。弹性图匹配技术是一种基于几何特征和对灰度分布信息进行小波纹理分析相结合的识别算法，由于该算法较好的利用了人脸的结构和灰度分布信息，而且还具有自动精确定位面部特征点的功能，因而具有良好的识别效果，适应性强识别率较高，该技术在FERET测试中若干指标名列前茅，其缺点是时间复杂度高，速度较慢，实现复杂。

5. 神经网络方法（Neural Networks）

人工神经网络是一种非线性动力学系统，具有良好的自组织、自适应能力。目前神经网络方法在人脸识别中的研究方兴未艾。Valentin提出一种方法，首先提取人脸的 50个主元，然后用自相关神经网络将它映射到 5维空间中，再用一个普通的多层感知器进行判别，对一些简单的测试图像效果较好；Intrator等提出了一种混合型神经网络来进行人脸识别，其中非监督神经网络用于特征提取，而监督神经网络用于分类。Lee等将人脸的特点用六条规则描述，然后根据这六条规则进行五官的定位，将五官之间的几何距离输入模糊神经网络进行识别，效果较一般的基于欧氏距离的方法有较大改善，Laurence等采用卷积神经网络方法进行人脸识别，由于卷积神经网络中集成了相邻像素之间的相关性知识，从而在一定程度上获得了对图像平移、旋转和局部变形的不变性，因此得到非常理想的识别结果，Lin等提出了基于概率决策的神经网络方法 (PDBNN),其主要思想是采用虚拟 (正反例 )样本进行强化和反强化学习，从而得到较为理想的概率估计结果，并采用模块化的网络结构 (OCON)加快网络的学习。这种方法在人脸检测、人脸定位和人脸识别的各个步骤上都得到了较好的应用，其它研究还有 :Dai等提出用Hopfield网络进行低分辨率人脸联想与识别，Gutta等提出将RBF与树型分类器结合起来进行人脸识别的混合分类器模型，Phillips等人将MatchingPursuit滤波器用于人脸识别，国内则采用统计学习理论中的支撑向量机进行人脸分类。
神经网络方法在人脸识别上的应用比起前述几类方法来有一定的优势，因为对人脸识别的许多规律或规则进行显性的描述是相当困难的，而神经网络方法则可以通过学习的过程获得对这些规律和规则的隐性表达，它的适应性更强，一般也比较容易实现。因此人工神经网络识别速度快，但识别率低。而神经网络方法通常需要将人脸作为一个一维向量输入，因此输入节点庞大，其识别重要的一个目标就是降维处理。
PCA的算法描述：利用主元分析法 (即 Principle Component Analysis,简称 PCA)进行识别是由 Anderson和 Kohonen提出的。由于 PCA在将高维向量向低维向量转化时，使低维向量各分量的方差最大，且各分量互不相关，因此可以达到最优的特征抽取。

6. 其它方法：

除了以上几种方法，人脸识别还有其它若干思路和方法，包括一下一些：
1）隐马尔可夫模型方法（Hidden Markov Model）
2） Gabor 小波变换+图形匹配
（1）精确抽取面部特征点以及基于Gabor引擎的匹配算法，具有较好的准确性，能够排除由于面部姿态、表情、发型、眼镜、照明环境等带来的变化。
（2）Gabor滤波器将Gaussian网络函数限制为一个平面波的形状，并且在滤波器设计中有优先方位和频率的选择，表现为对线条边缘反应敏感。
（3）但该算法的识别速度很慢，只适合于录象资料的回放识别，对于现场的适应性很差。

3）人脸等密度线分析匹配方法
（1）多重模板匹配方法
该方法是在库中存贮若干标准面像模板或面像器官模板，在进行比对时，将采样面像所有象素与库中所有模板采用归一化相关量度量进行匹配。
（2）线性判别分析方法（Linear Discriminant Analysis，LDA）
（3）本征脸法
本征脸法将图像看做矩阵 ,计算本征值和对应的本征向量作为代数特征进行识别 ,具有无需提取眼嘴鼻等几何特征的优点 ,但在单样本时识别率不高 ,且在人脸模式数较大时计算量大
（4）特定人脸子空间(FSS)算法
该技术来源于但在本质上区别于传统的"特征脸"人脸识别方法。"特征脸"方法中所有人共有一个人脸子空间，而该方法则为每一个体人脸建立一个该个体对象所私有的人脸子空间，从而不但能够更好的描述不同个体人脸之间的差异性，而且最大可能地摈弃了对识别不利的类内差异性和噪声，因而比传统的"特征脸算法"具有更好的判别能力。另外，针对每个待识别个体只有单一训练样本的人脸识别问题，提出了一种基于单一样本生成多个训练样本的技术，从而使得需要多个训练样本的个体人脸子空间方法可以适用于单训练样本人脸识别问题。
（5）奇异值分解(singular value decomposition,简称SVD)
是一种有效的代数特征提取方法.由于奇异值特征在描述图像时是稳定的,且具有转置不变性、旋转不变性、位移不变性、镜像变换不变性等重要性质,因此奇异值特征可以作为图像的一种有效的代数特征描述。奇异值分解技术已经在图像数据压缩、信号处理和模式分析中得到了广泛应用.

7. 面像识别的主要商业系统

90年代中后期以来，一些商业性的面像识别系统开始进入市场。目前，主要商业系统包括：
● Visionics公司的FaceIt面像识别系统，该系统基于Rockefeller大学开发的局部特征分析(LFA)算法；
● Lau Tech.公司的面像识别/确认系统，采用MIT技术；
● Miros公司的Trueface及eTrue身份验证系统，其核心技术为神经网络；
● C-VIS公司的面像识别/确认系统；
● Banque-Tec.公司的身份验证系统；
● Visage Gallery’s 身份认证系统，基于MIT媒体实验室的Eigenface技术；
● Plettac Electronic’s FaceVACS出入控制系统；
● 台湾的BioID系统，它基于人脸、唇动和语音三者信息融合的Biometrics系统。

其中，FaceIt系统是最具有代表性的商业产品，目前已在很多地方得到了应用。去年，它在英国用于被称为“Mandrake”的反罪犯系统中，该系统在144个监控摄像机采集的视频序列中搜索已知的罪犯或者嫌疑犯，如发现可能的罪犯，系统将通知中心控制室的警员。
笔者曾使用过FaceIt系统，并对其进行了各项指标的评测。结果表明，该系统在控制光照、准正面（3坐标轴上的旋转不超过15度）、无饰物的情况下具有较好的识别性能。但在实用过程中也发现，只有训练集人脸图像的采集条件与测试集人脸图像的采集条件基本一致时才能具有良好的识别性能，否则，其性能将急剧下降，尤其光照变化、姿态变化、黑框眼镜、帽子、夸张的表情、胡须和长发等对其性能的影响更大。

面像识别系统的测试
    基于对面像识别技术在军事安全等领域重要性的考虑，美国国防部的ARPA资助建立了一个对现有面像识别技术进行评测的程序，并分别于1994年8月、1995年3月和1996年9月（截至1997年3月）组织了三次面像识别和人脸确认的性能评测，其目的是要展示面像识别研究的最新进展和最高学术水平，同时发现现有面像识别技术所面临的主要问题，为以后的研究提供方向性指南。尽管该测试只对美国研究机构开放，但它在事实上成为了该领域的公认测试标准，其测试结果已被认为反映了面像识别研究的最高学术水平。
    根据2000年公开发表的FERET’97测试报告，美国南加州大学(USC)、马里兰大学(UMD)、麻省理工学院(MIT)等研究机构的面像识别技术具有最好的识别性能。在训练集和测试集摄像条件相似的200人的识别测试中，几个系统都产生了接近100%的识别率。值得一提的是，即使是最简单的相关匹配算法也具有很高的识别性能。在更大对象集的FERET测试中（人数大于等于1166人），在同一摄像条件下采集的正面图像识别中，最高首选识别率为95%；而对用不同的摄像机和不同的光照条件采集的测试图像，最高首选识别率骤降为82%；对一年后采集的图像测试，最大的准确率仅仅接近51%。

该测试结果表明，目前的面像识别算法对于不同的摄像机、不同的光照条件和年龄变化的适应能力非常差，理应得到研究者的足够重视。而且值得注意的是，该测试中所用的人脸图像均为比较标准的正面人脸图像，姿态变化非常小，也没有夸张的表情和饰物，以及没有提及面部毛发改变的情况。所以，我们认为，除了FERET测试所揭示的上述面像识别研究需要面对的问题之外，还需要考虑诸如姿态、饰物（眼镜、帽子等）、面部表情、面部毛发等可变因素对面像识别性能的影响。这些因素也是开发实用的面像识别产品时必然会遇到的最关键的技术问题。
为进一步测试商业面像识别系统的性能，并揭示2000年前后面像识别技术的最新进展，美国国防部的反毒品技术开发计划办公室于去年5月和6月对美国的主要商业面像识别系统进行了评测，称为FRVT’2000（Face Recognition Vender Test）评测。该计划邀请了美国所有面像识别系统厂商参加，共24家，但只有8家响应，最终有5家公司参加了评测，而只有3家的系统在规定时间内完成了全部对比实验。可以认为，这3家公司的产品是目前最具竞争力的商业识别系统，它们分别是FaceIt系统、Lau Tech.公司的系统和C-VIS公司的系统。FRVT’2000评估了这些系统对图像压缩、用户-摄像机距离、表情、光照、录制设备、姿态、分辨率和时间间隔等影响因素的识别性能。结果表明，面像识别系统的性能与1997年的测试相比有了一定的进步，但其识别性能对各种条件，如光照、老化、距离、姿态等，仍然离人们的期望值较远。

国内：

中科院－上海银晨

近年来，国内学者在对特征脸技术进行认真研究的基础上，尝试了基于特征脸特征提取方法和各种后端分类器相结合的方法，并提出了各种各样的改进版本或扩展算法，主要的研究内容包括线性/非线性判别分析(LDA/KDA)、Bayesian概率模型、支持矢量机（SVM）、人工神经网络(NN)以及类内和类间双子空间(inter/intra-class dual subspace)分析方法等等。

　近年来，中科院计算所在对特征脸技术进行认真研究的基础上，尝试了基于特征脸特征提取方法和各种后端分类器相结合的方法，并提出了各种各样的改进版本或扩展算法，主要的研究内容包括线性/非线性判别分析(LDA/KDA)、Bayesian概率模型、支持矢量机（SVM）、人工神经网络(NN)以及类内和类间双子空间(inter/intra-class dual subspace)分析方法等等。

上一篇:人工智能数据服务之数据标注（一）：文本标注

下一篇:大数据基础数据标注行业的春天还是冬天？

推荐文章

数据与智能融合，新赛道的投资机会如何判断？

大数据领域经历了2013年开始的疯狂增长，2016年的断崖式下降，以及2018年以来的迭代复苏，单一的数据技术逐步与人工智能技术结合，应用场景从营销获客、金融风控等为主，转为与城市管理、工业制造等领域越来越深度的结合。大数据产业已进入2.0时代。新时代下，数据与智能融合，新赛道的投资机会如何判断？中国计算机学会（CCF）大数据专家委员会，每年年底都会发布下一年的大数据发展十大趋势预测。回顾从2013年到2019年的第一大预测，可以发现有意思的发展轨迹：数据的资源化（2013）、大数据从“概念”走向“价值”（2014）、大数据分析成为数据价值化的热点（2015）、可视化推动大数据平民化（2016）、机器学习继续成智能分析核心技术（2017）、机器学习继续成大数据智能分析的核心技术（2018）、数据科学与人工智能的结合越来越紧密（2019）。从大数据的概念兴起到寻找和挖掘大数据的价值，再到大数据的平民化以及大数据与人工智能的紧密结合，这是一个螺旋上升的过程。在这个过程中，整个大数据产业越来越认同：数据本身没有价值，经过清洗之后才能形成信息，信息只有经过整理才会形成知识，知识只有应用了才会形成智慧，智慧经过收集又变成数据，这是一个完整的循环。数据经过迭代和循环之后，基于场景化的应用才能创造价值，这已经成为产业共识。进入2018年，我们正处于大数据产业第一轮上升周期的最后阶段——智能应用阶段。现在，各种各样的IT公司、AI公司、大数据公司甚至是SI系统集成商等都在进入所谓“数据智能”领域，造成竞争非常激烈，使得很多从业者在审视方向和战略路径的时候产生了焦虑。其他赛道的争相融合，也使得数据智能赛道中的选手排名有很大的不确定性，再加上这些选手在一级市场高估值的现象，使得投资人在做判断的时候比较纠结。在2018年12月举办的钛资本“新一代企业级科技投资人投研社”在线研讨会第八期上，达晨财智业务合伙人窦勇分享了对数据智能产业的思考。窦勇在达晨财智负责大数据业务，同时也是中国首席数据官联盟专家组成员，其投资案例包括数联铭品、数据堂、昆仑数据、美林数据、蝎子网络、中奥科技、索为高科、锐思环保等。走进数据2.0时代大数据，通俗的讲就是一台机器干不完的事情，利用多台机器来完成。大数据能够快速发展的根本原因无非两个，一个是计算性能的提升，第二个存储成本的降低。对标国外来看，整个20世纪90年代之前，因为信息化尚未完成，数据量比较少。进入21世纪，移动互联网的兴起使得数据量飙升。2005年，雅虎解决网页搜索问题的时候，提出来两个概念——高性能计算、分布式存储，对行业有着很深远的意义。资本市场更关注的是2009年Splank的上市，来自资本市场的刺激让整个市场为之动容。而2014年Plantir的估值达到200亿美金，更是让国内的整个投资界为之疯狂。国内来看，从2013年到2017年12月9号，属于数据1.0时代，是进行认知、培训、泡沫、创新的过程。为什么以2017年12月9号为分界点呢？因为在这一天梅宏院士向中央递交了一个报告，从此整个行业进入了数据2.0时代，也就是数据场景化应用、深度融合的时代。云计算、大数据、人工智能这三者之间你中有我、我中有你、互利共存，一起促进了整个数据智能产业的发展。云计算的出现带动了大数据的热潮，后来人工智能变得更热了，是不是大数据就变得不重要了？其实大数据已经融入到了整个人工智能产业中。回顾数据1.0时代的投资逻辑数据1.0时代是一个体现数据差异化的时代，这个时代从消费领域的大数据开始，经历了机器大数据以及后来的工业大数据。机器大数据萌芽阶段是从2013年到2015年，从2015年进入成长阶段，新三板的介入助推了这个进程。在2016年之前，工业大数据没有得到太多的关注，整个产业现在也还处于发展的初期，这是因为工业领域的信息化尚未完成，有很多的不确定性因素，也存在大量机会。数据1.0时代，从产业角度来看，数据格式从结构化、半结构化、异构化等多样化的融合使得数据源变得更加丰富；而处理数据的手段，无论是基于Hadoop还是Spark的计算方式，都使得整个产业不断地迭代和演进。数据1.0时代的创业者无非有三类：第一类是原来的传统IT和系统集成商，这一部分群体的出现主要是因为在2015年整个数据行业处于高速发展中，在一级市场给出高估值的情况下，大部分IT系统集成厂商摇身一变成了所谓的数据厂商，他们胜在更贴近用户，但可能对于行业的认知不足，不太关注研发投入；第二类是拥有稀缺数据资源的厂商，他们凭着独有的数据资源能够带来独有的视角和商业价值；第三类是具备技术的创业团队，他们大部分来自于传统的企业IT公司，包括微软、IBM、Oracle等大型厂商，对于技术的应用比较强。在过去五年当中，这三者各有一席之地，但是最终在进入数据2.0时代的时候逐渐融合，都在往场景落地上走，也就是所谓的数据融合。数据1.0时代从资本的角度来看，2014年Palantir获得200亿美金的估值，加快了国内整个行业泡沫的形成。新三板2015年的推出导致整个行业的虚高。2016年6月1号，《网络安全法》的公布又矫枉过正。特别是对个人隐私数据的极端关注，导致大量行业从业者退出。而因为泡沫的存在，造成了大量黑产数据的形成，产业里面形成了大量的灰色地带。整个行业陷入极其消沉期是在2017年，由于对整个行业的未来方向都看不清楚，很多人到处尝试，数据行业投入的壁垒也在逐渐加大。2017年12月9日的“实施国家大数据战略”，为整个数据行业带来了一个新的方向。中国政府是数据最大的拥有者，也是数据最大的需求者，但本身没有技术能力使用数据。因此，如果没有政策的指引，地×××府也不敢投入。所以，2017年12月9日之后，整个行业迎来了快速发展。对于数据应用来说，什么样的行业领域才能体现数据价值？一是这个行业具备一定的信息化程度；二是具备购买数据服务的能力；三是具有数据安全或安全数据，数据安全是指数据资产本身从流通到应用过程中的安全，安全数据是指数据来源的合法性，对这个问题必须慎之又慎。对大数据企业进行估值也比较挑战，传统的估值模型往往在现实中不成立。数据企业具有一个显著的特点：除了轻资产外，其它的什么都没有。对于这类型资产怎么进行估值？投资机构在最开始做数据企业估值的时候肯定是“两眼一抹黑”，不过可以基于三个方面的目的进行判断：第一，投资机构确实想进入这个市场，所以在有标的物的估值方面可能会采取折中的办法；第二，投资以退出为目的，估值取决于需要多长时间能够收回本金；第三，数据企业的产品应用场景在哪里，用户的反馈是什么。还有一些比较实用的小技巧：第一，数据企业到底能解决什么样的问题，是否具备可复制性，持续能力在哪里；第二，团队的构成是否互补，数据企业往往都是科学家型，在面对市场时有哪些短板，如果后期补齐了短板，成长的能力又在哪里；第三，创业早期可能对财务指标不会太在意，但是对于资金的使用去向要特别关注。数据2.0时代：场景逻辑，巨头形成数据2.0时代到底是什么样的呢？从产业内部来看：第一，普适性的教育已经初步完成，分工明确、需求也十分确定，给整个数据产业带来了一个快速发展的强周期，具备了天时、地利和人和；第二，随着金融资本市场进一步的回落，对于数据企业的认知更加回归本质，资本市场给整个产业带来的泡沫逐渐消亡，原来单纯靠PPT演讲就能融资的情况已经基本不存在了。从产业外部来看：第一，资本市场回归理性，泡沫空间变小。都知道2018年难熬，大家的口号都是“活下去”；第二，外部政策环境持续利好，无论是科创板的即将开板，还是国家把数据行业定位为新经济的重要支柱，都给数据产业的良性发展提供了一个良好的外部环境。天时、地利、人和都具备了，可以预测，大数据企业在未来的一段时间将形成以下三个良性发展：第一：场景落地的效应更加明确。到底是针对什么样的场景解决什么样的问题，这种场景是否具备可复制性，持续效应在哪里，如何随着时间的推移得到进一步的应用；第二，数据龙头企业形成。资本寒冬后留下来的是良品，大数据企业会趋于一种寡头效应。凭借着资本市场以及行业里大量的沉淀，将形成对整个产业的新认知。现在二级市场上虽然很多自称大数据企业，其实真正的大数据企业可能寥寥无几，可以期待之后真正的数据巨头形成；第三个是技术更新加快。现在无论是从硬件还是软件，整个产业层面对于数据行业的支撑在不断的加快演进与迭变。无论是从计算性能还是存储效率来看，计算效率的极大提升将驱动产业进一步良性的发展。回归到本质来看，数据2.0时代的“场景落地”到底指的是什么样的场景？这个场景一定是在信息化基本完成的行业里，并且行业具有较强的支付能力。创业公司也不再是项目型，而是以产品的形式带动整个产业的发展。工业互联网：数据2.0的典型场景在场景落地方面，工业互联网是一个典型的细分赛道。2017年12月9号之后，最让整个产业界兴奋的事件，就是工业富联上市。工业互联网赛道在当前的寒冬期仍相当红火，主要推手有两个：一个是工信部信通院在推广工业互联网板块，另一个是国家层面的“中国制造2025”。这两个推手促成了工业互联网赛道的趋之若鹜。但目前我国的工业尚处于3.0阶段，难以跟以高科技著称的美国工业互联网、以机械著称的德国工业互联网对标，所以国家提出了“中国制造2025”。虽然这只是纲领性的文件，但是对整个产业界、投资界以及工业互联网创业圈的振动却不小。从“中国制造2025”的宏伟目标看，其中的产业机会达上万亿。但整个赛道从投资者的角度来看，创业者并不多。因为既懂IT又懂工业的人少之又少，整个工业互联网赛道看似有巨大的商业机会，但从基本面来看还处于一个比较落后的阶段。投资人应该怎么看工业互联网？工业互联网可以分两部分：第一，透明工厂，就是在工厂内部围绕产品打通原料、生产流、信息流、资金流，实现设备智能化、流程信息化、过程网络化；第二，以前当产品离开工厂后就很难再与工厂发生联系，而从工业互联角度考虑就要以用户为中心，实现需求个性化、体验场景化、用户生态化。围绕这两部分，工业互联网的体系，从产品全周期管理开始到最终用户互联互通，形成了一个生态。生态当中流通的是数据，以数据的方式驱动整个产业的布局。按三个层级划分，工业互联网领域可以布局的赛道具体有以下这些：第一，边缘层。围绕工业互联网的数据汇聚基础，值得布局的赛道有工业传感器、5G、芯片产业。实际上，传感器领域还是被国外厂商垄断，5G核心芯片也是类似情况。但是，随着带宽的提高，采集数据的成本降低了。物联网领域，形成了M2P（Machine-to-Person机器与人连接）和M2M（Machine-to-Machine机器与机器连接），数据的流通得到了进一步的加强。当然芯片不是靠钱能堆出来，但是基于工业互联网的单片机相对比较容易，投入资金也能促成一些基于行业场景化、定制化的芯片，所以这个领域还是有一定的机会。第二，平台层。可以关注几个方向：首先是行业内的应用平台，这是因为没有行业应用具体特征的数据平台会比较空泛，而解决工业领域各种细分需求的平台需要花费更多时间打造；其次，从技术逻辑角度来看，基于工业产品的时空数据库并没有较好的解决方案，相应可以布局专门针对工业领域数据特点的解决方案。第三，应用层。因为这个行业相对比较早期，哪怕相对比较大型的企业如树根互联、网智天元、徐工信息等，可能在某一个细分领域凭借原来的行业经验积累了丰富的应用，或者凭借母公司带来相对垄断的资源，但也还都是项目制的方式运营，完全以标准化产品提供服务的还比较少。应用层的创业和投资机会，可以从两个方面考察：第一，信息化是否提前完成；第二，有资金和技改经费。按照这两个标准，能源、电力、高端装备制造业等都是比较好的选择。整体来说，在工业互联网板块三个层级里，哪一个层级会先有选手跑出来呢？从用户的角度来看，可能是平台层。虽然没有边缘层这些企业解决数据采集、数据治理、数据清洗的问题，平台层无从谈起。但是边缘层往往吃力不讨好。大的企业客户往往急于看到效果，对于平台层的需求往往超出对于边缘层的需求。应用层是不是没有机会呢？也不是。但是在工业互联网领域，用户在意的是究竟能不能解决问题。从行业来看，一定是在能源、电力、高端装备制造业等板块，会较早的跑出一些选手。大数据领域经历了2013年开始的疯狂增长，2016年的断崖式下降，以及2018年以来的迭代复苏，单一的数据技术逐步与人工智能技术结合，应用场景从营销获客、金融风控等为主，转为与城市管理、工业制造等领域越来越深度的结合。大数据产业正进入到2.0时代。新时代下大数据与人工智能的融合，已然成为各行各业技术驱动、产业升级的重要支撑。具备数据智能的能力、以场景应用为中心的项目，将成为大数据领域的投资主流。