工業(yè)大數(shù)據(jù)的復(fù)雜性高、可靠性要求高,但數(shù)據(jù)量可能相對偏小。認(rèn)識工業(yè)大數(shù)據(jù)的特點,本身就是個復(fù)雜的問題。
從以下幾個角度來談一談工業(yè)大數(shù)據(jù):
1、一次利用和二次利用
我們知道,收集和記錄數(shù)據(jù)都是有成本的。多數(shù)數(shù)據(jù)都是為了滿足某個應(yīng)用而產(chǎn)生、記錄的。大數(shù)據(jù)一般只是對數(shù)據(jù)的二次利用——或者叫廢物利用。一次利用是在線的,二次利用是離線的。隨著對大數(shù)據(jù)的重視,人們似乎應(yīng)該在產(chǎn)生一次數(shù)據(jù)的時候,就關(guān)注數(shù)據(jù)的二次利用:就像策劃生產(chǎn)的時候就關(guān)注廢物如何利用。
2、一線應(yīng)用和二線監(jiān)控
一線管理系統(tǒng)是為了滿足某個業(yè)務(wù)的需求,二線應(yīng)用是為了監(jiān)控。我曾經(jīng)有個比喻:一線應(yīng)用是政府、黨委、人大;二線監(jiān)控是政協(xié)、紀(jì)委、監(jiān)察。在數(shù)據(jù)成本很高的情況下,數(shù)據(jù)一般只服務(wù)于一線應(yīng)用;在數(shù)據(jù)成本低的情況下,數(shù)據(jù)會越來越多地服務(wù)于二線應(yīng)用。同時,在考慮一線應(yīng)用的時候,就要考慮到如何便于二線應(yīng)用。
3、可靠性要求高低
可靠性要求低的場合,分析相關(guān)性就可以了;可靠性要求高的場合,不僅要關(guān)注因果性,還要關(guān)注交叉驗證、證據(jù)的獨立性、反例的合理性??煽啃砸蟾叩臅r候,對數(shù)據(jù)分析的技術(shù)要求也高,但價值一般也大。
4、關(guān)聯(lián)關(guān)系復(fù)雜性高低
關(guān)聯(lián)關(guān)系復(fù)雜時,分析難度就大、出現(xiàn)錯誤的可能性就大。要解決這個問題,首先要把人腦中的知識結(jié)構(gòu)化地表述出來并有效地加以應(yīng)用。我常說:在工業(yè)界,數(shù)據(jù)挖掘得到的知識首先存在于人腦中、只是不精確;數(shù)據(jù)餓作用,是用來雕琢這些模糊知識。但是,要把人腦中的知識表達出來,要有合適的方法才行。我不贊同“知識存在于數(shù)據(jù)中,人的作用是挖掘這種知識。”
更多資訊請關(guān)注工業(yè)機器人頻道