通用大數據架構為什么不適合處理物聯網數據？

Jeff Tao

2019-07-09 / Chinese, 技術文章 - 時序數據庫

為處(chu)理(li)(li)日益(yi)增長的(de)互(hu)聯網數據，眾多(duo)的(de)工具開始出現，最流(liu)行的(de)應該(gai)是Hadoop體系。除(chu)使用(yong)大家(jia)所熟悉的(de)Hadoop組件(jian)如HDFS、MapReduce、HBase和Hive外(wai)，通(tong)用(yong)的(de)大數據處(chu)理(li)(li)平臺往往還使用(yong)Kafka或(huo)其(qi)(qi)他(ta)消息隊列工具，Redis或(huo)其(qi)(qi)他(ta)緩存軟件(jian)，Flink或(huo)其(qi)(qi)他(ta)實時流(liu)式數據處(chu)理(li)(li)軟件(jian)。存儲上(shang)也有人(ren)選(xuan)用(yong)MongoDB，Cassandra或(huo)其(qi)(qi)他(ta)NoSQL數據庫。這(zhe)樣一個典型的(de)大數據處(chu)理(li)(li)平臺基(ji)本上(shang)能(neng)很好的(de)處(chu)理(li)(li)互(hu)聯網行業的(de)引用(yong)，比如典型的(de)用(yong)戶畫像、輿(yu)情分(fen)析等(deng)等(deng)。

很自然(ran)，在物(wu)聯(lian)(lian)網(wang)、車(che)聯(lian)(lian)網(wang)、工業互(hu)聯(lian)(lian)網(wang)起來(lai)后，大家都想到的(de)是用(yong)通(tong)用(yong)的(de)大數據(ju)(ju)處(chu)理(li)平臺(tai)來(lai)處(chu)理(li)它(ta)們的(de)數據(ju)(ju)。現(xian)在市場上流行的(de)物(wu)聯(lian)(lian)網(wang)、車(che)聯(lian)(lian)網(wang)等大數據(ju)(ju)平臺(tai)幾乎無一例外(wai)是這類架構，這套(tao)方法證(zheng)明完全工作(zuo)。但這套(tao)通(tong)用(yong)方法效(xiao)果如何？可以說有(you)很多不足，主(zhu)要表(biao)現(xian)在幾個(ge)方面。

開發效率低：因為不是單一軟件，需要集成至少4個以上模塊，而且很多模塊都不是標準的POSIX或SQL接口，都有自己的開發工具、開發語言、配置等等，需要一定的學習成本。而且由于數據從一個模塊流動到另外一個模塊，數據一致性容易受到破壞。同時，這些模塊基本上都是開源軟件，總會有各種BUG，即使有技術論壇、社區的支持，一旦被一技術問題卡住，總要耗費工程師不少時間。總的來講，需要搭建一個還不錯的團隊才能將這些模塊順利的組裝起來，因此需要耗費較大的人力資源。
運行效率低：現有的這些開源軟件主要是用來處理互聯網上非結構化的數據，但是物聯網采集的數據都是時序的、結構化的。用非結構化數據處理技術來處理結構化數據，無論是存儲還是計算，消費的資源都大很多。舉個例子，智能電表采集電流、電壓兩個量，用HBase或其他KV型數據庫存儲的話，其中的Row Key往往是智能電表的ID，加上其他靜態標簽值。每個采集量的key由Row Key，Column Family, Column Qualifier, 時間戳，鍵值類型等組成，然后緊跟具體的采集量的值。這樣存儲數據，overhead很大，浪費存儲空間。而且如果要做計算的話，需要將具體采集量先解析出來。比如計算一段時間電壓的平均值，就需要先將電壓值從KV的存儲里解析出來，放入一個數組，然后再進行計算。解析KV結構的overhead很大，導致計算的效率大幅降低。KV型存儲的最大好處是schemaless, 寫數據前不用定義數據結構，想怎么記錄就可以怎么記錄，這對于幾乎每天都會更新的互聯網應用而言，是個很誘人的設計。但是對于物聯網、車聯網等應用而言，沒多少引人之處，因為物聯網設備產生的數據的schema一般是不變的，即使改變，頻次很低，因為相應的配置或固件需要更新才行。
運維成本高：每個模塊，無論是Kafka, HBase, HDFS還是Redis，都有自己的管理后臺，都需要單獨管理。在傳統的信息系統中，一個DBA只要學會管理MySQL或是Oracle就可以了，但現在一個DBA需要學會管理、配置、優化很多模塊，工作量大了很多。而且由于模塊數過多，定位一個問題變的更為復雜。比如用戶發現有條采集的數據丟失，這丟失是Kafka、HBase、Spark，還是應用程序丟失？無法迅速定位，往往需要花很長時間，找到方法將各模塊的日志關聯起來才能找到原因。而且模塊越多，系統整體的穩定性就越低。
應用推出慢、利潤低：由于研發效率低，運維成本高，導致產品推向市場的時間變長，讓企業喪失商機。而且這些開源軟件都在演化中，要同步使用最新的版本也需要耗費一定的人力。除互聯網頭部公司外，中小型公司在大數據平臺的人力資源成本一般都遠超過專業公司的產品或服務費用。
對于小數據量場景，私有化部署太重：在物聯網、車聯網場景中，因為涉及到生產經營數據的安全，很多還是采取私有化部署。而每個私有化部署，處理的數據量有很大的區別，從幾百臺聯網設備到數千萬臺設備不等。對于數據量小的場景，通用的大數據解決方案就顯得過于臃腫，投入產出不成正比。因此有的平臺提供商往往有兩套方案，一套針對大數據場景，使用通用的大數據平臺，一套針對小數據規模場景，就使用MySQL或其他DB來搞定一切。但這樣導致研發、維護成本提高。

通用(yong)大(da)數(shu)(shu)(shu)據(ju)(ju)平臺有(you)(you)上述的(de)(de)(de)問題，是(shi)(shi)否有(you)(you)好的(de)(de)(de)辦法解決？那么我(wo)們需(xu)(xu)要(yao)針(zhen)對物聯網的(de)(de)(de)場景做(zuo)細(xi)致的(de)(de)(de)分(fen)析。仔(zi)細(xi)研究會發現，所有(you)(you)機器、設備(bei)、傳感器產生的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)都是(shi)(shi)時序的(de)(de)(de)，而(er)且很多還帶有(you)(you)位置(zhi)信息。這些數(shu)(shu)(shu)據(ju)(ju)具有(you)(you)明(ming)顯的(de)(de)(de)特(te)征(zheng)，1: 數(shu)(shu)(shu)據(ju)(ju)是(shi)(shi)時序的(de)(de)(de)，一(yi)定(ding)帶有(you)(you)時間(jian)(jian)戳；2：數(shu)(shu)(shu)據(ju)(ju)是(shi)(shi)結構化的(de)(de)(de)；3: 數(shu)(shu)(shu)據(ju)(ju)極(ji)少(shao)有(you)(you)更新或刪除操作(zuo)；4：數(shu)(shu)(shu)據(ju)(ju)源是(shi)(shi)唯一(yi)的(de)(de)(de)；5：相對互聯網應用(yong)，寫多讀少(shao)；6：用(yong)戶關(guan)注(zhu)的(de)(de)(de)是(shi)(shi)一(yi)段(duan)時間(jian)(jian)的(de)(de)(de)趨(qu)勢，而(er)不是(shi)(shi)某一(yi)特(te)定(ding)時間(jian)(jian)點的(de)(de)(de)值；7: 數(shu)(shu)(shu)據(ju)(ju)是(shi)(shi)有(you)(you)保留期限的(de)(de)(de)；8：數(shu)(shu)(shu)據(ju)(ju)的(de)(de)(de)查詢(xun)分(fen)析一(yi)定(ding)是(shi)(shi)基于(yu)時間(jian)(jian)段(duan)和(he)地理區域的(de)(de)(de)；9：除存儲查詢(xun)外(wai)，還往(wang)往(wang)需(xu)(xu)要(yao)各(ge)種統(tong)計和(he)實時計算(suan)操作(zuo)；10：流量(liang)平穩，可(ke)以預(yu)測；11：往(wang)往(wang)需(xu)(xu)要(yao)有(you)(you)插值等一(yi)些特(te)殊的(de)(de)(de)計算(suan)；12：數(shu)(shu)(shu)據(ju)(ju)量(liang)巨大(da)，一(yi)天采集的(de)(de)(de)數(shu)(shu)(shu)據(ju)(ju)就可(ke)以超過100億(yi)條。

如(ru)果我(wo)們充(chong)分利(li)用上述特征，完全可以開發出一(yi)個(ge)特殊的(de)(de)針對(dui)物聯網場(chang)景進行優化(hua)的(de)(de)大數(shu)據平(ping)臺(tai)。這個(ge)平(ping)臺(tai)將具有(you)如(ru)下特征，1：充(chong)分利(li)用物聯網的(de)(de)數(shu)據特點，在技術上做各種優化(hua)，大幅度提高數(shu)據插入、查詢(xun)的(de)(de)性(xing)能，降低(di)硬件或云服務成本；2：必須(xu)是水平(ping)擴(kuo)(kuo)展的(de)(de)，隨著數(shu)據量的(de)(de)增加，只需要增加服務器擴(kuo)(kuo)容即(ji)可；3：必須(xu)有(you)單(dan)一(yi)的(de)(de)管(guan)理后臺(tai)，是易(yi)于維護的(de)(de)，盡量做到零管(guan)理；4：必須(xu)是開放的(de)(de)，有(you)業界流行的(de)(de)標(biao)準SQL接口，提供Python、R或其(qi)他開發接口，方便(bian)集成各種機器學習、人工智能算法或其(qi)他應用。

濤思(si)數(shu)(shu)(shu)據的(de)TDengine Database就是(shi)充分利用物聯網(wang)數(shu)(shu)(shu)據的(de)12大(da)(da)特(te)點而開(kai)發(fa)的(de)全棧式的(de)大(da)(da)數(shu)(shu)(shu)據處理引擎，具(ju)備上面所(suo)說(shuo)的(de)幾(ji)大(da)(da)特(te)征，有望解決(jue)通(tong)用大(da)(da)數(shu)(shu)(shu)據平(ping)臺在處理物聯網(wang)數(shu)(shu)(shu)據時(shi)的(de)不足。按照濤思(si)數(shu)(shu)(shu)據的(de)設(she)計思(si)路，使用TDengine Database，應可以大(da)(da)幅簡(jian)化物聯網(wang)大(da)(da)數(shu)(shu)(shu)據平(ping)臺的(de)架構(gou)，縮短研發(fa)周期，降低平(ping)臺運營費用。

物聯網

工業互聯網

車聯網

電力

IT運維

金融

文檔

博客

資源

活動

TDengine TSDB-OSS

知識庫

開發者論壇

集成與解決方案伙伴

渠道伙伴

云服務伙伴

技術伙伴

社區伙伴

技術生態解決方案

通用大數據架構為什么不適合處理物聯網數據？

IDMP 應用場景

電動汽車場景

微電網監控場景

无码人妻精品一区二区三18禁,影音先锋男人AV橹橹色,污污污污污污www网站免费,日韩成人av无码一区二区三区,欧美性受xxxx狂喷水

物聯網

工業互聯網

車聯網

電力

IT運維

金融

文檔

博客

資源

活動

TDengine TSDB-OSS

知識庫

開發者論壇

集成與解決方案伙伴

渠道伙伴

云服務伙伴

技術伙伴

社區伙伴

技術生態解決方案

通用大數據架構為什么不適合處理物聯網數據？

IDMP 應用場景

電動汽車場景

微電網監控場景