无码人妻精品一区二区三18禁,影音先锋男人AV橹橹色,污污污污污污www网站免费,日韩成人av无码一区二区三区,欧美性受xxxx狂喷水

時間序列數據的特點

時間序列數據的特點

隨著數據通訊成本的急劇下降,以及各種傳感技術和智能設備的出現,從手環、共享出行、智能電表、環境監測設備到電梯、數控機床、挖掘機、工業生產線等都在源源不斷的產生海量的時間序列數據(或簡稱時序數據)并發往(wang)云(yun)端。這些(xie)海量數據(ju)是社(she)(she)會和企(qi)業(ye)(ye)(ye)寶貴的(de)財富,能夠(gou)幫助企(qi)業(ye)(ye)(ye)實時(shi)監控業(ye)(ye)(ye)務或設備(bei)的(de)運行(xing)情況,生成各種維度(du)的(de)報表,而且(qie)通(tong)過大數據(ju)分(fen)析和機(ji)器學習,對業(ye)(ye)(ye)務進(jin)行(xing)預(yu)測和預(yu)警,幫助社(she)(she)會或企(qi)業(ye)(ye)(ye)進(jin)行(xing)科(ke)學決(jue)策、節(jie)約(yue)成本并創造新(xin)的(de)價值。 但與現在大家所(suo)熟(shu)悉的(de)數據(ju)相(xiang)比,時(shi)間序列數據(ju)有(you)其(qi)顯著(zhu)不同特(te)點,本文(wen)對其(qi)特(te)點做一分(fen)析。

  • 數據是時序的,一定帶有時間戳:聯網的設備按照設定的周期,或受外部的事件觸發,源源不斷的產生數據,每一個數據點是在一時間點產生的,這個時間對于數據的計算和分析十分重要,必須要記錄。
  • 數據是結構化的:網絡爬蟲的數據、微博、微信的海量數據都是非結構化的,可以是文字、圖片、視頻等。但時間序列數據往往是結構化的,而且是數值型的,比如智能電表采集的電流、電壓就可以用 4 字節的標準的浮點數來表示。
  • 數據極少有更新操作:時間序列數據是機器日志數據,一般不容許而且也沒有修改的必要。很少有場景,需要對采集的原始數據進行修改。
  • 數據源是唯一的:一個設備采集的數據與另外一個設備采集的數據是完全獨立的。一臺設備的數據一定是這臺設備產生的,不可能是人工或其他設備產生的,也就是說一臺設備的數據只有一個生產者,時間序列數據的數據源是唯一的。
  • 相對互聯網應用,寫多讀少:對于互聯網應用,一條數據記錄,往往是一次寫,很多次讀。比如一條微博或一篇微信公共號文章,一次寫,但有可能上百萬人讀。但時間序列數據不一樣,對于產生的數據,一般是計算、分析程序自動的讀,而且計算、分析次數不多,只有分析事故等場景,人才會主動看原始數據。
  • 用戶關注的是一段時間的趨勢:對于一條銀行記錄,或者一條微博、微信,對于它的用戶而言,每一條都很重要。但對于時間序列數據,每個數據點與數據點的變化并不大,一般是漸變的,大家關心的更多是一段時間,比如過去的五分鐘,過去的一個小時數據變化的趨勢,一般對某一特定時間點的數據值并不關注。
  • 數據是有保留期限的:采集的數據一般都有基于時長的保留策略,比如僅僅保留一天、一周、一個月、一年甚至更長時間,為節省存儲空間,系統最好能自動刪除。
  • 數據的查詢分析往往是基于時間段和某一組設備的:對于時間序列數據,做計算和分析的時候,一定是指定時間范圍的,不會只針對一個時間點或者整個歷史進行。而且往往需要根據分析的維度,對設備的一個子集采集的數據進行分析,比如某個地理區域的設備,某個型號、某個批次的設備,某個廠商的設備等。
  • 除存儲查詢外,往往需要實時分析計算操作:對于大部分互聯網大數據應用,更多的是離線分析,即使有實時分析,但實時分析的要求并不高。比如用戶畫像、可以積累一定的用戶行為數據后進行,早一天晚一天畫不會怎么影響結果。但是對于物聯網應用,對時間序列數據的實時計算要求往往很高,因為需要根據計算結果進行實時報警,以避免事故的發生。
  • 流量平穩、可預測:給定物聯網數量、數據采集頻次,就可以較為準確地估算出所需要的帶寬和流量,每天新生成的數據大小。而不是像電商,在“雙 11”期間,淘寶、天貓、京東等流量是幾十倍的漲幅。不像 12306 網站,春節期間,網站流量是幾十倍的增長。
  • 數據處理的特殊性:與典型的互聯網相比,還有不一樣的數據處理需求。比如要檢查某個具體時間的設備采集的某個量,但傳感器實際采集的時間不是這個時間點,這時候往往需要做插值處理。還有很多場景,需要基于采集量,做復雜的數學函數計算。
  • 數據量巨大:以智能電表為例,一臺智能電表每隔 15 分鐘采集一次數據,每天自動生成 96 條記錄,全國就有接近 5 億臺智能電表,每天光智能電表就生成近 500 億條記錄。一臺聯網的汽車每隔 10 到 15 秒就采集一次數據發到云端,一臺車一天就很容易產生 1000 條記錄。如果中國 2 億輛車全部聯網,每天將產生 2000 億條記錄。五年之內,物聯網設備產生的數據將占世界數據總量的 90% 以上。

物(wu)聯(lian)網、工業互聯(lian)網的(de)(de)(de)數據(ju)是流(liu)式(shi)數據(ju),像視頻流(liu),而且單個數據(ju)點的(de)(de)(de)價值(zhi)很低,甚至丟(diu)失一(yi)小段時(shi)間的(de)(de)(de)數據(ju)也(ye)不影響(xiang)分(fen)(fen)析(xi)的(de)(de)(de)結(jie)論,也(ye)不影響(xiang)系統的(de)(de)(de)正(zheng)常運行。但看(kan)似簡單的(de)(de)(de)事情,由于(yu)數據(ju)記錄條數巨(ju)大(da),導致(zhi)數據(ju)的(de)(de)(de)實時(shi)寫入成為(wei)(wei)瓶(ping)頸,查詢分(fen)(fen)析(xi)極(ji)為(wei)(wei) 緩慢(man),成為(wei)(wei)新(xin)的(de)(de)(de)技(ji)術挑戰。傳統的(de)(de)(de)關系型數據(ju)庫、NoSQL 數據(ju)庫以及流(liu)式(shi)計算(suan)引擎由于(yu)沒有(you)充分(fen)(fen)利用時(shi)間序列數據(ju)的(de)(de)(de)特點,性能提升(sheng)(sheng)極(ji)為(wei)(wei)有(you)限,只能依靠集(ji)群技(ji)術,投入更多的(de)(de)(de)計算(suan)資源和存儲資源來處理,系統的(de)(de)(de)運營維護成本急劇上(shang)升(sheng)(sheng)。

面對這一高速增長的物聯網數據市場,近幾年出現一批專注時間序列數據處理的公司,比如美國的InfluxData,其產品InfluxDB在IT運維監測方面有相當的市場占有率。在工業控制領域老牌實時數據庫公司OSIsoft在2017年5月獲得軟銀12億美元的投資,期望成為新興的物聯網領域的數據庫的領頭羊。開源社區也十分活躍,比如基于HBase開發的OpenTSDB。中(zhong)國(guo)國(guo)內,阿里、百度、華(hua)為都有基(ji)于OpenTSDB的產(chan)品。

TDengine 是一款高性能、分布式、支持 SQL 的時序數據庫Time Series DatabaseTSDB),其(qi)時序數據庫核心代碼(ma)包(bao)括集群功能全部開源,同時 TDengine 還帶(dai)有內建(jian)的(de)緩(huan)存、流式計算(suan)、數據訂閱等系統功能,能大幅(fu)減少研發和運(yun)(yun)維的(de)復雜度,可廣泛(fan)應用于物聯(lian)網、車聯(lian)網、工業互聯(lian)網、IT 運(yun)(yun)維、金融等領域。

更多時序數據庫知識點