无码人妻精品一区二区三18禁,影音先锋男人AV橹橹色,污污污污污污www网站免费,日韩成人av无码一区二区三区,欧美性受xxxx狂喷水

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰

在 7 月 26 日的 TDengine 用戶大會上,濤思數據(TDengine)創始人&CEO 陶建輝進行了題為《TDengine 助你決勝 AI 時代》的主題演講。他不僅分享了 TDengine 的全面技術創新,還深入闡釋了打造 TDengine AI 大語言模型插件 TDgpt 的動因(yin)和實施思(si)路。本文(wen)根(gen)據(ju)演(yan)講內容整理而成。

計算機技術的四十年發展:站在巨人的肩膀上

1984 年(nian) 5 月,距(ju)今四十年(nian)前,那時我(wo)還(huan)在讀高一。我(wo)們(men)(men)高中的(de)物理老師邀請了湖(hu)南(nan)物理學會會長陳積(ji)華老師來校作報(bao)告,題目就是(shi)《第三次浪潮》這本書的(de)名字。聽完(wan)報(bao)告后,我(wo)們(men)(men)感到無比振奮,簡(jian)簡(jian)單單的(de) 0101 數字串竟然蘊含如(ru)此巨(ju)大的(de)魔力,讓我(wo)們(men)(men)意(yi)識到信息革(ge)命的(de)曙光已經(jing)到來。

更為幸運的(de)(de)(de)是,受(shou)鄧小(xiao)平同志“電(dian)腦要(yao)從(cong)娃(wa)娃(wa)抓起”指示(shi)(shi)的(de)(de)(de)影響,我(wo)所在(zai)的(de)(de)(de)長沙(sha)縣一中(zhong)獲(huo)贈了共青團中(zhong)央(yang)的(de)(de)(de)六臺 Laser 310 個(ge)人(ren)電(dian)腦。當時,正(zheng)在(zai)參(can)加(jia)無線(xian)電(dian)興(xing)(xing)趣小(xiao)組的(de)(de)(de)我(wo)立即放下了對(dui)收音機(ji)的(de)(de)(de)研究,轉而(er)加(jia)入計算機(ji)興(xing)(xing)趣小(xiao)組,開始學習(xi) Basic 語言編程。當時的(de)(de)(de) Laser 310 電(dian)腦,僅僅是一個(ge)鍵盤,需要(yao)連接電(dian)視機(ji)作為顯示(shi)(shi)器,內存只有 64K,但在(zai)當時,它是一件極其神奇的(de)(de)(de)設備,因為絕(jue)大多數中(zhong)國人(ren)從(cong)未見過計算機(ji),更別說使用過。

八十(shi)年(nian)代(dai),個人(ren)電腦開始逐(zhu)漸(jian)普及。幸運的(de)(de)是,1994 年(nian)我有幸赴美國印第安納大學(xue)(xue)留學(xue)(xue),初到校園就使用上了 Mosaic 瀏覽(lan)器。我如饑似渴地瀏覽(lan)各種(zhong)信息,Mosaic 的(de)(de)推出標志(zhi)著人(ren)類(lei)正式步(bu)入互聯網時代(dai),也由此催生了谷(gu)歌、亞(ya)馬遜(xun)、阿里巴巴和騰訊(xun)等偉大公司。

2007 年,在我(wo)任(ren)職于摩托(tuo)羅拉(la)手機部門期間,一(yi)件(jian)具有里程碑意義(yi)的事件(jian)發(fa)生(sheng)了(le):iPhone 正式發(fa)布。這(zhe)標志著人類步入移動互聯(lian)網時代,徹(che)底改變(bian)了(le)我(wo)們的日常生(sheng)活,從閱讀、出行(xing)(xing)、健(jian)身到飲食。同時,通過(guo)互聯(lian)網,不僅人與(yu)人之間建立了(le)聯(lian)系,各種設備(bei)也相互連接起來,汽車(che)、自行(xing)(xing)車(che)、輪船、充電(dian)寶等都實現了(le)聯(lian)網,真正進入了(le)萬物互聯(lian)的時代。

2016 年(nian)底,我(wo)(wo)意識到(dao)這一趨勢(shi)不可(ke)阻擋,這些聯網設備將產(chan)生海量的時序(xu)數(shu)據,需(xu)要一個高效、具有極(ji)強水平擴展能(neng)力(li)且(qie)簡單易用的工具來處(chu)理。因此,我(wo)(wo)開啟(qi)了(le)第三次(ci)創業之旅。2017 年(nian) 6 月,濤思數(shu)據正式成立。2018 年(nian)底,我(wo)(wo)們推出了(le)產(chan)品 TDengine。2019 年(nian) 7 月,我(wo)(wo)們將 TDengine 開源,這也讓我(wo)(wo)們今天有這個緣分能(neng)夠聚集在(zai)此,共(gong)同探討。

在(zai)這(zhe)里,我想(xiang)與(yu)大(da)家分享一(yi)張圖片。這(zhe)是(shi) 1983 年底(di)國(guo)防科(ke)(ke)大(da)研制(zhi)的銀河(he)億次(ci)巨(ju)型(xing)(xing)計算(suan)機。當時,它是(shi)世(shi)界領先的計算(suan)機系統(tong),與(yu)美國(guo)的 Cray 巨(ju)型(xing)(xing)機比(bi)肩(jian),達到世(shi)界級水(shui)平。作為(wei)一(yi)個長沙人(ren),當時我正在(zai)讀高一(yi),對此(ci)感(gan)到無比(bi)自豪(hao)。現在(zai)回過頭看,iPhone 體積雖小(xiao),但(dan)運算(suan)速度(du)已(yi)超(chao)過 2 萬億次(ci),是(shi)當年銀河(he)巨(ju)型(xing)(xing)機和 Cray 巨(ju)型(xing)(xing)機的 2 萬倍以上(shang)。人(ren)類(lei)科(ke)(ke)技發展的速度(du)令(ling)人(ren)難以想(xiang)象。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

我們現在取得的成就固然有所超越,但必須承認,我們的一切工作都是在巨人的肩膀上完成的。銀河巨型機由國防科大慈云桂院士負責研制,他是我中學時代的偶像。今天,他依然在激勵著我,我們一定要開發出能走向全球市場、具有全球競爭力的時序數據庫(Time Series Database),讓中國(guo)這個(ge)制造大國(guo),在工(gong)業互聯網(wang)的核心基礎軟(ruan)件(jian)領(ling)域占有一席(xi)之地。在此,讓我們向老一輩的科學家致敬(jing)!

用歷史數據預測未來數據:TDgpt 首次面世

這些技術(shu)的(de)(de)變革和發(fa)展,不(bu)僅展示了信息革命的(de)(de)力量,也激勵著(zhu)我們(men)不(bu)斷創新(xin)、追求卓越。而人(ren)類科技的(de)(de)進(jin)步從未(wei)停止,而且還在(zai)加速。

十(shi)年(nian)前,移動(dong)互聯網浪潮之(zhi)后,2012 年(nian),Hinton 的(de)關(guan)于 ImageNet 分類的(de)論(lun)文(wen)發(fa)表,2016 年(nian) AlphaGo 戰勝圍棋名將李世石,標志著人類正式進(jin)入 AI 時代。如今,人臉識(shi)別無處不在,各(ge)種圖像(xiang)處理工具(ju)不再是設計(ji)師(shi)的(de)專利。本來,AI 的(de)熱潮似乎已經降溫(wen),但谷歌在 2017 年(nian)發(fa)表的(de)一篇標志性論(lun)文(wen)再次將 AI 推向高潮。2022 年(nian) 11 月,ChatGPT 問世,其生成式 AI 的(de)驚艷(yan)表現讓全(quan)球陷入了 AI 的(de)狂熱之(zhi)中。現在,大家(jia)都(dou)可以用 AI 生成文(wen)字、報告、圖片、視頻,甚(shen)至是代碼(ma)和(he)考試題。大家(jia)也可以用 ChatGPT 來寫 TDengine SQL 語句(ju),會有意想(xiang)不到的(de)結果(guo)。

就在本周三(2024 年 7 月 24 日),Meta 又宣布推出 405B 的 Llama 3.1,使開源的 LLM 各項指標緊逼甚至超過了閉源的 GPT-4。這真是一個令人激動的時代,AI 的浪潮勢不可擋。我們在座的各位,來自智能制造、石油、石化、鋼鐵、電力、新能源、汽車等(deng)行業,都(dou)(dou)是(shi)(shi) IT 從業者。我(wo)相信大家都(dou)(dou)已(yi)經感受到 AI 的(de)這股浪潮,一(yi)個典(dian)型的(de)問題便是(shi)(shi):“我(wo)能做什(shen)么?”大家心中難免忐忑:我(wo)這個年齡,還能學(xue)會 AI 嗎?我(wo)的(de)工(gong)作(zuo)是(shi)(shi)否會被(bei) AI 取(qu)代?我(wo)如(ru)何將 AI 技(ji)術應用到我(wo)的(de)工(gong)作(zuo)中去(qu)?

今天,我將展(zhan)示一(yi)個 Demo。這是一(yi)個震(zhen)動傳感器采集的數據,隨著時間的推移,不斷有(you)新的數據點產(chan)生。現(xian)在(zai) AI 大語言模(mo)型能(neng)夠(gou)生成(cheng)文(wen)字和(he)視頻,那它能(neng)否根據歷史數據預測未來的數據?現(xian)在(zai),請大家(jia)見證一(yi)個奇跡。在(zai)TDengine 中,執行如下 SQL 語句:

taos> select _rowts, forecast(ts, val, 300) from demo.d100;

結果顯示如下:

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫
使用 Grafana 繪制而成的時序數據預測圖

大(da)家看,這(zhe)數據(ju)預(yu)(yu)(yu)測的(de)是(shi)不(bu)(bu)是(shi)很完美?因此(ci),我要告訴大(da)家的(de)是(shi),AI、大(da)語言模型(xing)與工(gong)業的(de)距離(li)并不(bu)(bu)遙遠,是(shi)可(ke)以打通(tong)的(de),它(ta)(ta)不(bu)(bu)僅能(neng)生(sheng)成文字、視(shi)頻,還能(neng)幫你(ni)預(yu)(yu)(yu)測時序(xu)數據(ju)。TDengine 用一條 SQL,就帶你(ni)進(jin)入了(le) AI 時代。時序(xu)數據(ju)預(yu)(yu)(yu)測這(zhe)項功能(neng)很重要,它(ta)(ta)有很多應用場景,包括:發(fa)電(dian)(dian)機組、變壓(ya)器、采油設備、數控機床(chuang)等設備的(de)預(yu)(yu)(yu)測性(xing)維護,風能(neng)、太陽能(neng)等可(ke)再生(sheng)能(neng)源的(de)發(fa)電(dian)(dian)量(liang)(liang)(liang)預(yu)(yu)(yu)測,汽車零件、芯片、視(shi)頻、藥(yao)品(pin)、工(gong)業產(chan)(chan)品(pin)的(de)質量(liang)(liang)(liang)控制改進(jin),石油、天然氣、新(xin)能(neng)源等產(chan)(chan)量(liang)(liang)(liang)及用量(liang)(liang)(liang)預(yu)(yu)(yu)測。

下面我(wo)再給大(da)家展示(shi)一個 Demo。這是一個傳感器采集的數(shu)據(ju),很有規律,但很明顯,有些(xie)數(shu)據(ju)點有異(yi)常,而且(qie)無法依靠簡單的閾值判斷來檢測。那 AI 能檢測出異(yi)常數(shu)據(ju)嗎?我(wo)們(men)再在(zai) TDengine 里執行一條 SQL:

taos> select _rowts, anomaly(ts, val, 99) as anomaly from demo.d200;

結果顯示如下:

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫
使用 Grafana 繪制而成的時序數據異常檢測圖

如上圖所示,這(zhe)些(xie)異(yi)常(chang)(chang)(chang)的(de)(de)(de)時(shi)間(jian)片(pian)段(duan)都(dou)被標注出來了(le),這(zhe)真(zhen)的(de)(de)(de)很神奇。除了(le)做時(shi)序數據(ju)的(de)(de)(de)預測(ce)(ce),AI 還能(neng)(neng)幫我們進(jin)(jin)行時(shi)序數據(ju)的(de)(de)(de)異(yi)常(chang)(chang)(chang)檢測(ce)(ce)。這(zhe)一功能(neng)(neng)的(de)(de)(de)應(ying)用場(chang)景也非常(chang)(chang)(chang)廣泛:在質(zhi)量(liang)控制(zhi)上,它能(neng)(neng)幫助我們監測(ce)(ce)生產過(guo)程中的(de)(de)(de)異(yi)常(chang)(chang)(chang),及時(shi)調整生產參數;它還能(neng)(neng)實時(shi)檢測(ce)(ce)分析電(dian)網(wang)(wang)(wang)數據(ju),檢測(ce)(ce)電(dian)網(wang)(wang)(wang)中的(de)(de)(de)異(yi)常(chang)(chang)(chang)情(qing)(qing)況,保障電(dian)網(wang)(wang)(wang)穩定(ding)性;再能(neng)(neng)耗分析上,能(neng)(neng)檢測(ce)(ce)能(neng)(neng)耗模式(shi)中的(de)(de)(de)異(yi)常(chang)(chang)(chang),發(fa)現(xian)能(neng)(neng)源浪費的(de)(de)(de)情(qing)(qing)況,識別(bie)改進(jin)(jin)區域;還能(neng)(neng)維(wei)護網(wang)(wang)(wang)絡安(an)全,通(tong)過(guo)檢測(ce)(ce)車載(zai)通(tong)信數據(ju)異(yi)常(chang)(chang)(chang),識別(bie)可能(neng)(neng)的(de)(de)(de)網(wang)(wang)(wang)絡入侵或(huo)攻(gong)擊(ji)。

此(ci)外,TDengine 還可以通過(guo) AI 對(dui)時序(xu)數據做更(geng)多的(de)分(fen)析(xi)和處理,比如數據清洗、缺失數據的(de)填(tian)充等(deng)(deng)等(deng)(deng),也(ye)可以幫助大家優化(hua)工業流程,提升效率(lv)。而且通過(guo) TDengine 特有的(de) SQL 命(ming)令擴(kuo)展,用起(qi)來(lai)極為簡單。

那么,這 SQL 背后(hou)(hou)到底是什么呢(ni)?過去的半年,我們研(yan)發團隊日夜(ye)奮戰,上面兩個演(yan)示的背后(hou)(hou),就(jiu)是我們研(yan)發的 TDengine AI 大語(yu)言模(mo)型(xing)插(cha)件——TDgpt。我可以(yi)自豪地(di)告訴(su)大家,TDengine 是全球第一款與大語(yu)言模(mo)型(xing)集(ji)成的時序數據庫(ku),它無(wu)需任(ren)何歷(li)史數據的訓練(lian),便于(yu)迅速部署和使用(yong)。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫
TDgpt 工作原理

科技(ji)的(de)發展速度(du)真的(de)超(chao)出(chu)了(le)大(da)家的(de)想象。技(ji)術(shu)已經準備(bei)好(hao)了(le),但我們來自各傳統行業(ye)的(de)朋友們,你們準備(bei)好(hao)了(le)嗎(ma)?從(cong)我的(de)角度(du)來看(kan),在采用先(xian)進(jin)的(de) AI 大(da)語言(yan)模型技(ji)術(shu)之前,我還看(kan)到了(le)數字(zi)化轉(zhuan)型的(de)五大(da)挑戰(zhan),下面讓我一一道來。

AI 時代下企業數字化轉型面臨的五大挑戰,如何解決?

挑戰一|數據質量

第一(yi)(yi)(yi)個挑(tiao)戰是數(shu)(shu)據質量(liang)(liang)問(wen)題,這在各類數(shu)(shu)據源(yuan)中表現(xian)得(de)尤(you)為突(tu)出。不管是油田企業(ye)(ye)還(huan)是煙機企業(ye)(ye),都面臨著(zhu)各條產線的(de)數(shu)(shu)據源(yuan)數(shu)(shu)量(liang)(liang)繁(fan)多且標準不一(yi)(yi)(yi)的(de)問(wen)題。舉(ju)例來說(shuo),數(shu)(shu)據的(de)物(wu)理單(dan)位可能(neng)有(you)(you)所(suo)不同(tong),有(you)(you)的(de)使用秒(miao),有(you)(you)的(de)則用毫秒(miao)。同(tong)一(yi)(yi)(yi)物(wu)理量(liang)(liang)的(de)命名也不統一(yi)(yi)(yi),有(you)(you)些地方稱為“溫度(du)”,而另(ling)一(yi)(yi)(yi)些可能(neng)用英文縮寫“WD”表示。此外(wai),采樣頻(pin)率、時區也存在差異。隨(sui)著(zhu)中國制造業(ye)(ye)走向全球,在多個國家設有(you)(you)工廠,如何有(you)(you)效地將這些數(shu)(shu)據整合在一(yi)(yi)(yi)起成(cheng)為一(yi)(yi)(yi)大難題。

為(wei)了(le)解決這(zhe)一問題,TDengine 提(ti)(ti)供(gong)了(le)一個零(ling)代碼(ma)數(shu)(shu)據(ju)匯(hui)(hui)聚平(ping)臺。首先,這(zhe)個平(ping)臺支(zhi)持多種(zhong)數(shu)(shu)據(ju)源(yuan)接入,如 MQTT、OPC-UA、OPC-DA、PI、InfluxDB、OpenTSDB、Wonderware,以(yi)及傳統的(de)關系型數(shu)(shu)據(ju)庫如 MySQL、Oracle 等。通(tong)過該平(ping)臺,用戶可以(yi)將(jiang)數(shu)(shu)據(ju)提(ti)(ti)取并(bing)匯(hui)(hui)總。平(ping)臺還內置 ETL 功(gong)能,提(ti)(ti)供(gong)數(shu)(shu)據(ju)提(ti)(ti)取、過濾和(he)映射功(gong)能,確(que)保數(shu)(shu)據(ju)的(de)高效(xiao)處理。最后,我(wo)們對數(shu)(shu)據(ju)源(yuan)進(jin)行(xing)(xing)有效(xiao)管理,包括啟動和(he)停止的(de)控制,甚(shen)至對狀態進(jin)行(xing)(xing)實時監測。尤其對傳統行(xing)(xing)業的(de)從業人員(yuan)來說,開發工作往往是個挑戰,TDengine 這(zhe)種(zhong)零(ling)代碼(ma)平(ping)臺能幫助(zhu)大家極大地(di)降(jiang)低使用門檻。

挑戰二|數據語境

過(guo)去兩年里,我在(zai)歐美(mei)有(you)(you)過(guo)長(chang)時(shi)間的停(ting)留,除了(le)(le)數(shu)(shu)據(ju)質量問題(ti)外,我觀(guan)察(cha)到的另一(yi)個(ge)(ge)重大挑戰是(shi)(shi)數(shu)(shu)據(ju)語境(Data Contextualization)。當我們(men)采集了(le)(le)上(shang)(shang)億(yi)個(ge)(ge)時(shi)間線并存(cun)儲到數(shu)(shu)據(ju)庫(ku)中(zhong)后,想(xiang)要(yao)弄(nong)清(qing)每(mei)(mei)(mei)一(yi)個(ge)(ge)時(shi)間線具體代表什么(me)其實是(shi)(shi)非常困難(nan)的。通(tong)常,我們(men)需(xu)要(yao)為(wei)每(mei)(mei)(mei)個(ge)(ge)傳感器(qi)、每(mei)(mei)(mei)條時(shi)間線打上(shang)(shang)各種(zhong)標簽(qian)和層次信息(xi)。對于智能制(zhi)造領(ling)域,如石油、煙機和電力行(xing)業,還需(xu)要(yao)附(fu)加批次、工班等信息(xi),并將數(shu)(shu)據(ju)與 ERP、MES 系統關聯起來。只(zhi)有(you)(you)在(zai)這(zhe)種(zhong)情(qing)況下,數(shu)(shu)據(ju)才真(zhen)正有(you)(you)意義(yi),僅僅看(kan)存(cun)在(zai)數(shu)(shu)據(ju)庫(ku)中(zhong)的數(shu)(shu)據(ju)是(shi)(shi)沒有(you)(you)價值的,語境的賦(fu)予至關重要(yao)。

對(dui)于 TDengine 來說(shuo),我們對(dui)數(shu)(shu)據(ju)語(yu)(yu)境的(de)處(chu)理(li)感(gan)到非常自(zi)豪。TDengine 可能(neng)是目前(qian)對(dui)數(shu)(shu)據(ju)語(yu)(yu)境支持最好的(de)時序(xu)數(shu)(shu)據(ju)庫之一(yi)。在登錄 TDengine 的(de)云庫后,你會發現它(ta)能(neng)夠(gou)解決多個層次的(de)問題,這些層次可以(yi)是地理(li)位置(zhi)維(wei)度,也可以(yi)是設備本身的(de)維(wei)度。舉個例子,我們可以(yi)查看(kan)汽車的(de)型號、廠商、生產年份(fen)等多個維(wei)度的(de)數(shu)(shu)據(ju)。目前(qian),TDengine 支持以(yi)下(xia)功能(neng):

  • 每張表可以支持多達 128 個標簽,每個標簽代表一個維度,維度可以是樹狀結構。
  • 不同的管理角色可以對應不同的維度,從而實現更精細的權限管理。

即(ji)將支持的功能包括(kuo):

  • 列支持標簽功能。
  • 樹狀結構中的任一節點都可以掛載任意類型的數據。
  • 支持與其他數據庫的關聯查詢,無論數據是來自 Oracle 還是 PI 系統,都可以輕松獲取。
  • 可以任意獲取樹狀結構中任一節點在任一時刻的斷面數據。

在(zai)工業(ye)互聯(lian)網(wang)和物(wu)聯(lian)網(wang)的應用場(chang)景中,解決好(hao)數據語境的問(wen)題(ti)極其之關鍵,這也是 TDengine 下(xia)一(yi)步要積極努力的方向。我們(men)計劃在(zai)年底推(tui)出(chu)第一(yi)個非常完(wan)善(shan)的版(ban)本。事(shi)實(shi)上(shang),目前 TDengine 已經具備了(le)相當出(chu)色的功能,但(dan)我們(men)力求做到(dao)更好(hao)。

挑戰三|邊云協同

我們面臨的(de)第(di)三個挑戰是“邊云協同”,這是一個大家經常討(tao)論的(de)話(hua)題。邊云協同的(de)理解(jie)起來很簡單(dan),邊緣(yuan)側一般不(bu)會搞云端(duan)部署(shu)而是做本地部署(shu),計(ji)算資源有限,并且有著嚴格的(de)實時性要求,多個邊緣(yuan)節點的(de)數據(ju)最終需要匯(hui)聚到云端(duan)。

針對(dui)邊云(yun)協同,TDengine 提(ti)供了如下圖所示的(de)解決(jue)方案。在(zai)邊緣側,我(wo)們可以接(jie)入并匯(hui)聚(ju)(ju)包(bao)括 OPC、MQTT、PI System 等多種數(shu)(shu)據源。這(zhe)些數(shu)(shu)據源在(zai)邊緣側完成匯(hui)聚(ju)(ju)后,數(shu)(shu)據可以進一步通過 TDengine 匯(hui)聚(ju)(ju)到云(yun)端或用(yong)(yong)戶的(de)中(zhong)心(xin)側。我(wo)個人(ren)特別強調簡(jian)單易用(yong)(yong)性,這(zhe)一解決(jue)方案實現了真正的(de)零代碼(ma)操作,你不用(yong)(yong)寫任(ren)何一行代碼(ma),只(zhi)需做(zuo)個簡(jian)單的(de)配置就(jiu)可以了。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

這種配(pei)置方式非常靈活,你可(ke)以(yi)(yi)(yi)選擇性(xing)地匯(hui)聚(ju)(ju)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju),而(er)不必將所有原(yuan)始(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)都上傳。可(ke)以(yi)(yi)(yi)根據(ju)(ju)(ju)(ju)需求匯(hui)聚(ju)(ju)特定(ding)的(de)(de)物理量,甚至(zhi)僅匯(hui)聚(ju)(ju)聚(ju)(ju)合后的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju),而(er)不是原(yuan)始(shi)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)。通(tong)過一個 SQL 語句,你就(jiu)可(ke)以(yi)(yi)(yi)定(ding)義數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)匯(hui)聚(ju)(ju)的(de)(de)方式,實現靈活配(pei)置。此(ci)外,TDengine 還支持歷史數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)回填功能,確保(bao)之前未傳輸到云端的(de)(de)數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)能夠(gou)補齊。考慮到網絡的(de)(de)不穩(wen)定(ding)性(xing),TDengine 還提供了(le)斷點續傳功能,以(yi)(yi)(yi)保(bao)障數(shu)(shu)(shu)據(ju)(ju)(ju)(ju)傳輸的(de)(de)可(ke)靠性(xing)。

挑戰四|數據規模

第四個(ge)挑戰(zhan)是數(shu)(shu)(shu)據(ju)規模的(de)(de)(de)(de)問題(ti)(ti),這(zhe)也(ye)是 TDengine 最初設計時(shi)就著力解決的(de)(de)(de)(de)核心問題(ti)(ti)之一(yi)。傳(chuan)統(tong)行業(ye)(ye)中,一(yi)個(ge)實(shi)時(shi)數(shu)(shu)(shu)據(ju)系統(tong)擁(yong)有 10 萬(wan)個(ge)測點已經相當(dang)不(bu)錯(cuo),但如今,百萬(wan)測點的(de)(de)(de)(de)系統(tong)已成為常態,這(zhe)給傳(chuan)統(tong)的(de)(de)(de)(de)實(shi)時(shi)數(shu)(shu)(shu)據(ju)庫帶來了(le)巨大的(de)(de)(de)(de)挑戰(zhan)。此外,隨著數(shu)(shu)(shu)據(ju)匯聚趨勢的(de)(de)(de)(de)興起,集中監測需(xu)求不(bu)斷增加,尤(you)其是在新能源(yuan)領域(yu),數(shu)(shu)(shu)據(ju)量(liang)(liang)呈(cheng)現爆炸(zha)式增長。我們的(de)(de)(de)(de)一(yi)些客戶每天產生的(de)(de)(de)(de)數(shu)(shu)(shu)據(ju)量(liang)(liang)超過 3TB,而有的(de)(de)(de)(de)客戶傳(chuan)感器測點數(shu)(shu)(shu)量(liang)(liang)甚至(zhi)超過 5000 萬(wan)。企業(ye)(ye)期(qi)望的(de)(de)(de)(de)數(shu)(shu)(shu)據(ju)存儲時(shi)間也(ye)變得更加長久,很(hen)多(duo)企業(ye)(ye)希望能保留數(shu)(shu)(shu)據(ju)一(yi)年(nian),甚至(zhi)十(shi)年(nian)。

要解決這些問題,依賴單臺計(ji)算機處理海量時序(xu)數據(ju)(ju)(ju)幾(ji)乎(hu)是不可(ke)(ke)能的(de)(de),因(yin)此,整個(ge)系統必須采用(yong)分布式架構,這也是 TDengine 最初(chu)設計(ji)分布式架構的(de)(de)初(chu)衷。TDengine 集(ji)群可(ke)(ke)以包(bao)含(han)多個(ge)節點(dian)(dian),每個(ge)節點(dian)(dian)內(nei)部可(ke)(ke)以包(bao)含(han)用(yong)于(yu)數據(ju)(ju)(ju)存(cun)儲的(de)(de) Vnode、Mnode,實現存(cun)算分離的(de)(de) Qnode,用(yong)于(yu)執行流(liu)計(ji)算的(de)(de) Snode……通過(guo) Raft 算法,TDengine 還實現了數據(ju)(ju)(ju)復制的(de)(de)高(gao)可(ke)(ke)靠性和(he)高(gao)可(ke)(ke)用(yong)性,這些功(gong)能構成了 TDengine 解決大(da)規模時序(xu)數據(ju)(ju)(ju)挑戰的(de)(de)堅實基礎。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

此外(wai),TDengine 還具(ju)備(bei)強大(da)的(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)分(fen)(fen)區(qu)和分(fen)(fen)片(pian)管(guan)理(li)(li)功(gong)能(neng)。很多人(ren)可能(neng)不知(zhi)道,我并(bing)(bing)非(fei)計算機專業出身,而是學習天體物理(li)(li)的(de)(de)(de),盡管(guan)我在中學時就開始編寫程序。對(dui)于學物理(li)(li)的(de)(de)(de)人(ren)來(lai)說,大(da)數(shu)(shu)據(ju)(ju)(ju)(ju)處(chu)理(li)(li)其實并(bing)(bing)不復(fu)雜,關鍵(jian)在于如何進行(xing)(xing)數(shu)(shu)據(ju)(ju)(ju)(ju)分(fen)(fen)區(qu)和分(fen)(fen)片(pian)。TDengine 的(de)(de)(de)分(fen)(fen)區(qu)分(fen)(fen)片(pian)策(ce)略是,首先(xian)將數(shu)(shu)據(ju)(ju)(ju)(ju)進行(xing)(xing)分(fen)(fen)片(pian),每個(ge)片(pian)中包(bao)含一(yi)個(ge)或多個(ge)數(shu)(shu)據(ju)(ju)(ju)(ju)采集點的(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju),然(ran)后再(zai)將時間進行(xing)(xing)切分(fen)(fen),一(yi)個(ge)數(shu)(shu)據(ju)(ju)(ju)(ju)文(wen)件只包(bao)含幾天的(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)。通過這種分(fen)(fen)區(qu)分(fen)(fen)片(pian)的(de)(de)(de)方式,我們能(neng)夠將幾百 TB 的(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)(ju)劃分(fen)(fen)成幾小(xiao)塊,使(shi)得(de)處(chu)理(li)(li)變得(de)更加可行(xing)(xing)。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

得益于(yu)這種(zhong)分(fen)布式架構(gou),TDengine 目前能(neng)(neng)夠支持 10 億張(zhang)表,且性能(neng)(neng)幾(ji)乎沒有下降,啟動速度可(ke)以(yi)保持在(zai)(zai)一分(fen)鐘(zhong)以(yi)內。TDengine 還完美解決了(le)時(shi)(shi)(shi)序數(shu)據庫中“高基數(shu)”問題,當時(shi)(shi)(shi)間線(xian)數(shu)量達(da)到幾(ji)百萬、上(shang)(shang)千萬甚至上(shang)(shang)億時(shi)(shi)(shi),傳統數(shu)據庫性能(neng)(neng)通常會急劇下降,而 TDengine 的水(shui)平(ping)擴展能(neng)(neng)力(li)使(shi)其在(zai)(zai)面對高基數(shu)問題時(shi)(shi)(shi)依(yi)然保持卓越性能(neng)(neng)。

在(zai)數(shu)(shu)據(ju)(ju)(ju)規模(mo)的(de)挑戰下(xia),另(ling)一個(ge)重要問題就是存(cun)儲成(cheng)(cheng)本(ben)。在(zai)如此大規模(mo)的(de)數(shu)(shu)據(ju)(ju)(ju)環境(jing)下(xia),存(cun)儲成(cheng)(cheng)本(ben)成(cheng)(cheng)為企業關注的(de)焦點,因此高(gao)壓(ya)(ya)縮(suo)(suo)率至關重要。TDengine 采(cai)(cai)用(yong)列式存(cun)儲進(jin)行(xing)(xing)數(shu)(shu)據(ju)(ju)(ju)壓(ya)(ya)縮(suo)(suo),雖然列式存(cun)儲在(zai)數(shu)(shu)據(ju)(ju)(ju)庫領域并不新鮮,但(dan) TDengine 的(de)壓(ya)(ya)縮(suo)(suo)效(xiao)果更(geng)為顯(xian)著(zhu)。這主要歸功于 TDengine 獨特的(de)數(shu)(shu)據(ju)(ju)(ju)建模(mo)方(fang)式——一個(ge)設(she)備(bei)一張表(biao),同一設(she)備(bei)的(de)數(shu)(shu)據(ju)(ju)(ju)集中存(cun)儲,數(shu)(shu)據(ju)(ju)(ju)變(bian)化小(xiao),從而實現了高(gao)效(xiao)壓(ya)(ya)縮(suo)(suo)。此外,TDengine 采(cai)(cai)用(yong)兩(liang)級壓(ya)(ya)縮(suo)(suo)策(ce)略(lve),先進(jin)行(xing)(xing) Delta 操作,再進(jin)行(xing)(xing)壓(ya)(ya)縮(suo)(suo),從而大幅提升了壓(ya)(ya)縮(suo)(suo)效(xiao)率。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

為了進(jin)一步(bu)降低企業的存(cun)(cun)(cun)(cun)儲(chu)成(cheng)本(ben),TDengine 還引入了多級(ji)存(cun)(cun)(cun)(cun)儲(chu)功(gong)能,即將(jiang)冷(leng)熱(re)數據分級(ji)存(cun)(cun)(cun)(cun)儲(chu)。最(zui)新(xin)的數據先存(cun)(cun)(cun)(cun)儲(chu)在(zai)內存(cun)(cun)(cun)(cun)中,然后轉存(cun)(cun)(cun)(cun)至 SSD,接著存(cun)(cun)(cun)(cun)儲(chu)到本(ben)地硬盤,最(zui)終歸檔至 S3 存(cun)(cun)(cun)(cun)儲(chu)中。我們近(jin)期推出的 S3 存(cun)(cun)(cun)(cun)儲(chu)功(gong)能,能夠將(jiang)存(cun)(cun)(cun)(cun)儲(chu)成(cheng)本(ben)降低至原(yuan)來的十分之(zhi)一,而查(cha)詢性能僅略(lve)微下降(查(cha)詢速度下降約一倍)。這意味著,企業可以將(jiang)數據保存(cun)(cun)(cun)(cun)周(zhou)期從原(yuan)來的 1 年延(yan)長至 10 年,同時大幅降低存(cun)(cun)(cun)(cun)儲(chu)成(cheng)本(ben)。

陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

挑戰五|開放系統

最后一個挑戰(zhan)是(shi)開放(fang)系(xi)統(tong)的(de)(de)問題,這是(shi)許多企業(ye)在選擇數據庫時所(suo)面臨的(de)(de)共(gong)同困境。眾所(suo)周知,一些知名數據庫廠(chang)商往往通過技術(shu)(shu)壁壘將用(yong)戶牢(lao)牢(lao)綁定,而在當前 IT 技術(shu)(shu)迅(xun)猛(meng)發展(zhan)的(de)(de)時代,新的(de)(de)數據處理技術(shu)(shu)和(he)應用(yong)層出不窮(qiong),用(yong)戶顯然不希望被某一廠(chang)商束縛。因此,TDengine 致力于(yu)為用(yong)戶提供一個開放(fang)的(de)(de)系(xi)統(tong),避免供應商鎖定,讓(rang)用(yong)戶能夠(gou)自由(you)選擇最適合的(de)(de)解決方案。

那么,TDengine 是如何實現這種“開放(fang)(fang)”的(de)(de)呢?我們通過與第三方系統(tong)的(de)(de)無縫(feng)集(ji)成,確(que)保了平臺的(de)(de)開放(fang)(fang)性(xing)和兼容性(xing)。具體而言,TDengine 支持(chi)以下(xia)集(ji)成:

  • 與 Power BI、Tableau、Seeq、帆軟、永洪等 BI 工具對接,方便用戶進行商業智能分析。
  • 與 Grafana、Google Data Studio 等可視化軟件對接,助力用戶實現數據的可視化呈現。
  • 與 DBeaver、qStudio 等數據庫管理工具對接,方便用戶管理和維護數據庫。
  • 與任何支持 JDBC、ODBC 接口的第三方系統對接,確保用戶可以靈活選擇各種數據處理工具。
陶建輝演講干貨分享,AI 時代下時序數據庫的數據預測和數據處理挑戰 - TDengine Database 時序數據庫

此(ci)外,我(wo)(wo)還想特(te)別(bie)提(ti)到開(kai)源的(de)(de)(de)重要性。為了(le)(le)(le)構(gou)建(jian)一個(ge)(ge)真正(zheng)開(kai)放的(de)(de)(de)系統(tong),我(wo)(wo)們采取了(le)(le)(le)更為有(you)效的(de)(de)(de)手段——開(kai)源。開(kai)源不(bu)(bu)僅展示了(le)(le)(le)我(wo)(wo)們的(de)(de)(de)透明(ming)度(du)和信任度(du),也讓更多(duo)用(yong)戶可(ke)以(yi)參與到 TDengine 的(de)(de)(de)發展中來。TDengine 自 2019 年(nian) 7 月開(kai)源單機版(ban)(ban)以(yi)來,2020 年(nian) 8 月開(kai)源集(ji)群(qun)版(ban)(ban),2022 年(nian) 8 月開(kai)源云(yun)原生版(ban)(ban),已(yi)經在全(quan)球(qiu)范圍內取得(de)(de)了(le)(le)(le)顯著的(de)(de)(de)成績。截至目前(qian),我(wo)(wo)們在 GitHub 上收獲了(le)(le)(le)超(chao)(chao)過 23000 個(ge)(ge) Star,4800 個(ge)(ge) Fork,20000 多(duo)個(ge)(ge) PR,在全(quan)球(qiu) 60 多(duo)個(ge)(ge)國家的(de)(de)(de)安裝實(shi)例(li)已(yi)超(chao)(chao)過 57 萬。這一切都得(de)(de)益于開(kai)源的(de)(de)(de)力量(liang),開(kai)源不(bu)(bu)僅幫助我(wo)(wo)們贏得(de)(de)了(le)(le)(le)用(yong)戶的(de)(de)(de)信任,也推動(dong)了(le)(le)(le) TDengine 的(de)(de)(de)不(bu)(bu)斷進步。

結語:讓人人都能用得上的時序數據庫

在當前(qian) AI 和大數據(ju)人才(cai)(cai)緊缺的(de)背景下(xia),TDengine 如(ru)何幫助企(qi)業(ye)應(ying)對(dui)(dui)這(zhe)一挑戰(zhan)?我們的(de)設計目標(biao)(biao)就(jiu)是大幅(fu)降(jiang)低對(dui)(dui)高端技(ji)術人才(cai)(cai)的(de)需求。為此,我們設計了零代碼(ma)的(de)數據(ju)寫入功能,并通過標(biao)(biao)準 SQL 實現(xian)數據(ju)分析、流計算、預(yu)測(ce)和異常檢測(ce)功能,使(shi)(shi)用戶能夠(gou)在 60 秒內開(kai)箱即用。降(jiang)低使(shi)(shi)用門(men)檻(jian)的(de)背后,是我們對(dui)(dui)人才(cai)(cai)要求的(de)進一步(bu)簡化和降(jiang)低。

最后,我想談談我的夢想。這(zhe)是(shi)我第三次創業,而(er)我一(yi)直(zhi)以(yi)來的夢想就是(shi)打造(zao)一(yi)個真正(zheng)能夠(gou)在世界上留下深遠影響的產品,“Make time series data accessible, affordable, and valuable”,即讓時序數(shu)(shu)據庫不再僅(jin)僅(jin)是(shi)大企業的專屬工具,而(er)是(shi)人(ren)人(ren)都能用得起、用得上的技(ji)術。我們通過開(kai)源來實現(xian)這(zhe)一(yi)開(kai)放愿(yuan)景,進而(er)真正(zheng)實現(xian)時序數(shu)(shu)據庫的普及和價值(zhi)共享。