什么是“數據”?

0 評論 1788 瀏覽 2 收藏 9 分鐘

我們總是說(shuō)產(chǎn)品搖動(dòng)數據分析,但就“數據”這個(gè)詞匯而言,有多少人能清晰地弄明白?這篇文章,作者就給我們科普一下,數據的完整定義,到底是什么。

我們?yōu)槭裁匆v數據?

《大數據時(shí)代》中提到:雖然數據還沒(méi)有被列入企業(yè)的資產(chǎn)負債表,但這只是一個(gè)時(shí)間問(wèn)題。

數據的價(jià)值不言而喻。

我們要如何認識數據?

從基礎開(kāi)始,懂來(lái)源、懂記錄,抽絲剝繭,將虛無(wú)縹緲具體化。從身邊的數據作為切入點(diǎn),進(jìn)行歸納總結。

那么,什么是數據?

表現形態(tài)的角度來(lái)說(shuō):數據是指對客觀(guān)事件進(jìn)行記錄并可以鑒別的符號,是對客觀(guān)事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合。

它是可識別的、抽象的符號。它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,也是客觀(guān)事物的屬性、數量、位置及其相互關(guān)系的抽象表示。

生產(chǎn)要素的角度來(lái)說(shuō):數據已成為數字經(jīng)濟時(shí)代的新型生產(chǎn)要素。

我們稱(chēng)現在為“大數據時(shí)代”。

數據的種類(lèi)有哪些?

不同的劃分角度會(huì )有不同的類(lèi)型。比較常用的是:

  • 定時(shí)數據:一般是時(shí)間相關(guān)的內容,如年、月、日等。
  • 定位數據:一般是坐標、地址描述,如經(jīng)緯度,省市等。
  • 定性數據:指事物的屬性。定性數據分為兩種:一種是無(wú)遞增遞減關(guān)系的,如渠道號、手機系統等;另一種是有遞增遞減關(guān)系的:優(yōu)等生、中等生、差生等。
  • 定量數據:衡量事物量級的度量值,一般用來(lái)比較大小,如年齡28歲,身高182等。

舉個(gè)栗子:

某酒店前臺倩倩2024年6月27日14:00在某酒店大廳,通過(guò)發(fā)票系統開(kāi)具了3張豆豆公司主體的發(fā)票,涉及開(kāi)票金額2000元。

那么,上述案例中

  • 定時(shí)數據是:2024年6月27日14:00;
  • 定位數據是:某酒店大廳;
  • 定性數據是:發(fā)票系統、豆豆公司主體;
  • 定量數據是:3張、2000元。

我們的世界充盈著(zhù)無(wú)窮無(wú)盡的數據,不同的數據于不同的對象而言有不同的意義,有些是有效的,有些可能是無(wú)效的。

因此,數據是有“質(zhì)量”的。

那么,什么是“質(zhì)量好”的數據呢?

“質(zhì)量好”的數據是可用的,能夠通過(guò)一定的加工處理產(chǎn)生一定的價(jià)值。

它們具有準確性、真實(shí)性、完整性、唯一性、一致性、關(guān)聯(lián)性。

準確性:也叫可靠性,是用于分析和識別哪些是不準確的或無(wú)效的數據,不可靠的數據可能會(huì )導致嚴重的問(wèn)題,會(huì )造成有缺陷和糟糕的決策。

場(chǎng)景一:數據采集是否重復或遺漏。

場(chǎng)景二:字段是否拋送正確,比如手機號列中是否都是手機號。

真實(shí)性:數據必須真實(shí)準確的反映客觀(guān)的實(shí)體存在或真實(shí)的業(yè)務(wù),真實(shí)可靠的原始統計數據是統計工作的靈魂,是管理工作的基礎,是經(jīng)營(yíng)者進(jìn)行正確經(jīng)營(yíng)決策必不可少的依據。

場(chǎng)景一:原始數據是否反應真實(shí)客觀(guān)事實(shí)。例如是否包含測試和自充數據,是否包含機器人數據等。

場(chǎng)景二:統計是否真實(shí)。為了達到某種目的導致的數據統計造假。典型案例:人有多大膽,地有多大產(chǎn)。

完整性:數據中想要分析的角度是否齊全,主要是事件或者維度。

場(chǎng)景一:事件是否完整。例如支付服務(wù)測試環(huán)境產(chǎn)生的真實(shí)支付訂單信息是否傳給數據中心。

場(chǎng)景二:字段是否完整。例如,銀行流水需要知道是哪個(gè)銀行,是否有此標識。

唯一性:用于識別和衡量重復的、冗余的數據,如果重復的數據統計出來(lái)的結果一致還好,如果不一致,就會(huì )陷入無(wú)窮無(wú)盡的核對數據中。

場(chǎng)景一:事件是否唯一,一條行為數據不要重復拋送;如用戶(hù)支付了1次,但支付表里記錄了2次。

場(chǎng)景二:字段是否唯一。如單個(gè)事件中,兩個(gè)以上字段都表示同一含義,為了保證數據的易用性,則要廢棄其中之一。

一致性:所有系統的數據不存在信息含義及內容結構的沖突。

場(chǎng)景一:同一個(gè)數據,要保證統計口徑的一致性。如收入,有的地方剔除手續費,有的地方未剔除手續費。

場(chǎng)景二:表示相同內容但是字段名不一致,如channel,channelid,market_channel。

關(guān)聯(lián)性:數據關(guān)聯(lián)性問(wèn)題是指存在數據關(guān)聯(lián)的數據關(guān)系缺失或錯誤。

場(chǎng)景一:用戶(hù)標識是否一致。如游戲用戶(hù)的登錄與充值行為,用戶(hù)id是否是一樣的。

場(chǎng)景二:用戶(hù)屬性字段是否一致。如用戶(hù)啟動(dòng)行為的渠道號與注冊行為的渠道號以及支付行為的渠道號是否一致。

不同產(chǎn)品會(huì )有各種不同類(lèi)型的數據。如C端產(chǎn)品,有注冊數據、登錄數據、啟動(dòng)數據、激活數據、充值數據、會(huì )員數據等;B端產(chǎn)品有注冊、登錄數據、組織數據、賬套數據等等。

數據種類(lèi)紛繁復雜,縱橫交錯,在識別和運用數據的過(guò)程中,我們一般會(huì )遇到哪些困難?

以財務(wù)數據為例:

  • 數據孤島:煙囪式信息系統互為孤島,“表哥表姐”多信息系統取數,埋頭整數。
  • 數據口徑不統一:數據統計口徑不統一,同一指標名稱(chēng)對應著(zhù)不同的定義與計算方法。
  • 數據清洗難:數據在流動(dòng)中缺乏質(zhì)量保障及數據校驗,應用系統使用需要大量清洗工作。
  • 數據離線(xiàn):數據線(xiàn)下手工采集,難免出現錯誤,又難以識別,返工重做等情況極易發(fā)生。
  • 數據質(zhì)量差:多業(yè)務(wù)單位收集數據,模板難標準化,返回的數據質(zhì)量差,匯總工作量大。
  • 主數據不規范:主數據未統一維護,業(yè)務(wù)與業(yè)務(wù),業(yè)務(wù)與財務(wù)各執一套話(huà)語(yǔ)體系。

這些困難要如何應對?

通過(guò)指標規范建立主數據標準,對接多業(yè)務(wù)系統獲取源數據并進(jìn)行數據清洗,將清洗后數據通過(guò)映射關(guān)系轉換為標準數據,而后依據統計規則對標準數據進(jìn)行匯總統計。

實(shí)現企業(yè)內外部數據的治理、采集、加工、應用全流程。

圖源:中興新云

本文由 @簡(jiǎn)諳 原創(chuàng )發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒(méi)評論,等你發(fā)揮!