DXが進み、デジタルがかなり身近なものになりつつあります。
みなさんもデジタル化が進む中で高度なデジタルに関するスキルが求められているのではないでしょうか。直接データを扱うことは少なかった一般社員の私もデータ解析を行う機会が増えてきました。
一般社員だけどデジタルに関する知識を深めたい。
データを分析を活用し主観的ではなく客観的な根拠をもちたい。
そもそもデータって何・・・?
そんな方にデータの基礎をご紹介します。
データの種類
データの種類は大きく量的データと質的データの2つに分けられます。
質的データ
数字では表せない、文字的なデータのことです。質的データは名義尺度と順序尺度の2つにさらに細かく分類されます。
名義尺度
名前や性別など、順序や大きさに意味がないデータのことです。カテゴリや属性などをイメージいただくと分かりやすいかもしれません。数値じゃないのにデータなの?と思われる方もいらっしゃるかもしれませんが。性別ごとの行動パターンの特定など数値では得られないニーズを理解できる可能性を秘めています。
順序尺度
満足度や体調を数値で表したデータなど、数値間の大小関係には意味があるが数値計算にはそのまま使えないデータです。例を挙げます。満足度を「1・2・3・4・5」段階から選択するアンケートに答えたことはありませんか?こちらは大小関係は意味を持っていますが、それぞれのデータを足し引きすることはありませんよね。そのため、数値で表されていますが質的データとなります。
量的データ
量や大きさを表すいわゆる数値データです。皆さんがイメージされるデータはこちらであることが多いのではないでしょうか。分析や解析にそのまま使えるのも量的データです。量的データも感覚尺度と比率尺度の2つに分けられます。
間隔尺度
体温や気温など目盛の間隔や差に意味があるデータのことです。
比率尺度
身長、体重、売上など目盛の間隔だけでなく比率にも意味があるデータのことです。BMIや売上比率などで表すことができることが、比率尺度であることを示しています。感覚尺度である体温は「体温が昨日より5%上がった」と表現しないですよね。
以上がデータの種類です。データを分析、解析する前に「このデータはどのデータの種類に属するのか」という視点をもって元データを確認することで、適した分析方法や解析方法が見えてきます。そのため、データの種類を理解しておくことは重要です。
データ形式
データの形式は大きく構造化データと非構造化データに分けられます。
構造化データ
構造化データとは、ExcelやCSVファイルなどデータ形式が定められ、すでに整形されているデータのことです。集計や比較などが行いやすく、データの解析や分析にそのまま使うことができることが特徴です。
データ収集時から目的を明確に定め、データ形式を事前に適宜していることが多いです。そのため、デメリットとしてデータ収集段階で一定の手間がかかること、収集したデータを意図した目的以外に使いにくいことが挙げられます。
非構造化データ
非構造化データとは、紙やPDF、word、画像、音声などネイティブな形式のまま保存されているデータのことです。そのまま保存することができるため、データ収集を簡単に行うことができます。また、データの用途の自由度も高いです。一方、デメリットとして分析をするにはデータに手を加え、分析できる形式に整形する必要があります。
今、注目されているのが実はこの非構造化データです。全データ量の8割がこの日構造データと言われており宝の持ち腐れ状態が続いていました。ディープラーニングが進む中で非構造データを有効活用し、新たなソリューションを生み出そうという機運が高まっています。
まとめ
本記事ではデータの種類と構造についてまとめました。収集したデータを分析するまえに、このデータは量的データなのか、質的データなのか、構造化データなのか、非構造化データなのか、という視点でとらえなおすと適切な分析方法を選択できるようになると考えられます。私も勉強していきますのでまたいい情報があれば記事化しますね!ここまで読んでいただきありがとうございました!
コメント