前回の 2 つの記事「分析の前提条件 - データ品質 1」と「分析の前提条件 - データ品質 2」では、それぞれデータ プロファイリングを通じてデータの統計情報を取得する方法と、データ監査を使用してデータに品質上の問題があるかどうかを評価する方法について説明しました。データ品質の問題は、完全性、正確性、一貫性の 3 つの側面から監査できます。この記事では、最後の部分であるデータ修正について紹介します。 データ監査は、データ内の問題を見つけるのに役立ちます。これらの問題は、データの全体的な品質を向上させるためにいくつかの方法を使用して修正できる場合があります。データ修正はこのタスクを達成するためのもので、次の側面から修正できます。 欠損値の補完 レコードが欠落している問題に対する最も簡単な解決策は、データを入力することです。一般的に、欠落している統計指標データは元のデータから再取得できますが、欠落している元のデータは抽出されたデータ ソースまたはバックアップ データから補足できます。元のデータが完全に失われた場合、それを回復することは基本的に不可能です。 欠損値については、多くの資料で何らかの統計的手法を使用して補うことが紹介されていますが、これは実際には欠損値の予測または推定です。一般的には、平均値、最頻値、前後の値の平均などの手法が使用されるか、回帰分析を使用して指標の変化傾向を当てはめて予測を行います。これらの方法は、欠損値を他の手段で取得または再計算できない場合、および欠損値に規則的な変化パターンがある場合に適しています。特定の日の指標値が欠損している場合、このタイプの方法を使用して、過去数日間のデータに基づいてその日の値を推定できます。しかし、ウェブサイト分析では、基礎となるログに欠損値がある場合、アクセスの詳細はほとんど追跡できないため、特定の欠損値を予測することは困難です。そのため、アクセス レコードに欠損値があり、これらのフィールドの欠損が一部の統計指標の計算に明らかに影響する場合、最も簡単な方法はレコードを破棄することです。ただし、欠損レコードを直接フィルタリングするこの方法は、アクセス ログなど、非常に正確なデータを必要としないデータにのみ使用されます。ウェブサイトの操作、トランザクションなどの場合、完全に正確に計算する必要があるこれらのデータは直接破棄してはなりません。さらに、アクセス ログ内の欠損レコードまたは異常レコードのフィルタリングも、そのようなデータの統計に基づく必要があります。一般的な原則は、重要でないフィールドの欠損レコードまたは異常レコードが 1% または 5‰ 未満である場合、これらのレコードをフィルタリングすることを選択できます。割合が比較的高い場合は、ログ レコードに問題があるかどうかをさらに確認する必要があります。 重複レコードの削除 データセット内の一部のフィールドの値は、日次統計インジケータ値の日付フィールドや、ユーザー情報テーブルのユーザーIDなど、一意である必要があります。一意であることが保証される必要があるこれらのルールは、データベースに一意制約を設定できます。ただし、ETL処理を行う場合、一意制約違反によりデータロードプロセス全体が中断されないようにするために(ロードプロセスに長い時間や処理コストがかかる場合があり、ETLにはプロセス全体が中断されないようにフォールトトレランスが必要です)、重複レコードは最初に無視され、一意であることが保証される必要があるフィールドは、ETLプロセス全体が完了した後に重複が排除されます。 これらの重複レコードは、データプロファイリングのデータ統計情報の一意の値の数とレコードの合計数を比較して、それらが一貫しているかどうかを確認することで確認できます。これらを修正する最も簡単な方法は、重複レコードを 1 つだけ保持し、その他を削除することです。これは実際の状況に基づいて判断する必要があり、重複レコードの統計を合計することで重複を削除できる場合もあります。 変換の不一致レコード データウェアハウスの「統合」機能により、データは、データウェアハウスにデータを提供する必要があります。たとえば、3つのシステムを統合する必要があります。データソースAからIDを統合し、100で分割して、同じログのセットに由来する場合でも、以前のリリースバージョンにはモバイルバージョンがあります。新しいバージョンと古いバージョンのログが組み合わされたため、データ変換も関係していましたが、レコードのこの矛盾は間違いなくETLの処理コストを増加させます。 上記の例の変換ルールは比較的単純です。データ ウェアハウスの ETL でデータ変換を処理するときに、非常に複雑なルールに遭遇することがあります。このとき、最も重要なことは、データ ソースの記録方法を十分に理解し、データ ウェアハウスに入るデータの一貫性を確保することです。ベストプラクティスは、データ ウェアハウス開発エンジニアとその他のフロントエンド システム開発者が、統一されたデータ記録およびエンコード方法について事前に合意しておくことです。これにより、その後の調整、通信、および変換処理のコストを削減できます。 異常データの処理 文字エンコードなどの問題によって文字化けしたり、文字が切り捨てられたり、異常な値になったりするなど、異常なデータはほとんどの場合修正が困難です。これらの異常なデータに規則的なパターンがない場合、復元することはほぼ不可能であり、直接フィルタリングすることしかできません。 一部のデータ異常は復元できます。たとえば、元の文字に他の不要な文字が混在している場合は、サブストリング法とトリム関数を使用して、文字列の前後のスペースを削除できます。文字が切り捨てられている場合、切り捨てられた文字を使用して元の完全な文字列を推測できる場合は、復元することもできます。たとえば、モバイルオペレーティングシステムのレコードには、一般的にSymbian、Android、iPhone、BlackBerryなどが含まれます。一部のレコードがAndである場合、Androidに復元できます。他のモバイルオペレーティングシステムは切り捨てられており、Andレコードが表示されることは不可能であるためです。数値記録に異常に大きい値や小さい値がある場合、それが数値単位の違いによるものかどうかを分析できます。たとえば、グラムとキログラムの間には 1,000 倍の差がある、米ドルと人民元の為替レートに差がある、時間記録にタイムゾーンの違いがある、パーセンテージが 1 未満の小数点以下になっている、または 100 倍になっているなどです。これらの数値の異常は変換によって処理できます。また、数値単位の違いもデータの不整合と見なすことができます。また、値の後に余分なゼロがいくつか追加されるなど、一部の値が誤って拡大または縮小され、データ異常が発生します。 最後に、データを修正できるという前提をまとめます。1) データ品質の問題は、データ監査プロセスを通じて特定できます。2) データの問題は追跡可能で、傾向から予測したり、特定のルールを通じて変換および復元したりできます。それ以外の場合は、異常なデータを直接削除して破棄することしかできませんが、データのフィルタリングを行う前に、異常な記録の割合を評価する必要があります。割合が高すぎる場合は、元のデータの記録方法に問題がないかを見直す必要があります。 » この記事はBY-NC-SA契約を採用しています。転載の際は出典を明記してください: ウェブサイトデータ分析 » 「分析の前提条件 - データ品質3」 原題: ウェブサイトデータ分析: 分析の前提 - データ品質 3 キーワード: ウェブサイト、前提、品質、前回、2 つの記事、紹介、経由、ウェブマスター、ウェブサイトのプロモーション、収益化 |
<<: タオバオのソフト記事マーケティング:レイアウトの問題
2011年12月21日、北京市望京区のホテルで開催されていた「CSDNマイクロサミット」は、CSDN...
調査機関の調査によると、2019 年に 48% の組織がクラウド コンピューティング ビジネス イン...
ダブル11がどんどん早く来るようになってきているようです。 19日と20日、JD.comとTmall...
今日は、Baidu スナップショットに対する苦情が効果的かどうかについて議論しましょう。多くのウェブ...
インターネット マーケティングにはさまざまな手法があります。インターネット マーケティングの手法の ...
Virmach の AMD Ryzen シリーズは、多くのコンピューター ルームに導入されています。...
現在から 3 月 31 日まで、ロサンゼルスの QN データ センターにある hostdare のア...
数年前まで遡ると、国内のインターネット市場は活況を呈し、多くの高品質なプラットフォームや企業が出現し...
インターネットの発展に伴い、電子商取引はますます成熟してきました。ますます多くの企業がオンラインマー...
Baidu 検索結果のスクリーンショット新浪科技は5月2日夜、百度包括コンピューティングが新たなコン...
SEO を行う人にとって、理解しなければならないことの 1 つは、フレンドリー リンクです。私たちは...
この記事は主にブランド成長を目指す企業を対象としており、交流を歓迎します。 Sina Weibo @...
ipxcoreは2003年に設立されました。当時の主な事業はデジタルデザインでした。2011年にID...
unesty は 2009 年に設立されたドイツの企業です。仮想ホスティング、VPS、クラウド サー...
昨年、私は smtplib を使用して電子メールを送信する方法についての記事を書きましたが、友人から...