the foundation for intelligent information management

34
Data Classification The Foundation for Intelligent Information Management David Hill Wayne Kernochan Principal President Infostructure Associates Leveraging Information for Organizational Success

Upload: others

Post on 12-Feb-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

� ����������� ��������������������������������������������

Data Classification

The Foundation for Intelligent Information Management

David Hill Wayne Kernochan

Principal President

Infostructure AssociatesLeveraging Information for Organizational Success

� ����������� �������������������������������������������� �

SWC Legal Notice

� ���� ��� ����� ����������� ��� ���������������!����� ��������������������"���#���� ���������� ������� ����$������������%� � �������������� &������ ���������� �����'�������� ����������������������� ������ ������ ��(�������)��!����������*��� ��'������������������+ ���������� ����� ����!�� ����� ���������'�� ����,������������������������� � ������

� ����������� �������������������������������������������� -

Agenda

� ���!������������ ��������!����������� !������� �� ��� ������ ������������ .����� ��������! ��������� ��� ������ ���� /���� �������� ��������������������� ������� � ������������������������������������� ��� ������ ������������ 0�'���� ���� ��� ������ ������� �������������������� ����� �����

� ����������� �������������������������������������������� 1

Definition of Data Classification

Data classification is the process of separating data into

separate piles (i.e., categories) to which different policies apply.

� ����������� �������������������������������������������� 2

What Good is Data Classification (The Storage-Centric View)

� 3 ��� ������ ������� ��4���� ���� �&��� ��� � �����!���+.��������������� ���"'����� ���������� �����#

+5���� �������,��������� ���!��!����� !��������������� ������� ����

� 3 ��� ������ ������������� ��������� �������� ����� ���� ���� �� ��!��� � ��������������

� ����������� �������������������������������������������� �

Data Classification – Above the Storage Tier

� &����� ������ ������ ������ ���� ���6�!�� ���6����������� ��7 ������� ���������8�� �9�������������:

Hardware Level

Database Level}

Business-Process software

Global metadata repository

Business Level}Cross-database, data-copy, business-process metadata

Enterprise Applications Business Intelligence

Data-level metadata sub-repository

Structured, semi-structured, unstructured metadata

Databases Content Management

Storage Area Networks Systems Management

Hardware-level metadata sub-repository

Servers

}Disk, Tape

File, block metadata (age, striping)

� ����������� �������������������������������������������� ;

Why data classification — the ILM ViewWhy data classification Why data classification —— the ILM Viewthe ILM View

Bus

ines

s Fr

amew

ork

Bus

ines

s Fr

amew

ork

Business Business ProcessProcess

Def

ine

Def

ine

Data Management ServicesData Management Services

Network Network InfrastructureInfrastructure

Compute Compute InfrastructureInfrastructure

Storage Storage InfrastructureInfrastructure

IT InfrastructureIT Infrastructure

Info

rmat

ion

Policies, Instrumentation, FiltersPolicies, Instrumentation, Filters

Goals ManagementGoals Management

RequirementsRequirements

Business RequirementsBusiness Requirements

Information Management ServicesInformation Management Services

ApplicationsApplications

ILM

Fra

mew

ork

ILM

Fra

mew

ork

Req

uire

men

tsR

equi

rem

ents

SNIA’s Data Management Forum has a powerful vision

for ILM.

Although infrastructure and services can exist without ILM, the

starting step for ILM is data classification.

� ����������� �������������������������������������������� <

Why Data Classification – the business view

� 3���� ��� ������������� �� ����� �� ����! �=��������' ��� �������� �! ���9>,������� �����������?

� ����������� �������������������������������������������� @

Problems Right Here in Data Classification City

� 5 �������� � ��������������������������� ���������� ��� ������ ���+ 5����&������������� �������� ������ �������6�! ��������� ���������������

+ ������ ����� ��!�� ���������6�! �������� � ������A��� ������ ��A ����� �������� ��� ������ ���

� 3 ��� ������ ���� ��������������! ������� ���� ��6���������'������6������������ ��!�� ��+ 3��������! �������� ���6������� ����'���������� �� ��� ������ ������� �� �����������6� ������! ���������� ���� ��!�������� �

+ (�� ���! �������� ���� � ��� ��� ���!������������ ������� ����� ������ ��!������������ ������ ���������������� ����� �� ������

� 3 ��� ������ �������8!���'���! ������������:

� ����������� �������������������������������������������� B�

Data and Metadata Before Data Classification

• &���������� ������� ���• C��&()

• C�� � �� !��� �������������

• C���� ��������!����� ��� ���

• C��9�,����

�������

• 0��� ���������• 5 �����������• C�����������

• .�������� ��• (�'�7 ����"��� =��#• (�'�������� ���

�

• �%>������D�=��'��'�����������������

• %����������� ������'��• C���������� ���� ��

• C�����! ��4��• &� ������!���"�����D��,��#

• &�����������!��

�� ����

���������������

This is a start for building a compelling case for data classification.

� ����������� �������������������������������������������� BB

Some Benefits from Extending Data Classification

� 3������������� ���=��'��������������� ������ !����7 ������� ������!�� ������������

� &������� ���������'���� ��������!�'����� �� ��!�� ��� ���������������� �� � ��

� % ���������� ������ � ������"! ��������� � ������#

� %� ������ �7 ����"������$ ������'��%�(�E%,� �6��� ������6�(� �F�����#

� ����������� �������������������������������������������� B�

Two Problems to Solve

� 0�'������ !� ��������������� ��� ������ ���

� 0�'� � ����� ��������������� =���� ��������������� �������� ��� ������ ���� ������ �� ������������������������ ����� � �����

� ����������� �������������������������������������������� B-

Data Classification Playbook Definitions

� ���� A ��������"����6����9� ����#�!��� � ���� �= ���������������4 !����� � ���6�� �� �������� ���� ! ����������

� ������� A � �= �������� � ���� ��� ��� �������� ���

� �������� ��A � ��������� ���������� !���� � ���� � !���!��! ������� ����

� �������� A � � !� ��

� ������ ������������� ������������� A���������9'���� ������� ���� ����� � �! ������������� ������ ����������� ���� ������

� ����������� �������������������������������������������� B1

What is data classification?� ��� ��6�� ��� ������ ����������������������� � ����� �������� � ��������"������ �������#���'��������������������� �����+ G�������� ������������� �������! �������� ���+ ���! ������������������!���������������! �������� ���

� 3��������� �������� ����� �������������+ 3�����������������������A � �� ��� ���������6�� ���� ���6� ��������� ���

+ ) ��!������������������������� ��+ ) ��!������ ���'���� ��� ������ ����� ��� ����

� ����������� �������������������������������������������� B2

A Few More Basics About Data Classification

� ��� ����� �� ��������������������������� �����! ���� ����������(�����>!$�������"�(>�#

+ &�����������������,����!�'����'����� ������� 6����� ��!������ ���������������� �

� 3 ��� ������ ������� ����9��������������

+ 3 ��������������� ������ �������� ���� �������)����������������� �������� ��������! ���� ����� �������� �6�� �������������6������6���������

� ����������� �������������������������������������������� B�

More Thoughts on Data Classification

� 3 ��� ������ ������� ��� ����� ������ ������ ��������� �����������

� 3 ��� ������ �������!�� �� � �� ��� �� �� ����������+ ������A ���� �������������! �������� ����'��� ����������� ��� ����������� �� ��!���,�� ���!�����' ��

+ ���������A � �� ��!��������������� ����� ��!������������������� �����! ���������������

+ ������ �������������������A �� ��������=����������A ��������������! �������� ����� ��������� ����=��'����' �� ���� � �� !��� ��� �� ������������ ������ ����������� ���� ��� ���� � !������

� ����������� �������������������������������������������� B;

General Tool Strategies for Helping to Classify Data

� 5�������� ���

� 5��)� �

+H����)� �

+%,������)� �

+�������� �����

� ����������� �������������������������������������������� B<

Application Classification

� ������ ��������� �������� ���������9����� �6�! ������9����� �6� �=9����� �6����+ �(>�� ������������ ����� ���

+ ����� ������� ����� ��������� ������������ ��������'�� ����������������!$������"�G>#�!�������������� ���' !���� ������������ ����� ���

� ��������� ���������

� ����������� ������ ���� �+ ������� ����� ������ ������ ���6����� ��� ������ ���

+ 5 �������� ��!����������� ����� ������ ������ ���6�! ������������� ��� ������ ���

� ����������� �������������������������������������������� B@

Why not just application classification?

� 3 ���������!������������������������������ ����� ���+ �� ���������� ���������� ���!�� ��� �����������'��� ����� ������ ��� ���������

+ C���� ���������� �'� ��������� �� �������� ������ � ���� �� ����������������� ���� ������ ����� ��������� ������ ��

� �'������������ ������� �������,��������� ��� ����� ��������+ 3 �'������������������������� ���� ����������� ����� ������ ���!������� ������� � ������� ���������

+ (���� ����� � ������������� ������������ ������,��������'���� �� ����� ����'� �������! ������� ����� ���

� ����������� �������������������������������������������� ��

Data Classification Through Metadata

� � ����������� A �� ������� �!������� ����,������6�� � ��6���4�6��'���6���� ����� �6����+ ����������� �� �� ���� � �� !���'�� ��,� ������

+ � �����������(������� � !������

� � ��������������� A ������ ���� � �A� �� ����� ���6��� ������'�������"�������� ����#6� ���'��=���'��� ���+ ����������&���������� � � ��������� ��� ������ ���

+ � �����������(���������� �������������������� ������������� � �����

� ����������� �������������������������������������������� �B

Adding in Content Analysis

� ���� �� A ��� ��4���������"� �� ��!��=��'���#���� ����� ��!�� ����!��� ��9�,�5���� ���� ����������+ ������������������� ������ � � ��������� ����������! ���� � ����������

+ � ������������������������ � �����6�! �����,������������� ����������,� � �����I����=��������'��������

� �����������������!� �A�����7 ������, ���������������������� �� �=���� ����� ����'����� ������� ���������� + ����������3������ ��������� � �����

+ � ���������������9���� ����� �������� � !��

� ����������� �������������������������������������������� ��

The Management Lens

� �������������� A ���������6��������6� ���������������� ����� ��� ������

� ����������� A �����9� 9� �������� ��� ��������� ��������������� �������������6�� �� ������ ���6������� ���6� ���! �= �J������������������

� � ������������� A � � ������������ �����������9� =������� ����������������� ���� ������������ ����������������� �! ��������������6�� �� ����������� � ������ ���������� � �������

� ����������� �������������������������������������������� �-

Data Classification and the Management Lens

� ���� � ������������� �������������!������� �� ��!���������������� ��� ������ ��������&()

� ������������������+ � ��������� �������������� ��+ ����������� ����� �����

� ���������������+ � ��������� � ����� ���6�� ���������6� ��������� ���+ ������������ 0�������������������6�&��� � �� !����

� �������� �������������+ � ��������� !���� ������������ ���� ����6��3��������+ ����������� &���� ����� � ��"������� ����6������ ��6����� �����#��������������

� 3���������'��� ��� ��� ������ ������ ����'���� ������ ���������������� � ������

� ����������� �������������������������������������������� �1

The Data Lens

•%��� �����6�� �� �������� ��� ���•&� ����6�� �� ������ ������� ��� ���!�� ���������� �����

•G����� ������ �����6�� �� ���9� ��� ���'��������������•��!������ �����0��G

•>(�G�������6�� �� ����)� ���%�G•3 �' ��� ����

� ��"���

��������� �����#�!�� ������� ����

C ������!�� ������ 6�� �� �������6� ���6���� ���6� ���)�&��� ��

8��,: ��� ������ �� ���9� ��6�'��������������6������� ����6����� �����

3 ! ��������������

$�����%�������� &����%�����

����%�����!"�

� ����������� �������������������������������������������� �2

Distinguishing Between Unstructured and Semi-Structured Data

� .��� � ����� � ������� ����5(>5��"5�� ���( ����>!$���#+ C ����"�����'�� ��� ������� � #� ��� � ����� �� ����!�� ����!�������9 ' ��� ����� ����

+ ) � ������ ��������� �

+ �������� ���� ����� ������ ����������������������� �����

� C��� �! ���������� �����"'��������������6������� ����6����� �����#� ��������������������� �������� �� ��� � ����� + 5 ���������� ����� �������9�� � �����

+ ��������� ���������� � ��!��������� �� ���������������� 6�! � ������������ ������������������ ������

� ����������� �������������������������������������������� ��

Don’t reinvent the wheel - 1� )� � � ������������ ��

Hardware Level

Database Level}

Business-Process software

Global metadata repository

Business Level}Cross-database, data-copy, business-process metadata

Enterprise Applications Business Intelligence

Data-level metadata sub-repository

Structured, semi-structured, unstructured metadata

Databases Content Management

Storage Area Networks Systems Management

Hardware-level metadata sub-repository

Servers

}Disk, Tape

File, block metadata (age, striping)

� ����������� �������������������������������������������� �;

Don’t reinvent the wheel - 2� ������������� �6��,� �6� ������!������ �

+ %, ����K��%���������&����� ����&���� ����"%&&#

BI Reporting Tools & Applications

Oracle Database

Program

Program

End User

Files, Content

Relational Data

Applications

Oracle, IBM DB2

Excel,Web

graphics

SAP, SiebelSQL,

XQuery

APIs, Web

serviceprovider

code

EII Front End EII Back EndEII Engine/Server

Adapter

ETL Tool

Local EII ServerMetadata Repository

(contains cross-data-source views, virtual tables)

Query Optimizer

Transaction Engine

(combine sub-query, sub-read, sub-update)

Cache Database

� ����������� �������������������������������������������� �<

How Accurate Will The Classification Be?� 8����'������������������� 6�����'����<-6����� �������������6�216����� ��������������6� ��� �����B��6�������� ������ ��� ��������������������������=����� ������' �� ���'�����������'���������� ���!����������������������� ������ �6���������������������� ��� �����6� ������������������� ��� �������:

� 8) ���� ��������L � ��������������6� �� �� �������� �!��� ��� �� �������� ��L� �!�� ��� �����������C������� �� ��������,�����:

� 8����D������ ��� ������� =��� ��� ��� ����������������������������� ������������������������6�����6��� � ��������,��� ��� ����� ����� �����������������!���= ��������������� ����������� ��! �������� �����6�! ������ �' ������� ������������������������L �������������������������� ��� �������� ���6��D������� ��������������������!���:

� 8B26������������ ���� ��4����� ������� �������L ������ ���� ��4����������� ��� ����� �������:+ ��� ��� ��6���� �H����6����26��������) ����3 �) � �����������

� ����������� �������������������������������������������� �@

Steps to Take

� 3���������������������� ��� ������ ���������+ ���������A ���� ��� ���� ������ ��� ��� ����� ����+ �������� A ����������� ����� ���������� ���'� ����� ����+ � ���������� ������ ��A � ����� ����� �� ����,�� �������� �����6�! 6���� ������ �����������9������ �6�� ��!��!���������=� ����� �� ����� �� ������

� ) �� ��' ���������� ��������!���� ��������'��' ���� ��� ������ �������� ��� �����������+ ���� ����� A � ! ���+ ��������� ����� A �9� ��� ���������� ����+ ������ ����� A 5(>5�

� ) ����� ��� ������ ������������'����� � ������"��� ��6�� 6� ��������� ���#�!������� �� ��!����������

� .������9�,����������� ����� � ������ � ������ �������9� �����������'���������!��

� ����������� �������������������������������������������� -�

Separating Data into Pools

� �%� ����'�������� A ��������� �������������� 6�'���������� ������!��� ��� !���"������� �J'���#+ �� ���6�� � ���� ���=������� ����"� �� ���������� �� ��������������9� ���#� ��������������'��� ��� !����

� �%� �����%' �� A ��,���������� � ������������� �� �����"�����������#�! �����������

� ���"���%' �� A ����������,���������� � ������� ������������������ ������ �� ����

� �����������%� ��A ����������������������� ����������������������

� ����������� �������������������������������������������� -B

Where Should Your Data Be Today?

Active Changeable

Pool

Active Archive

Pool

Deep Archive

PoolProduction Data

Ad hoc recall, e.g. regulatory requirements

•Business intelligence•Reference•Compliance

•OLTP•Collaboration

Purpose

Fixed dataFixed dataChangeable dataType of Data

OfflineOnlineOnlineAvailability

Data DestructionEndpoint Analysis: What characteristics

should data have to be in each pool?

� ����������� �������������������������������������������� -�

Applying Data Classification for Intelligent Information Management

� 3 ��� ������ ���� ����������������������� 6��� ����� �������������9�������� ���� � !����6� ����� ������������� ��������������� ���������������� �������������� ������

� C�'��� ����� ���"�#� ��������� ���� ������� �� ����������� ����������'���� ��' ���������+ .������� �����������! ���� � ����������+ 3 ��� ������ ���� ����� ������� �� ������������������������ ����� � ������

Hardware Level

Database Level}

Business-Process software

Global metadata repository

Business Level}Cross-database, data-copy, business-process metadata

Enterprise Applications Business Intelligence

Data-level metadata sub-repository

Structured, semi-structured, unstructured metadata

Databases Content Management

Storage Area Networks Systems Management

Hardware-level metadata sub-repository

Servers

}Disk, Tape

File, block metadata (age, striping)

Classified Data

� ����������� �������������������������������������������� --

Conclusions

� 3 ��� ������ �������!�� �� � �� ��� �� �� ��� �=�+ ��������� �����6����������������������� ��!�� ���6�����6��������� � ������ ������� ������ ���������������������'������� ��� ���

+ ������ � ����� � � ��������� � ������� �� �� ���� ��������������! �������� ���� ��������������������������

� �������������� �������� ��� ������ ����� ��!��� ��+ %����� ����'������ ����������,�����!��������� �������!� ���&�� �����! ������� �� �'���

+ %����� ����'����� ��������� �������� �� ������� ����! ���� � ����������� 5 ��� D��� ��� ��� �=���������6����������� �����D�=��'��M�") ����3 �) � �����#

� ����������� �������������������������������������������� -1

Thank You! – Questions please.

Wayne Kernochan

David Hill(781) 326-0038

www.mesabigroup.com

[email protected]

(781) 862-5236

www.valleyviewventures.com

[email protected]

Infostructure AssociatesLeveraging Information for Organizational Success