ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯಲ್ಲಿ ವರ್ಗೀಕರಣ

ವರ್ಗೀಕರಣವು ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರವಾಗಿದ್ದು, ಹೆಚ್ಚು ನಿಖರವಾದ ಭವಿಷ್ಯ ಮತ್ತು ವಿಶ್ಲೇಷಣೆಗೆ ನೆರವಾಗುವ ಸಲುವಾಗಿ ದತ್ತಾಂಶ ಸಂಗ್ರಹಣೆಗೆ ವರ್ಗಗಳನ್ನು ನಿಯೋಜಿಸುತ್ತದೆ. ಇದನ್ನು ಕೆಲವೊಮ್ಮೆ ನಿರ್ಣಾಯಕ ಮರ ಎಂದು ಕೂಡ ಕರೆಯುತ್ತಾರೆ, ದೊಡ್ಡದಾದ ದತ್ತಾಂಶಗಳ ಪರಿಣಾಮಕಾರಿ ಪರಿಣಾಮವನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಉದ್ದೇಶದಿಂದ ವರ್ಗೀಕರಣವು ಹಲವಾರು ವಿಧಾನಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ.

ಏಕೆ ವರ್ಗೀಕರಣ?

ಇಂದಿನ ಜಗತ್ತಿನಲ್ಲಿ "ದೊಡ್ಡ ಅಕ್ಷಾಂಶ" ದಲ್ಲಿ ಅತಿ ದೊಡ್ಡ ಡೇಟಾಬೇಸ್ಗಳು ರೂಢಿಯಾಗಿವೆ. ಬಹು ಟೆರಾಬೈಟ್ಗಳ ದತ್ತಾಂಶದೊಂದಿಗೆ ಡೇಟಾಬೇಸ್ ಇಮ್ಯಾಜಿನ್ ಮಾಡಿ - ಟೆರಾಬೈಟ್ ಒಂದು ಟ್ರಿಲಿಯನ್ ಬೈಟ್ಸ್ ಡೇಟಾ.

ಫೇಸ್ಬುಕ್ ಮಾತ್ರ ಪ್ರತಿ ದಿನವೂ 600 ಟೆರಾಬೈಟ್ಗಳ ಹೊಸ ಡೇಟಾವನ್ನು ಸಾಯಿಸುತ್ತದೆ (2014 ರ ವೇಳೆಗೆ, ಈ ಸ್ಪೆಕ್ಸ್ ಅನ್ನು ಕೊನೆಯ ಬಾರಿಗೆ ವರದಿ ಮಾಡಿದೆ). ದೊಡ್ಡ ಮಾಹಿತಿಯ ಪ್ರಾಥಮಿಕ ಸವಾಲು ಅದರ ಅರ್ಥವನ್ನು ಹೇಗೆ ಮೂಡಿಸುವುದು.

ಮತ್ತು ಸಂಪೂರ್ಣ ಪರಿಮಾಣವು ಒಂದೇ ಸಮಸ್ಯೆ ಅಲ್ಲ: ದೊಡ್ಡ ಡೇಟಾವು ವೈವಿಧ್ಯಮಯ, ಅಸಂಘಟಿತ ಮತ್ತು ವೇಗವಾಗಿ ಬದಲಾಗುವಂತಿದೆ. ಆಡಿಯೊ ಮತ್ತು ವೀಡಿಯೊ ಡೇಟಾ, ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮ ಪೋಸ್ಟ್ಗಳು, 3D ಡೇಟಾ ಅಥವಾ ಜಿಯೋಸ್ಪೇಷಿಯಲ್ ಡೇಟಾವನ್ನು ಪರಿಗಣಿಸಿ. ಈ ರೀತಿಯ ಡೇಟಾವನ್ನು ಸುಲಭವಾಗಿ ವರ್ಗೀಕರಿಸಲು ಅಥವಾ ಸಂಘಟಿಸಲಾಗಿಲ್ಲ.

ಈ ಸವಾಲನ್ನು ಎದುರಿಸಲು, ಉಪಯುಕ್ತ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯಲು ಸ್ವಯಂಚಾಲಿತ ವಿಧಾನಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ, ಅವುಗಳಲ್ಲಿ ವರ್ಗೀಕರಣ .

ವರ್ಗೀಕರಣ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ

ಟೆಕ್-ಸ್ಪೀಚ್ಗೆ ತುಂಬಾ ದೂರ ಹೋಗುವುದರ ಅಪಾಯದಲ್ಲಿ, ವರ್ಗೀಕರಣವು ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಚರ್ಚಿಸೋಣ. ಪ್ರಶ್ನೆಯೊಂದಕ್ಕೆ ಉತ್ತರಿಸಲು, ನಿರ್ಧಾರವನ್ನು ತೆಗೆದುಕೊಳ್ಳಲು ಅಥವಾ ವರ್ತನೆಯನ್ನು ಊಹಿಸುವ ಒಂದು ವರ್ಗೀಕರಣದ ನಿಯಮಗಳನ್ನು ರಚಿಸುವುದು ಗುರಿಯಾಗಿದೆ.ಆರಂಭಿಸಲು, ಕೆಲವು ನಿರ್ದಿಷ್ಟವಾದ ಗುಣಲಕ್ಷಣಗಳು ಮತ್ತು ಸಾಧ್ಯತೆಯ ಫಲಿತಾಂಶವನ್ನು ಒಳಗೊಂಡಿರುವ ಒಂದು ತರಬೇತಿ ಡೇಟಾವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.

ವರ್ಗೀಕರಣ ಅಲ್ಗಾರಿದಮ್ನ ಕೆಲಸವು ಆ ನಿರ್ಣಯಗಳನ್ನು ಅದರ ತೀರ್ಮಾನಕ್ಕೆ ಹೇಗೆ ತಲುಪುತ್ತದೆ ಎಂಬುದನ್ನು ಕಂಡುಹಿಡಿಯುವುದು.

ಸನ್ನಿವೇಶ : ಬಹುಶಃ ಒಂದು ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಕಂಪನಿಯು ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಪ್ರಸ್ತಾಪವನ್ನು ಯಾವ ಅವಕಾಶಗಳನ್ನು ಪಡೆಯಬೇಕು ಎಂದು ನಿರ್ಧರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಿದೆ.

ಇದು ಅದರ ತರಬೇತಿ ಡೇಟಾದ ಸೆಟ್ ಆಗಿರಬಹುದು:

ತರಬೇತಿ ಡೇಟಾ
ಹೆಸರು ವಯಸ್ಸು ಲಿಂಗ ವಾರ್ಷಿಕ ಆದಾಯ ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಆಫರ್
ಜಾನ್ ಡೋ 25 ಎಂ $ 39,500 ಇಲ್ಲ
ಜೇನ್ ಡೋ 56 ಎಫ್ $ 125,000 ಹೌದು

"ಮುನ್ಸೂಚಕ" ಕಾಲಮ್ಗಳು ವಯಸ್ಸು , ಲಿಂಗ , ಮತ್ತು ವಾರ್ಷಿಕ ವರಮಾನ "ಮುನ್ಸೂಚಕ ಗುಣಲಕ್ಷಣ" ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಆಫರ್ ಮೌಲ್ಯವನ್ನು ನಿರ್ಧರಿಸುತ್ತದೆ. ತರಬೇತಿ ಗುಂಪಿನಲ್ಲಿ, ಮುನ್ಸೂಚಕ ಗುಣಲಕ್ಷಣವನ್ನು ಕರೆಯಲಾಗುತ್ತದೆ. ವರ್ಗೀಕರಣ ಅಲ್ಗಾರಿದಮ್ ನಂತರ ಮುನ್ಸೂಚಕ ಗುಣಲಕ್ಷಣದ ಮೌಲ್ಯವನ್ನು ಹೇಗೆ ತಲುಪಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ: ಊಹಿಸುವವರು ಮತ್ತು ನಿರ್ಧಾರದ ನಡುವೆ ಯಾವ ಸಂಬಂಧಗಳು ಅಸ್ತಿತ್ವದಲ್ಲಿವೆ? ಇದು ಭವಿಷ್ಯಸೂಚಕ ನಿಯಮಗಳ ಒಂದು ಸೆಟ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತದೆ, ಸಾಮಾನ್ಯವಾಗಿ ಒಂದು IF / THEN ಹೇಳಿಕೆ, ಉದಾಹರಣೆಗೆ:

IF (ವಯಸ್ಸು> 18 ಅಥವಾ ವಯಸ್ಸು <75) ಮತ್ತು ವಾರ್ಷಿಕ ವರಮಾನ> 40,000 ನಂತರ ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಆಫರ್ = ಹೌದು

ನಿಸ್ಸಂಶಯವಾಗಿ, ಇದು ಒಂದು ಸರಳ ಉದಾಹರಣೆಯಾಗಿದೆ, ಮತ್ತು ಇಲ್ಲಿ ತೋರಿಸಿರುವ ಎರಡು ದಾಖಲೆಗಳಿಗಿಂತ ಅಲ್ಗಾರಿದಮ್ಗೆ ದೊಡ್ಡದಾದ ಡಾಟಾ ಸ್ಯಾಂಪಲಿಂಗ್ ಅಗತ್ಯವಿದೆ. ಇದಲ್ಲದೆ, ಊಹೆಯ ನಿಯಮಗಳನ್ನು ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾಗಬಹುದು, ಇದರಲ್ಲಿ ಉಪ-ನಿಯಮಗಳು ಗುಣಲಕ್ಷಣ ವಿವರಗಳನ್ನು ಸೆರೆಹಿಡಿಯುತ್ತವೆ.

ಮುಂದೆ, ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಡೇಟಾದ "ಭವಿಷ್ಯಸೂಚಕ ಗುಂಪನ್ನು" ನೀಡಲಾಗುತ್ತದೆ, ಆದರೆ ಈ ಗುಂಪಿನಲ್ಲಿ ಊಹಿಸುವ ಗುಣಲಕ್ಷಣ (ಅಥವಾ ನಿರ್ಧಾರ) ಇರುವುದಿಲ್ಲ:

ಭವಿಷ್ಯಸೂಚಕ ಡೇಟಾ
ಹೆಸರು ವಯಸ್ಸು ಲಿಂಗ ವಾರ್ಷಿಕ ಆದಾಯ ಕ್ರೆಡಿಟ್ ಕಾರ್ಡ್ ಆಫರ್
ಜ್ಯಾಕ್ ಫ್ರಾಸ್ಟ್ 42 ಎಂ $ 88,000
ಮೇರಿ ಮರ್ರಿ 16 ಎಫ್ $ 0

ಭವಿಷ್ಯಸೂಚಕ ದತ್ತಾಂಶವು ಭವಿಷ್ಯಸೂಚನೆಯ ನಿಯಮಗಳ ನಿಖರತೆಯನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಡೆವಲಪರ್ ಭವಿಷ್ಯವನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಮತ್ತು ಉಪಯುಕ್ತವೆಂದು ಪರಿಗಣಿಸುವ ತನಕ ನಿಯಮಗಳನ್ನು ಬದಲಾಯಿಸಲಾಗುತ್ತದೆ.

ದಿನಕ್ಕೆ ದಿನ ವರ್ಗೀಕರಣದ ಉದಾಹರಣೆಗಳು

ವರ್ಗೀಕರಣ, ಮತ್ತು ಇತರ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ತಂತ್ರಗಳು, ಗ್ರಾಹಕರು ನಮ್ಮ ದಿನನಿತ್ಯದ ಅನುಭವದ ಬಹುಭಾಗದಲ್ಲಿದೆ.

ಹವಾಮಾನ ಮುನ್ಸೂಚನೆಗಳು ದಿನವು ಮಳೆ, ಬಿಸಿಲು ಅಥವಾ ಮೋಡವಾಗುವುದೆಂದು ವರದಿ ಮಾಡಲು ವರ್ಗೀಕರಣದ ಬಳಕೆಯನ್ನು ಮಾಡಬಹುದು. ವೈದ್ಯಕೀಯ ಫಲಿತಾಂಶಗಳು ವೈದ್ಯಕೀಯ ಫಲಿತಾಂಶಗಳನ್ನು ಊಹಿಸಲು ಆರೋಗ್ಯ ಸ್ಥಿತಿಯನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತದೆ. ಒಂದು ವಿಧದ ವರ್ಗೀಕರಣ ವಿಧಾನ, ನೇಯ್ವ್ ಬೇಯೇಶಿಯನ್, ಸ್ಪ್ಯಾಮ್ ಇಮೇಲ್ಗಳನ್ನು ವರ್ಗೀಕರಿಸಲು ಷರತ್ತುಬದ್ಧ ಸಂಭವನೀಯತೆಯನ್ನು ಬಳಸುತ್ತದೆ. ವಂಚನೆ ಪತ್ತೆಹಚ್ಚುವಿಕೆಯಿಂದ ಉತ್ಪನ್ನದ ಕೊಡುಗೆಗಳಿಗೆ, ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಮುನ್ನೋಟಗಳನ್ನು ಉತ್ಪಾದಿಸುವ ಪ್ರತಿ ದಿನವೂ ವರ್ಗೀಕರಣವು ತೆರೆಮರೆಯಲ್ಲಿದೆ.