ಕ್ಲಸ್ಟರಿಂಗ್ ಎಂದರೇನು?

ಕೆ-ಎಂದರೆ ಅಲ್ಗಾರಿದಮ್ನೊಂದಿಗೆ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ

K- ಎಂದರೆ ಕ್ಲಸ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್ ಎನ್ನುವುದು ಆ ಸಂಬಂಧಗಳ ಯಾವುದೇ ಪೂರ್ವ ಜ್ಞಾನವಿಲ್ಲದೆಯೇ ಕ್ಲಸ್ಟರ್ ಅವಲೋಕನಗಳಿಗೆ ಸಂಬಂಧಿತ ಅವಲೋಕನಗಳ ಗುಂಪುಗಳಾಗಿ ಬಳಸುವ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ಸಾಧನವಾಗಿದೆ. ಸ್ಯಾಂಪಲ್ ಮಾಡುವ ಮೂಲಕ, ಕ್ರಮಾವಳಿಗಳ ಮೌಲ್ಯವು k ಯಿಂದ ವ್ಯಾಖ್ಯಾನಿಸಲ್ಪಡುವ ಸಂಖ್ಯೆಯೊಂದಿಗೆ, ಯಾವ ವರ್ಗ, ಅಥವಾ ಕ್ಲಸ್ಟರ್, ಡೇಟಾವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಎಂಬುದನ್ನು ಅಲ್ಗಾರಿದಮ್ ತೋರಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ .

K- ಸಾಧನ ಕ್ರಮಾವಳಿ ಸರಳವಾದ ಕ್ಲಸ್ಟರಿಂಗ್ ತಂತ್ರಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಮತ್ತು ಇದನ್ನು ವೈದ್ಯಕೀಯ ಚಿತ್ರಣ, ಬಯೋಮೆಟ್ರಿಕ್ಸ್, ಮತ್ತು ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. K- ಎಂದರೆ ಕ್ಲಸ್ಟರಿಂಗ್ ಪ್ರಯೋಜನವೆಂದರೆ ಅದು ಆರಂಭದಲ್ಲಿ (ಅಲ್ಗಾರಿದಮ್ನ ಮೇಲ್ವಿಚಾರಣೆ ರೂಪವನ್ನು ಬಳಸಿ) ಮಾಹಿತಿಯ ಕ್ರಮಾವಳಿಯನ್ನು ಸೂಚಿಸುವ ಬದಲು ನಿಮ್ಮ ಡೇಟಾವನ್ನು (ಅದರ ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡದ ಫಾರ್ಮ್ ಅನ್ನು ಬಳಸಿ) ಹೇಳುತ್ತದೆ.

ಇದನ್ನು ಕೆಲವೊಮ್ಮೆ ಲಾಯ್ಡ್ಸ್ ಅಲ್ಗಾರಿದಮ್ ಎಂದು ಕರೆಯುತ್ತಾರೆ, ಅದರಲ್ಲೂ ವಿಶೇಷವಾಗಿ ಕಂಪ್ಯೂಟರ್ ಸೈನ್ಸ್ ವಲಯಗಳಲ್ಲಿ ಸ್ಟಾಂಡರ್ಡ್ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು 1957 ರಲ್ಲಿ ಮೊದಲು ಸ್ಟುವರ್ಟ್ ಲಾಯ್ಡ್ ಪ್ರಸ್ತಾಪಿಸಿದರು. "ಕೆ-ಎಂದರೆ" ಎಂಬ ಪದವನ್ನು 1967 ರಲ್ಲಿ ಜೇಮ್ಸ್ ಮೆಕ್ಕ್ವೀನ್ ಎಂಬಾತನಿಂದ ಸೃಷ್ಟಿಸಲಾಯಿತು.

K- ಎಂದರೆ ಅಲ್ಗಾರಿದಮ್ ಫಂಕ್ಷನ್ಗಳು

K- ಎಂದರೆ ಅಲ್ಗಾರಿದಮ್ ಎನ್ನುವುದು ವಿಕಸನೀಯ ಅಲ್ಗಾರಿದಮ್ ಆಗಿದ್ದು, ಅದು ತನ್ನ ಕಾರ್ಯವಿಧಾನದ ವಿಧಾನದಿಂದ ತನ್ನ ಹೆಸರನ್ನು ಪಡೆಯುತ್ತದೆ. ಕ್ರಮಾವಳಿ ಕ್ಲಸ್ಟರ್ಗಳು ಕೆ ಗುಂಪುಗಳಾಗಿ ಪರಿವೀಕ್ಷಿಸಲ್ಪಡುತ್ತವೆ, ಅಲ್ಲಿ k ಯನ್ನು ಇನ್ಪುಟ್ ನಿಯತಾಂಕವಾಗಿ ಒದಗಿಸಲಾಗುತ್ತದೆ. ನಂತರ ವೀಕ್ಷಣೆ ಸಮೂಹದ ಮಧ್ಯದ ಸಾಮೀಪ್ಯದ ಆಧಾರದ ಮೇಲೆ ಸಮೂಹಗಳಿಗೆ ಪ್ರತಿ ಅವಲೋಕನವನ್ನು ನಿಯೋಜಿಸುತ್ತದೆ. ಕ್ಲಸ್ಟರ್ನ ಸರಾಸರಿ ನಂತರ ಪುನಃ ಸಂಕಲನಗೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಪ್ರಕ್ರಿಯೆಯು ಮತ್ತೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ. ಅಲ್ಗಾರಿದಮ್ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ಇಲ್ಲಿದೆ:

  1. ಅಲ್ಗಾರಿದಮ್ k ಅಂಕಗಳನ್ನು ಪ್ರಾಥಮಿಕ ಕ್ಲಸ್ಟರ್ ಕೇಂದ್ರಗಳು (ಸಾಧನಗಳು) ಎಂದು ಅನಿಯಂತ್ರಿತವಾಗಿ ಆಯ್ಕೆಮಾಡುತ್ತದೆ.
  2. ಡೇಟಾಸಮೂಹದಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ಬಿಂದುವು ಪ್ರತಿ ಪಾಯಿಂಟ್ ಮತ್ತು ಪ್ರತಿ ಕ್ಲಸ್ಟರ್ ಸೆಂಟರ್ ನಡುವೆ ಯೂಕ್ಲಿಡಿಯನ್ ಅಂತರವನ್ನು ಆಧರಿಸಿ ಮುಚ್ಚಿದ ಕ್ಲಸ್ಟರ್ಗೆ ನಿಯೋಜಿಸಲಾಗಿದೆ.
  3. ಪ್ರತಿ ಕ್ಲಸ್ಟರ್ ಸೆಂಟರ್ ಆ ಕ್ಲಸ್ಟರ್ನಲ್ಲಿನ ಬಿಂದುಗಳ ಸರಾಸರಿಯಾಗಿ ಮರುಸಂಪರ್ಕಗೊಳ್ಳುತ್ತದೆ.
  4. ಸಮೂಹಗಳು ಒಮ್ಮುಖಗೊಳ್ಳುವವರೆಗೂ ಕ್ರಮಗಳು 2 ಮತ್ತು 3 ಪುನರಾವರ್ತಿತವಾಗುತ್ತವೆ. ಅನುಷ್ಠಾನಕ್ಕೆ ಅನುಗುಣವಾಗಿ ಕನ್ವರ್ಜೆನ್ಸ್ನ್ನು ವಿಭಿನ್ನವಾಗಿ ವ್ಯಾಖ್ಯಾನಿಸಬಹುದು, ಆದರೆ ಸಾಮಾನ್ಯವಾಗಿ ಅಂದರೆ ಹಂತ 2 ಮತ್ತು 3 ಪುನರಾವರ್ತಿತವಾಗಿದ್ದಾಗ ಅವಲೋಕನದ ಬದಲಾವಣೆ ಸಮೂಹಗಳು ಅಥವಾ ಬದಲಾವಣೆಗಳನ್ನು ಸಮೂಹಗಳ ವ್ಯಾಖ್ಯಾನದಲ್ಲಿ ವಸ್ತು ವ್ಯತ್ಯಾಸವನ್ನು ಮಾಡಲಾಗುವುದಿಲ್ಲ.

ಕ್ಲಸ್ಟರ್ಗಳ ಸಂಖ್ಯೆ ಆಯ್ಕೆ

K- ಗೆ ಮುಖ್ಯ ಅನಾನುಕೂಲತೆಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಕ್ಲಸ್ಟರಿಂಗ್ ಎಂಬುದು ಕ್ರಮಾವಳಿಗಳಿಗೆ ಇನ್ಪುಟ್ ಆಗಿ ಸಮೂಹಗಳ ಸಂಖ್ಯೆಯನ್ನು ನೀವು ನಿರ್ದಿಷ್ಟಪಡಿಸಬೇಕಾಗಿದೆ. ವಿನ್ಯಾಸಗೊಳಿಸಿದಂತೆ, ಅಲ್ಗಾರಿದಮ್ ಸಮೂಹಗಳ ಸರಿಯಾದ ಸಂಖ್ಯೆಯನ್ನು ನಿರ್ಧರಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ ಮತ್ತು ಇದನ್ನು ಮುಂಚಿತವಾಗಿ ಗುರುತಿಸಲು ಬಳಕೆದಾರರ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ.

ಉದಾಹರಣೆಗೆ, ಪುರುಷ ಅಥವಾ ಸ್ತ್ರೀಯಂತೆ ಬೈನರಿ ಲಿಂಗ ಗುರುತಿಸುವಿಕೆಯ ಆಧಾರದ ಮೇರೆಗೆ ಗುಂಪಿನ ಗುಂಪನ್ನು ನೀವು ಹೊಂದಿದ್ದರೆ, ಇನ್ಪುಟ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಕೆ- ಮಾರ್ಗ ಕ್ರಮಾವಳಿಗಳನ್ನು ಕರೆಮಾಡುವುದರಿಂದ 3 ಜನರನ್ನು ಮೂರು ಕ್ಲಸ್ಟರ್ಗಳಾಗಿ ಒತ್ತಾಯಿಸುತ್ತದೆ, ಅಥವಾ ಒಂದು k = 2 ನ ಇನ್ಪುಟ್ ಹೆಚ್ಚು ನೈಸರ್ಗಿಕ ಫಿಟ್ ಅನ್ನು ಒದಗಿಸುತ್ತದೆ.

ಅಂತೆಯೇ, ವ್ಯಕ್ತಿಗಳ ಒಂದು ಗುಂಪು ಸುಲಭವಾಗಿ ಹೋಮ್ ರಾಜ್ಯವನ್ನು ಆಧರಿಸಿ ಕ್ಲಸ್ಟರನ್ನಾಗಿಸಿದರೆ ಮತ್ತು k = ಎಂದರೆ ಇನ್ಪುಟ್ ಕೆ = 20 ರೊಂದಿಗೆ ನೀವು ಕರೆಯಲ್ಪಡುವರೆ , ಫಲಿತಾಂಶಗಳು ಪರಿಣಾಮಕಾರಿಯಾಗಲು ತುಂಬಾ ಸಾಮಾನ್ಯವಾಗಬಹುದು.

ಈ ಕಾರಣಕ್ಕಾಗಿ, ನಿಮ್ಮ ದತ್ತಾಂಶಕ್ಕೆ ಸೂಕ್ತವಾದ ಮೌಲ್ಯವನ್ನು ಗುರುತಿಸಲು k ಯ ವಿಭಿನ್ನ ಮೌಲ್ಯಗಳೊಂದಿಗೆ ಪ್ರಾಯೋಗಿಕವಾಗಿ ನಡೆಸುವುದು ಒಳ್ಳೆಯದು. ಯಂತ್ರ-ಕಲಿತ ಜ್ಞಾನಕ್ಕಾಗಿ ನಿಮ್ಮ ಅನ್ವೇಷಣೆಯಲ್ಲಿ ಇತರ ದತ್ತಾಂಶ ಗಣಿಗಾರಿಕೆಯ ಕ್ರಮಾವಳಿಗಳ ಬಳಕೆಯನ್ನು ಅನ್ವೇಷಿಸಲು ನೀವು ಬಯಸಬಹುದು.