ការវិភាគចង្កោម។ បញ្ជីឯកសារយោង វិធីសាស្រ្តនៃការវិភាគចង្កោម

ផ្តល់នូវការណែនាំទាន់ពេលវេលា និងសំខាន់ចំពោះការវិភាគចង្កោមមិនច្បាស់ វិធីសាស្រ្ត និងការប្រើប្រាស់របស់វា។ ពិពណ៌នាជាលក្ខណៈប្រព័ន្ធនូវបច្ចេកទេសចង្កោមមិនច្បាស់ផ្សេងៗ ដូច្នេះអ្នកអានអាចជ្រើសរើសវិធីសាស្ត្រដែលសមស្របបំផុតសម្រាប់ការដោះស្រាយបញ្ហារបស់គាត់។ មានការពិនិត្យឡើងវិញនូវអក្សរសិល្ប៍ដ៏ល្អ និងទូលំទូលាយលើប្រធានបទ ការទទួលស្គាល់រូបភាព ចំណាត់ថ្នាក់គ្របដណ្តប់ ការវិភាគទិន្នន័យ និងការបង្កើតច្បាប់។ ឧទាហរណ៍​គឺ​ជា​ឧទាហរណ៍​គ្រប់គ្រាន់​ហើយ​ផ្តល់​ជូន។ លទ្ធផលត្រូវបានសាកល្បង។
នេះគឺជាសៀវភៅលម្អិតបំផុតស្តីពីការធ្វើចង្កោមមិនច្បាស់ ដែលជាមូលហេតុដែលវាត្រូវបានណែនាំសម្រាប់អ្នកវិទ្យាសាស្ត្រកុំព្យូទ័រ គណិតវិទូ វិស្វករ - នរណាម្នាក់ដែលពាក់ព័ន្ធនឹងការវិភាគទិន្នន័យ ដំណើរការរូបភាព។ វាក៏នឹងមានប្រយោជន៍សម្រាប់និស្សិតដែលកំពុងធ្វើការក្នុងវិស័យវិទ្យាសាស្ត្រកុំព្យូទ័រផងដែរ។

ស្លាក ,

ការងារនេះត្រូវបានឧទ្ទិសដល់វិធីសាស្រ្តមួយនៃទ្រឹស្តីនៃការទទួលស្គាល់គំរូ — ការវិភាគចង្កោម។

គំនិតសំខាន់ៗនៃការវិភាគចង្កោមត្រូវបានបង្ហាញជាទម្រង់សង្ខេប ហើយផ្នែកខ្លះនៃការអនុវត្តរបស់វាក្នុងការស្រាវជ្រាវរុករករ៉ែត្រូវបានបង្ហាញ។ វិធីសាស្ត្រចង្កោមដែលបានពិពណ៌នាអាចត្រូវបានប្រើក្នុងបញ្ហាជាក់ស្តែង។ នៅក្នុងក្បួនដោះស្រាយផ្នែកគណនាត្រូវបានពិចារណាលម្អិតគ្រប់គ្រាន់។

ទោះបីជាការពិតដែលថាការវិភាគចង្កោមគឺជាឧបករណ៍ចាត់ថ្នាក់ដ៏មានប្រសិទ្ធភាព និងងាយស្រួល ហើយក៏ជារឿងធម្មតាផងដែរនៅក្នុងការស្រាវជ្រាវជាក់ស្តែង មានការបោះពុម្ពផ្សាយតិចតួចណាស់លើប្រធានបទនេះជាភាសារុស្សី ហើយអ្វីដែលមានស្រាប់គឺគ្មានព័ត៌មាន។ ខិត្តប័ណ្ណនេះបង្ហាញពីបញ្ហាជាមូលដ្ឋានមួយចំនួននៃការវិភាគចង្កោម។

សម្រាប់អ្នកស្រាវជ្រាវ អ្នកធ្វើវិញ្ញាបនបត្រ និងអ្នកឯកទេសដែលធ្វើការក្នុងផ្នែកនៃការវិភាគស្ថិតិចម្រុះ។

ស្លាក ,

ប្រធានបទនៃសៀវភៅនេះគឺជាការពិនិត្យឡើងវិញអំពីស្ថានភាពនៃទ្រឹស្តីនិងការអនុវត្តនៃការអនុវត្ត "ការវិភាគចង្កោម" ។ វិធីសាស្រ្តនេះមានគុណសម្បត្តិទាំងអស់នៃវិធីសាស្រ្តរួមបញ្ចូលគ្នាជាក្រុម និងមិនរួចផុតពីគុណវិបត្តិចម្បងរបស់វា - ការបែកខ្ចាត់ខ្ចាយនៃសម្ភារៈ ដែលបើកការរំពឹងទុកយ៉ាងទូលំទូលាយសម្រាប់ការអនុវត្តវិធីសាស្រ្តក្នុងសំណួរក្នុងការវិភាគស្ថិតិ ក្នុងការបែងចែកវត្ថុក្នុងការសិក្សាទំនាក់ទំនង ការវាយអក្សរគំរូ។ល។ សៀវភៅនេះត្រូវបានសម្គាល់ដោយភាពពេញលេញ ភាពងាយស្រួល និងក្នុងពេលជាមួយគ្នានៃការបង្ហាញ សៀវភៅនេះមានគោលបំណងសម្រាប់អ្នកស្ថិតិ អ្នកសេដ្ឋកិច្ច ក៏ដូចជាសង្គមវិទូ អ្នកប្រជាសាស្រ្ត អ្នកជីវវិទូ និងអ្នកឯកទេសផ្សេងទៀត។ ផលិតឡើងវិញនៅក្នុងអក្ខរាវិរុទ្ធរបស់អ្នកនិពន្ធដើមនៃការបោះពុម្ពឆ្នាំ 1977 (ផ្ទះបោះពុម្ពស្ថិតិ) ។

ស្លាក ,

ប្រធានបទស្រាវជ្រាវមានចាប់ពីការវិភាគនៃសរីរវិទ្យានៃសត្វកកេរ mummified នៅ New Guinea ដល់ការសិក្សាលទ្ធផលនៃការបោះឆ្នោតរបស់សមាជិកព្រឹទ្ធសភាអាមេរិក ពីការវិភាគមុខងារឥរិយាបថរបស់សត្វកន្លាតដែលកកនៅពេលវារលាយ រហូតដល់ការសិក្សាអំពីការចែកចាយភូមិសាស្ត្រនៃប្រភេទមួយចំនួននៃ lichen នៅ Saskatchewan ។

ការផ្ទុះការបោះពុម្ពផ្សាយនេះបានជះឥទ្ធិពលយ៉ាងខ្លាំងដល់ការអភិវឌ្ឍន៍ និងការអនុវត្តការវិភាគចង្កោម។ ប៉ុន្តែជាអកុសល ក៏មានភាគីអវិជ្ជមានផងដែរ។ ការរីកចម្រើនយ៉ាងឆាប់រហ័សនៃការបោះពុម្ពផ្សាយលើការវិភាគចង្កោមបាននាំឱ្យមានការបង្កើតក្រុមអ្នកប្រើប្រាស់ ហើយជាលទ្ធផល ការបង្កើតភាសាដែលប្រើដោយក្រុមដែលបង្កើតវាតែប៉ុណ្ណោះ (Blashfield and Aldenderfer, 1978; Blashfield, 1980)។

ជាឧទាហរណ៍ ការបង្កើតពាក្យសំដីដោយអ្នកវិទ្យាសាស្ត្រសង្គមគឺត្រូវបានបញ្ជាក់ដោយវាក្យសព្ទជាច្រើនដែលទាក់ទងនឹងវិធីសាស្ត្ររបស់វួដ។ "វិធីសាស្រ្តវួដ" ត្រូវបានគេហៅថាខុសគ្នានៅក្នុងអក្សរសិល្ប៍។ យ៉ាងហោចណាស់ឈ្មោះចំនួនបួនទៀតត្រូវបានគេស្គាល់៖ "វិធីសាស្ត្របំរែបំរួលអប្បបរមា", "ផលបូកនៃវិធីសាស្ត្រកំហុសការ៉េ", "ការបង្រួមក្រុមតាមលំដាប់លំដោយ" និង "HGROUP" ។ ឈ្មោះពីរដំបូងគ្រាន់តែសំដៅលើលក្ខណៈវិនិច្ឆ័យដែលល្អបំផុតត្រូវបានកំណត់ដោយវិធីសាស្ត្ររបស់ Ward ខណៈពេលដែលទីបីគឺទាក់ទងទៅនឹងផលបូកនៃកំហុសការ៉េ ដែលជាការបំប្លែងដាន monotonic នៃម៉ាទ្រីស W ដែលជាម៉ាទ្រីស intragroup covariance ។ ជាចុងក្រោយ ឈ្មោះដែលប្រើជាទូទៅ "HGROUP" គឺជាឈ្មោះនៃកម្មវិធីកុំព្យូទ័រដ៏ពេញនិយមមួយដែលអនុវត្តវិធីសាស្ត្ររបស់ Ward (Veldman, 1967)។

ការបង្កើត jargon រារាំងការអភិវឌ្ឍនៃការតភ្ជាប់អន្តរកម្មសិក្សា រារាំងការប្រៀបធៀបដ៏មានប្រសិទ្ធភាពនៃវិធីសាស្រ្ត និងលទ្ធផលនៃការអនុវត្តការវិភាគចង្កោមក្នុងវិស័យវិទ្យាសាស្ត្រផ្សេងៗគ្នា នាំឱ្យមានកិច្ចខិតខំប្រឹងប្រែងដែលមិនចាំបាច់ (ការបង្កើតឡើងវិញនូវក្បួនដោះស្រាយដូចគ្នា) ហើយចុងក្រោយមិនផ្តល់ឱ្យអ្នកប្រើប្រាស់ថ្មីនូវការយល់ដឹងស៊ីជម្រៅអំពីវិធីសាស្រ្តដែលបានជ្រើសរើសរបស់ពួកគេ (Blashfield និង aldenderfer, 1978) ។ ជាឧទាហរណ៍ ការសិក្សាវិទ្យាសាស្ត្រសង្គមមួយ (Rogers and Linden, 1973) បានប្រៀបធៀបវិធីសាស្ត្រចង្កោមចំនួនបីផ្សេងគ្នាដោយប្រើទិន្នន័យដូចគ្នា។ ពួកគេបានហៅវិធីសាស្រ្តទាំងនេះដូចខាងក្រោមៈ "ការដាក់ជាក្រុមតាមឋានានុក្រម" "ការចង្កោមឋានានុក្រមឬ HCG" និង "ការវិភាគចង្កោម" ។ ហើយ​គ្មាន​ឈ្មោះ​ទាំង​នេះ​ស៊ាំ​នឹង​វិធី​ធ្វើ​ចង្កោម​ទេ។ អ្នកប្រើប្រាស់ថ្មីថ្មោងនៃកម្មវិធីវិភាគចង្កោមនឹងមានការភ័ន្តច្រឡំដោយឈ្មោះដែលមានស្រាប់ទាំងអស់ ហើយនឹងមិនអាចភ្ជាប់ពួកវាជាមួយនឹងការពិពណ៌នាផ្សេងទៀតនៃវិធីសាស្ត្រធ្វើចង្កោមបានទេ។ អ្នកប្រើប្រាស់ដែលមានបទពិសោធន៍នឹងយល់ថាខ្លួនឯងស្ថិតក្នុងស្ថានភាពលំបាកមួយនៅពេលប្រៀបធៀបការស្រាវជ្រាវរបស់ពួកគេជាមួយនឹងការងារស្រដៀងគ្នា។ យើង​ប្រហែល​ជា​ឈាន​ដល់​កម្រិត​ជ្រុល ប៉ុន្តែ​ពាក្យ​ចចាមអារ៉ាម​ជា​បញ្ហា​ធ្ងន់ធ្ងរ។

ក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ ការអភិវឌ្ឍន៍នៃការវិភាគចង្កោមបានថយចុះបន្តិច ដោយវិនិច្ឆ័យដោយចំនួននៃការបោះពុម្ពផ្សាយ និងចំនួនវិញ្ញាសាដែលវិធីសាស្ត្រនេះត្រូវបានអនុវត្ត។ អាចនិយាយបានថានាពេលបច្ចុប្បន្ននេះ ចិត្តវិទ្យា សង្គមវិទ្យា ជីវវិទ្យា ស្ថិតិ និងវិញ្ញាសាបច្ចេកទេសមួយចំនួនកំពុងឈានចូលដល់ដំណាក់កាលនៃការបង្រួបបង្រួមគ្នាទាក់ទងនឹងការវិភាគចង្កោម។

ចំនួនអត្ថបទដែលសរសើរគុណធម៌នៃការវិភាគចង្កោមកំពុងថយចុះជាលំដាប់។ ក្នុងពេលជាមួយគ្នានេះ មានការងារកាន់តែច្រើនឡើង ដែលការអនុវត្តនៃវិធីសាស្ត្រចង្កោមផ្សេងៗត្រូវបានប្រៀបធៀបលើទិន្នន័យត្រួតពិនិត្យ។ នៅក្នុងអក្សរសិល្ប៍ ការយកចិត្តទុកដាក់កាន់តែច្រើនត្រូវបានយកចិត្តទុកដាក់ចំពោះកម្មវិធី។ ការសិក្សាជាច្រើនមានគោលបំណងបង្កើតវិធានការជាក់ស្តែងដើម្បីសាកល្បងសុពលភាពនៃលទ្ធផលដែលទទួលបានដោយប្រើការវិភាគចង្កោម។ ទាំងអស់នេះសក្ខីកម្មដល់ការប៉ុនប៉ងយ៉ាងធ្ងន់ធ្ងរដើម្បីបង្កើតទ្រឹស្តីស្ថិតិសមហេតុផលនៃវិធីសាស្ត្រចង្កោម។


ផ្ញើការងារល្អរបស់អ្នកនៅក្នុងមូលដ្ឋានចំណេះដឹងគឺសាមញ្ញ។ ប្រើទម្រង់ខាងក្រោម

សិស្ស និស្សិត និស្សិតបញ្ចប់ការសិក្សា អ្នកវិទ្យាសាស្ត្រវ័យក្មេង ដែលប្រើប្រាស់មូលដ្ឋានចំណេះដឹងក្នុងការសិក្សា និងការងាររបស់ពួកគេ នឹងដឹងគុណយ៉ាងជ្រាលជ្រៅចំពោះអ្នក។

សេចក្តីផ្តើម

1. ប្រវត្តិនៃ "ការវិភាគចង្កោម"

2. វាក្យសព្ទ

2.1 វត្ថុនិងលក្ខណៈពិសេស

2.2 ចម្ងាយរវាងវត្ថុ (ម៉ែត្រ)

2.3 ដង់ស៊ីតេ និងទីតាំងនៃចង្កោម

2.4 ចម្ងាយរវាងចង្កោម

3. វិធីសាស្រ្តដាក់ជាក្រុម

3.1 លក្ខណៈពិសេសនៃវិធីសាស្រ្ត agglomeration ឋានានុក្រម

3.2 លក្ខណៈពិសេសនៃវិធីសាស្រ្តធ្វើចង្កោមម្តងហើយម្តងទៀត

4. លក្ខណៈចង្កោម

5. ស្ថេរភាពនិងគុណភាពនៃការចង្កោម

គន្ថនិទ្ទេស

ការណែនាំ

"ការវិភាគចង្កោមគឺជាសំណុំនៃវិធីសាស្រ្តគណិតវិទ្យាដែលត្រូវបានរចនាឡើងដើម្បីបង្កើតជា "ឆ្ងាយ" ពីក្រុមគ្នាទៅវិញទៅមកនៃវត្ថុ "ជិតស្និទ្ធ" យោងទៅតាមព័ត៌មានអំពីចម្ងាយឬការតភ្ជាប់ (វិធានការនៃភាពជិតគ្នា) រវាងពួកវា។ វាស្រដៀងគ្នានៅក្នុងអត្ថន័យនៃពាក្យ: ចំណាត់ថ្នាក់ដោយស្វ័យប្រវត្តិ ការធ្វើចំណាកស្រុក ការទទួលស្គាល់លំនាំដោយគ្មានគ្រូ។ និយមន័យនៃការវិភាគចង្កោមនេះត្រូវបានផ្តល់ឱ្យនៅក្នុងការបោះពុម្ពចុងក្រោយនៃវចនានុក្រមស្ថិតិ។ តាមពិត "ការវិភាគចង្កោម" គឺជាឈ្មោះទូទៅសម្រាប់សំណុំនៃក្បួនដោះស្រាយដ៏ធំមួយដែលប្រើដើម្បីបង្កើតចំណាត់ថ្នាក់។ ការបោះពុម្ពមួយចំនួនក៏ប្រើពាក្យមានន័យដូចគ្នាសម្រាប់ការវិភាគចង្កោម ដូចជាការចាត់ថ្នាក់ និងការបែងចែក។ ការវិភាគចង្កោមត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងវិទ្យាសាស្ត្រជាមធ្យោបាយនៃការវិភាគតាមនិស្ស័យ។ នៅក្នុងសកម្មភាពវិទ្យាសាស្ត្រណាមួយ ការចាត់ថ្នាក់គឺជាធាតុផ្សំជាមូលដ្ឋានមួយ ប្រសិនបើគ្មានវាមិនអាចទៅរួចទេក្នុងការសាងសង់ និងសាកល្បងសម្មតិកម្ម និងទ្រឹស្តីវិទ្យាសាស្ត្រ។ ដូច្នេះនៅក្នុងការងាររបស់ខ្ញុំ ខ្ញុំចាត់ទុកថាវាចាំបាច់ដើម្បីពិចារណាលើបញ្ហានៃការវិភាគចង្កោម (មូលដ្ឋាននៃការវិភាគចង្កោម) ក៏ដូចជាដើម្បីពិចារណាវាក្យស័ព្ទរបស់វា និងផ្តល់ឧទាហរណ៍មួយចំនួននៃការប្រើប្រាស់វិធីសាស្រ្តនេះជាមួយនឹងដំណើរការទិន្នន័យជាគោលដៅចម្បងរបស់ខ្ញុំ។

1. ប្រវត្តិនៃ "ការវិភាគចង្កោម"

ការវិភាគលើការបោះពុម្ភផ្សាយក្នុងស្រុក និងបរទេសបង្ហាញថា ការវិភាគចង្កោមត្រូវបានប្រើប្រាស់ក្នុងវិស័យវិទ្យាសាស្ត្រជាច្រើនប្រភេទ៖ គីមីវិទ្យា ជីវវិទ្យា វេជ្ជសាស្ត្រ បុរាណវិទ្យា ប្រវត្តិសាស្ត្រ ភូមិសាស្ត្រ សេដ្ឋកិច្ច ទស្សនវិជ្ជា។ល។ សៀវភៅដោយ VV Nalimov "គំរូប្រូបាប៊ីលីកនៃភាសា" ពិពណ៌នាអំពីការប្រើប្រាស់ការវិភាគចង្កោមក្នុងការសិក្សាគំរូវិភាគចំនួន 70 ។ ភាគច្រើននៃអក្សរសិល្ប៍ស្តីពីការវិភាគចង្កោមបានបង្ហាញខ្លួនក្នុងកំឡុងបីទសវត្សរ៍ចុងក្រោយនេះ ទោះបីជាស្នាដៃដំបូងដែលបានលើកឡើងពីវិធីសាស្ត្រចង្កោមបានបង្ហាញខ្លួនជាយូរមកហើយក៏ដោយ។ អ្នកនរវិទ្យាជនជាតិប៉ូឡូញ K. Chekanowski បានដាក់ចេញនូវគំនិតនៃ "ការចាត់ថ្នាក់តាមលំដាប់" ដែលមានគំនិតសំខាន់នៃការវិភាគចង្កោម - ការបែងចែកក្រុមនៃវត្ថុតូចៗ។

នៅឆ្នាំ 1925 អ្នកធារាសាស្ត្រសូវៀត P.V. Terentyev បានបង្កើតអ្វីដែលគេហៅថា "វិធីសាស្រ្តនៃ pleiades ជាប់ទាក់ទងគ្នា" ដែលមានបំណងសម្រាប់ដាក់ជាក្រុមលក្ខណៈដែលទាក់ទងគ្នា។ វិធីសាស្រ្តនេះបានផ្តល់កម្លាំងរុញច្រានដល់ការបង្កើតវិធីសាស្រ្តដាក់ជាក្រុមដោយប្រើក្រាហ្វ។ ពាក្យ "ការវិភាគចង្កោម" ត្រូវបានស្នើឡើងដំបូងដោយ Trion ។ ពាក្យ "ចង្កោម" ត្រូវបានបកប្រែពីភាសាអង់គ្លេសថា "bunch, brush, bunch, group" ។ សម្រាប់ហេតុផលនេះ ការវិភាគប្រភេទនេះ ដើមឡើយត្រូវបានគេហៅថា "ការវិភាគចង្កោម"។ នៅដើមទសវត្សរ៍ឆ្នាំ 1950 ការបោះពុម្ពផ្សាយដោយ R. Lewis, E. Fix និង J. Hodges បានបង្ហាញខ្លួននៅលើក្បួនដោះស្រាយការវិភាគតាមលំដាប់លំដោយ។ កម្លាំងរុញច្រានគួរឱ្យកត់សម្គាល់ក្នុងការអភិវឌ្ឍការងារលើការវិភាគចង្កោមត្រូវបានផ្តល់ឱ្យដោយការងាររបស់ R. Rosenblatt លើឧបករណ៍ទទួលស្គាល់ (perceptron) ដែលបានដាក់មូលដ្ឋានគ្រឹះសម្រាប់ការអភិវឌ្ឍទ្រឹស្តីនៃ "ការទទួលស្គាល់គំរូដោយគ្មានគ្រូ" ។

កម្លាំងរុញច្រានសម្រាប់ការអភិវឌ្ឍនៃវិធីសាស្រ្តចង្កោមគឺសៀវភៅ "គោលការណ៍នៃពន្ធុវិទ្យាលេខ" បោះពុម្ពនៅឆ្នាំ 1963 ។ ជីវវិទូពីរនាក់គឺ Robert Sokal និង Peter Sneath ។ អ្នកនិពន្ធនៃសៀវភៅនេះបានបន្តពីការពិតដែលថាដើម្បីបង្កើតចំណាត់ថ្នាក់ជីវសាស្ត្រប្រកបដោយប្រសិទ្ធភាព នីតិវិធីនៃការដាក់ចង្កោមគួរតែធានានូវការប្រើប្រាស់សូចនាករផ្សេងៗដែលកំណត់លក្ខណៈរបស់សារពាង្គកាយដែលកំពុងសិក្សា វាយតម្លៃកម្រិតនៃភាពស្រដៀងគ្នារវាងសារពាង្គកាយទាំងនេះ និងធានានូវការដាក់សារពាង្គកាយស្រដៀងគ្នានៅក្នុងក្រុមតែមួយ។ ក្នុងករណីនេះក្រុមដែលបានបង្កើតឡើងគួរតែគ្រប់គ្រាន់ "ក្នុងស្រុក" i.e. ភាពស្រដៀងគ្នានៃវត្ថុ (សារពាង្គកាយ) នៅក្នុងក្រុមគួរតែលើសពីភាពស្រដៀងគ្នានៃក្រុមក្នុងចំណោមពួកគេ។ ការវិភាគជាបន្តបន្ទាប់នៃក្រុមដែលបានកំណត់តាមគំនិតរបស់អ្នកនិពន្ធអាចបញ្ជាក់បានថាតើក្រុមទាំងនេះត្រូវគ្នាទៅនឹងប្រភេទជីវសាស្ត្រផ្សេងៗគ្នាដែរឬទេ។ ដូច្នេះ សុខកាល់ និងស្នាត បានសន្មត់ថាការលាតត្រដាងរចនាសម្ព័ន្ធនៃការបែងចែកវត្ថុទៅជាក្រុមជួយបង្កើតដំណើរការនៃការបង្កើតរចនាសម្ព័ន្ធទាំងនេះ។ ហើយភាពខុសគ្នា និងភាពស្រដៀងគ្នានៃសារពាង្គកាយនៃចង្កោមផ្សេងៗគ្នា (ក្រុម) អាចបម្រើជាមូលដ្ឋានសម្រាប់ការយល់ដឹងអំពីដំណើរការវិវត្តន៍ដែលកំពុងបន្ត និងធ្វើឱ្យច្បាស់នូវយន្តការរបស់វា។

ក្នុងឆ្នាំដដែលនោះ ក្បួនដោះស្រាយជាច្រើនត្រូវបានស្នើឡើងដោយអ្នកនិពន្ធដូចជា J. McKean, G. Ball និង D. Hall ដោយប្រើវិធីសាស្ត្រ k-means; G. Lance និង W. Williams, N. Jardine និងអ្នកដទៃ - លើវិធីសាស្រ្តឋានានុក្រម។ ការរួមចំណែកយ៉ាងសំខាន់ក្នុងការអភិវឌ្ឍវិធីសាស្រ្តវិភាគចង្កោមត្រូវបានធ្វើឡើងដោយអ្នកវិទ្យាសាស្ត្រក្នុងស្រុក - E.M. Braverman, A.A. Dorofeyuk, I.B. Muchnik, L.A. Rastrigin, Yu.I. Zhuravlev, I.I. ក្បួនដោះស្រាយជាច្រើនដែលត្រូវបានបង្កើតឡើងដោយគណិតវិទូ Novosibirsk N.G. Zagoruiko, V.N. Elkina និង G.S. Lbov ទទួលបានប្រជាប្រិយភាពយ៉ាងខ្លាំង។ ទាំងនេះគឺជាក្បួនដោះស្រាយដ៏ល្បីល្បាញដូចជា FOREL, BIGFOR, KRAB, NTTP, DRET, TRF ជាដើម។ ដោយផ្អែកលើកញ្ចប់ទាំងនេះ កញ្ចប់កម្មវិធី OTEX ឯកទេសត្រូវបានបង្កើតឡើង។ ផលិតផលសូហ្វវែរដែលគួរឱ្យចាប់អារម្មណ៍តិចជាង PPSA និងថ្នាក់មេត្រូវបានបង្កើតឡើងដោយគណិតវិទូទីក្រុងម៉ូស្គូ S.A. Aivazyan, I.S. Enyukov និង B.G. Mirkin ។

ក្នុងកម្រិតមួយចំនួន វិធីសាស្ត្រវិភាគចង្កោមមាននៅក្នុងកញ្ចប់ស្ថិតិក្នុងស្រុក និងបរទេសដែលល្បីបំផុត៖ SIGAMD, DataScope, STADIA, SOMI, PNP-BIM, COPRA-2, SITO, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSSTAT, ល។ ជាការពិតណាស់ 10 ឆ្នាំបន្ទាប់ពីការបោះពុម្ពផ្សាយនៃការពិនិត្យឡើងវិញនេះ មានការផ្លាស់ប្ដូរជាច្រើន កំណែថ្មីនៃកម្មវិធីស្ថិតិជាច្រើនបានបង្ហាញខ្លួន ហើយកម្មវិធីថ្មីទាំងស្រុងបានបង្ហាញខ្លួនដែលប្រើទាំងក្បួនដោះស្រាយថ្មី និងបង្កើនថាមពលកុំព្យូទ័រយ៉ាងខ្លាំង។ ទោះជាយ៉ាងណាក៏ដោយ កញ្ចប់ស្ថិតិភាគច្រើនប្រើក្បួនដោះស្រាយដែលបានស្នើឡើង និងត្រូវបានបង្កើតឡើងក្នុងទសវត្សរ៍ 60-70 ។

យោងតាមការប៉ាន់ស្មានរដុបរបស់អ្នកជំនាញ ចំនួននៃការបោះពុម្ពផ្សាយលើការវិភាគចង្កោម និងការប្រើប្រាស់របស់វាក្នុងវិស័យចំណេះដឹងផ្សេងៗកើនឡើងទ្វេដងរៀងរាល់បីឆ្នាំម្តង។ តើ​មាន​ហេតុផល​អ្វី​ខ្លះ​សម្រាប់​ការ​ចាប់​អារម្មណ៍​យ៉ាង​ខ្លាំង​ចំពោះ​ការ​វិភាគ​បែប​នេះ? តាមគោលបំណង មានហេតុផលសំខាន់ៗចំនួនបីសម្រាប់បាតុភូតនេះ។ នេះគឺជាការលេចចេញនៃបច្ចេកវិទ្យាកុំព្យូទ័រដ៏មានអានុភាព ដោយគ្មានការវិភាគចង្កោមនៃទិន្នន័យពិតប្រាកដគឺមិនអាចអនុវត្តបានទេ។ មូលហេតុទី 2 គឺថាវិទ្យាសាស្ត្រទំនើបត្រូវបានផ្អែកលើការចាត់ថ្នាក់នៅក្នុងសំណង់របស់វា។ ជាងនេះទៅទៀត ដំណើរការនេះកាន់តែស៊ីជម្រៅជាងមុន ចាប់តាំងពីស្របជាមួយនេះ មានការបង្កើនចំណេះដឹងជំនាញ ដែលមិនអាចទៅរួចទេបើគ្មានការចាត់ថ្នាក់តាមគោលដៅគ្រប់គ្រាន់។

ហេតុផលទីបី - ការធ្វើឱ្យស៊ីជម្រៅនៃចំណេះដឹងពិសេសដែលជៀសមិនរួចនាំឱ្យមានការកើនឡើងនៃចំនួនអថេរដែលត្រូវយកមកពិចារណាក្នុងការវិភាគវត្ថុនិងបាតុភូតមួយចំនួន។ ជាលទ្ធផល ការចាត់ថ្នាក់តាមប្រធានបទ ដែលពីមុនពឹងផ្អែកលើលក្ខណៈពិសេសមួយចំនួនតូចដែលត្រូវយកមកពិចារណា ជារឿយៗប្រែទៅជាមិនអាចទុកចិត្តបាន។ ហើយការចាត់ថ្នាក់វត្ថុបំណង ជាមួយនឹងសំណុំនៃលក្ខណៈវត្ថុដែលកើនឡើងឥតឈប់ឈរ តម្រូវឱ្យមានការប្រើប្រាស់ក្បួនដោះស្រាយការចង្កោមដ៏ស្មុគស្មាញដែលអាចអនុវត្តបានតែលើមូលដ្ឋាននៃកុំព្យូទ័រទំនើបប៉ុណ្ណោះ។ វាជាហេតុផលទាំងនេះដែលបណ្តាលឱ្យមាន "ការរីកដុះដាលនៃចង្កោម" ។ ទោះជាយ៉ាងណាក៏ដោយ ក្នុងចំណោមគ្រូពេទ្យ និងអ្នកជីវវិទូ ការវិភាគចង្កោមមិនទាន់ក្លាយជាវិធីសាស្ត្រស្រាវជ្រាវដ៏ពេញនិយម និងសាមញ្ញនៅឡើយ។

2 វចនានុក្រម

2. 1 វត្ថុនិងសញ្ញា

ចូរយើងណែនាំគំនិតដូចជាវត្ថុ និងសញ្ញាជាមុនសិន។ វត្ថុ - ពីវត្ថុឡាតាំង - ប្រធានបទ។ ទាក់ទងទៅនឹងគីមីវិទ្យា និងជីវវិទ្យា តាមរយៈវត្ថុ យើងនឹងសំដៅលើមុខវិជ្ជាជាក់លាក់នៃការស្រាវជ្រាវដែលត្រូវបានសិក្សាដោយប្រើរូបវិទ្យា គីមី និងវិធីសាស្រ្តផ្សេងទៀត។ វត្ថុបែបនេះអាចជាឧទាហរណ៍ គំរូ រុក្ខជាតិ សត្វ។ល។ សំណុំវត្ថុជាក់លាក់ដែលមានសម្រាប់អ្នកស្រាវជ្រាវសម្រាប់សិក្សាត្រូវបានគេហៅថា គំរូ ឬសំណុំគំរូ។ ចំនួនវត្ថុនៅក្នុងចំនួនប្រជាជនបែបនេះជាធម្មតាត្រូវបានគេហៅថាទំហំគំរូ។ ជាធម្មតា ទំហំគំរូត្រូវបានតាងដោយអក្សរឡាតាំង "n" ឬ "N" ។

សញ្ញា (សទិសន័យ - ទ្រព្យអថេរ លក្ខណៈ; ភាសាអង់គ្លេស - អថេរ - អថេរ។ ) - គឺជាទ្រព្យសម្បត្តិជាក់លាក់នៃវត្ថុ។ លក្ខណៈសម្បត្តិទាំងនេះអាចត្រូវបានបញ្ជាក់ជាតម្លៃជាលេខ ឬមិនមែនជាលេខ។ ឧទាហរណ៍ សម្ពាធឈាម (ស៊ីស្តូលិក ឬ diastolic) ត្រូវបានវាស់ជាមីលីម៉ែត្របារត ទម្ងន់គិតជាគីឡូក្រាម កម្ពស់គិតជាសង់ទីម៉ែត្រ។ល។ សញ្ញាបែបនេះមានបរិមាណ។ ផ្ទុយពីលក្ខណៈជាលេខបន្តទាំងនេះ (មាត្រដ្ឋាន) លក្ខណៈមួយចំនួនអាចមានតម្លៃមិនបន្ត។ នៅក្នុងវេន លក្ខណៈពិសេសដាច់ដោយឡែកបែបនេះជាធម្មតាត្រូវបានបែងចែកទៅជាពីរក្រុម។

1) ក្រុមទី 1 គឺជាអថេរចំណាត់ថ្នាក់ឬដូចដែលពួកគេត្រូវបានគេហៅថាអថេរធម្មតា (មាត្រដ្ឋាន) ។ សញ្ញាបែបនេះត្រូវបានកំណត់លក្ខណៈដោយទ្រព្យសម្បត្តិនៃការបញ្ជាទិញតម្លៃទាំងនេះ។ ទាំងនេះរួមមានដំណាក់កាលនៃជំងឺជាក់លាក់មួយ ក្រុមអាយុ ពិន្ទុចំណេះដឹងរបស់សិស្ស មាត្រដ្ឋានរញ្ជួយដីកម្រិត 12 រ៉ិចទ័រ ជាដើម។

2) ក្រុមទីពីរនៃលក្ខណៈពិសេសដាច់ដោយឡែកមិនមានលំដាប់បែបនេះទេហើយត្រូវបានគេហៅថានាម (ពីពាក្យ "នាម" - គំរូ) ឬលក្ខណៈចំណាត់ថ្នាក់។ ឧទាហរណ៍នៃសញ្ញាបែបនេះអាចជាស្ថានភាពរបស់អ្នកជំងឺ - "មានសុខភាពល្អ" ឬ "ឈឺ" ការរួមភេទរបស់អ្នកជំងឺរយៈពេលនៃការសង្កេត - "មុនពេលព្យាបាល" និង "បន្ទាប់ពីការព្យាបាល" ជាដើម។ ក្នុងករណីទាំងនេះវាជាទម្លាប់ក្នុងការនិយាយថាលក្ខណៈពិសេសបែបនេះជាកម្មសិទ្ធិរបស់មាត្រដ្ឋាននៃឈ្មោះ។

គោលគំនិតនៃវត្ថុ និងលក្ខណៈពិសេសមួយ ជាធម្មតាត្រូវបានគេហៅថា ម៉ាទ្រីស "វត្ថុ-លក្ខណសម្បត្តិ" ឬ "វត្ថុ-លក្ខណៈពិសេស" ម៉ាទ្រីស។ ម៉ាទ្រីស​នឹង​ជា​តារាង​ចតុកោណ​ដែល​មាន​តម្លៃ​នៃ​លក្ខណៈ​ពិសេស​ដែល​ពិពណ៌នា​អំពី​លក្ខណៈ​សម្បត្តិ​នៃ​គំរូ​នៃ​ការ​សង្កេត​ដែល​កំពុង​សិក្សា។ នៅក្នុងបរិបទនេះ ការសង្កេតមួយនឹងត្រូវបានកត់ត្រាជាបន្ទាត់ដាច់ដោយឡែកដែលរួមមានតម្លៃនៃលក្ខណៈពិសេសដែលបានប្រើ។ គុណលក្ខណៈដាច់ដោយឡែកនៅក្នុងម៉ាទ្រីសទិន្នន័យបែបនេះនឹងត្រូវបានតំណាងដោយជួរឈរដែលមានតម្លៃនៃគុណលក្ខណៈនេះសម្រាប់វត្ថុទាំងអស់នៅក្នុងគំរូ។

2. ចម្ងាយ 2 រវាងវត្ថុ (ម៉ែត្រ)

ចូរយើងណែនាំគំនិតនៃ "ចម្ងាយរវាងវត្ថុ" ។ គំនិតនេះគឺជារង្វាស់អាំងតេក្រាលនៃភាពស្រដៀងគ្នានៃវត្ថុទៅគ្នាទៅវិញទៅមក។ ចម្ងាយរវាងវត្ថុក្នុងលំហលក្ខណៈគឺជាតម្លៃ d ij ដែលបំពេញតាមអ័ក្សខាងក្រោម៖

1. d ij > 0 (មិនអវិជ្ជមាននៃចម្ងាយ)

2. d ij = d ji (ស៊ីមេទ្រី)

3. d ij + d jk > d ik (វិសមភាពត្រីកោណ)

4. ប្រសិនបើ d ij មិនស្មើនឹង 0 នោះ i មិនស្មើនឹង j (ភាពអាចបែងចែកវត្ថុមិនដូចគ្នាបេះបិទ)

5. ប្រសិនបើ d ij = 0 នោះ i = j (មិនអាចបែងចែកវត្ថុដូចគ្នាបេះបិទ)

វាងាយស្រួលតំណាងឱ្យរង្វាស់នៃភាពជិត (ភាពស្រដៀងគ្នា) នៃវត្ថុដែលជាចំងាយរវាងវត្ថុ។ ការបោះពុម្ពផ្សាយជាច្រើនដែលឧទ្ទិសដល់ការវិភាគចង្កោមពិពណ៌នាអំពីវិធីផ្សេងគ្នាជាង 50 ដើម្បីគណនាចម្ងាយរវាងវត្ថុ។ បន្ថែមពីលើពាក្យ "ចម្ងាយ" ពាក្យមួយទៀតត្រូវបានរកឃើញជាញឹកញាប់នៅក្នុងអក្សរសិល្ប៍ - "ម៉ែត្រ" ដែលបង្កប់ន័យវិធីសាស្រ្តសម្រាប់ការគណនាចម្ងាយជាក់លាក់មួយ។ លទ្ធភាពដែលអាចចូលដំណើរការបានច្រើនបំផុតសម្រាប់ការយល់ឃើញ និងការយល់ដឹងនៅក្នុងករណីនៃលក្ខណៈបរិមាណគឺអ្វីដែលគេហៅថា "ចម្ងាយ Euclidean" ឬ "ម៉ែត្រ Euclidean" ។ រូបមន្តសម្រាប់គណនាចម្ងាយនេះគឺ៖

រូបមន្តនេះប្រើសញ្ញាណខាងក្រោម៖

· d ij - ចម្ងាយរវាងវត្ថុ i-th និង j-th;

· x ik - តម្លៃជាលេខនៃអថេរ k-th សម្រាប់វត្ថុ i-th;

· x jk - តម្លៃជាលេខនៃអថេរ k-th សម្រាប់វត្ថុ j-th;

· v - ចំនួនអថេរដែលពិពណ៌នាអំពីវត្ថុ។

ដូច្នេះសម្រាប់ករណី v=2 នៅពេលដែលយើងមានសញ្ញាបរិមាណតែពីរ ចម្ងាយ d ij នឹងស្មើនឹងប្រវែងអ៊ីប៉ូតេនុសនៃត្រីកោណខាងស្តាំ ដែលភ្ជាប់ចំណុចពីរនៅក្នុងប្រព័ន្ធកូអរដោនេចតុកោណ។ ចំណុចទាំងពីរនេះនឹងត្រូវគ្នាទៅនឹងការសង្កេត i-th និង j-th នៃគំរូ។ ជាញឹកញាប់ជំនួសឱ្យចម្ងាយ Euclidean ធម្មតា ការ៉េ d 2 ij របស់វាត្រូវបានប្រើ។ លើសពីនេះ ក្នុងករណីខ្លះ ចម្ងាយអ៊ីក្លីដ "មានទម្ងន់" ត្រូវបានប្រើក្នុងការគណនាដែលមេគុណទម្ងន់ត្រូវបានប្រើសម្រាប់លក្ខខណ្ឌបុគ្គល។ ដើម្បីបង្ហាញពីគោលគំនិតនៃម៉ែត្រ Euclidean យើងប្រើឧទាហរណ៍ហ្វឹកហាត់សាមញ្ញមួយ។ ម៉ាទ្រីសទិន្នន័យដែលបង្ហាញក្នុងតារាងខាងក្រោមមាន 5 ការសង្កេត និងអថេរពីរ។

តារាងទី 1

ម៉ាទ្រីសទិន្នន័យនៃគំរូដែលបានសង្កេតចំនួនប្រាំ និងអថេរពីរ។

ដោយប្រើម៉ែត្រ Euclidean យើងគណនាម៉ាទ្រីសនៃចម្ងាយអន្តរវត្ថុដែលមានតម្លៃ d ij - ចម្ងាយរវាងវត្ថុ i-th និង j-th ។ ក្នុងករណីរបស់យើង i និង j គឺជាចំនួននៃវត្ថុការសង្កេត។ ដោយសារទំហំគំរូគឺ 5, i និង j រៀងគ្នាអាចយកតម្លៃពី 1 ដល់ 5 ។ វាក៏ច្បាស់ដែរថាចំនួននៃចម្ងាយជាគូដែលអាចធ្វើបានទាំងអស់នឹងមាន 5 * 5 = 25 ។ ជាការពិតណាស់ សម្រាប់វត្ថុទីមួយ ទាំងនេះនឹងជាចម្ងាយដូចខាងក្រោម៖ 1-1; ១-២; ១-៣; ១-៤; ១-៥. សម្រាប់វត្ថុទី 2 នឹងមានចម្ងាយ 5 ផងដែរ៖ 2-1; ២-២; ២-៣; ២-៤; ២-៥ ជាដើម។ ទោះជាយ៉ាងណាក៏ដោយចំនួននៃចម្ងាយខុសគ្នានឹងតិចជាង 25 ព្រោះវាចាំបាច់ក្នុងការគិតគូរពីទ្រព្យសម្បត្តិដែលមិនអាចបែងចែកបាននៃវត្ថុដូចគ្នា - d ij = 0 សម្រាប់ i = j ។ នេះមានន័យថាចម្ងាយរវាងវត្ថុ #1 និងវត្ថុដូចគ្នា #1 នឹងជាសូន្យ។ ចម្ងាយសូន្យដូចគ្នានឹងសម្រាប់ករណីផ្សេងទៀតទាំងអស់ i = j ។ លើសពីនេះ វាធ្វើតាមលក្ខណៈស៊ីមេទ្រីដែល d ij = d ji សម្រាប់ i និង j ។ ទាំងនោះ។ ចម្ងាយរវាងវត្ថុ #1 និង #2 គឺស្មើនឹងចម្ងាយរវាងវត្ថុ #2 និង #1។

កន្សោមសម្រាប់ចម្ងាយ Euclidean គឺស្រដៀងទៅនឹងអ្វីដែលហៅថាចម្ងាយថាមពល Minkowski ទូទៅ ដែលតម្លៃផ្សេងទៀតត្រូវបានប្រើជំនួសឱ្យថាមពលពីរ។ ក្នុងករណីទូទៅតម្លៃនេះត្រូវបានតាងដោយនិមិត្តសញ្ញា "p" ។

សម្រាប់ p = 2 យើងទទួលបានចម្ងាយ Euclidean ធម្មតា។ ដូច្នេះកន្សោមសម្រាប់ម៉ែត្រ Minkowski ទូទៅមានទម្រង់:

ជម្រើសនៃតម្លៃជាក់លាក់នៃនិទស្សន្ត "p" ត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវខ្លួនឯង។

ករណីពិសេសនៃចម្ងាយ Minkowski គឺជាចម្ងាយដែលគេហៅថា Manhattan ឬ "ចម្ងាយប្លុកទីក្រុង" ដែលត្រូវគ្នាទៅនឹង p=1:

ដូច្នេះចម្ងាយ Manhattan គឺជាផលបូកនៃម៉ូឌុលនៃភាពខុសគ្នានៃលក្ខណៈដែលត្រូវគ្នានៃវត្ថុ។ អនុញ្ញាតឱ្យ p ទំនោរទៅរកភាពគ្មានទីបញ្ចប់ យើងទទួលបានម៉ែត្រ "ត្រួតត្រា" ឬ Sup-metric៖

ដែលអាចត្រូវបានតំណាងថាជា d ij = max| x ik - x jk |.

ម៉ែត្រ Minkowski តាមពិតគឺជាក្រុមម៉ែត្រដ៏ធំ រួមទាំងម៉ែត្រដែលពេញនិយមបំផុត។ ទោះយ៉ាងណាក៏ដោយមានវិធីសាស្រ្តសម្រាប់ការគណនាចម្ងាយរវាងវត្ថុដែលខុសគ្នាជាមូលដ្ឋានពីម៉ែត្រ Minkowski ។ ចំនុចសំខាន់បំផុតគឺអ្វីដែលគេហៅថាចម្ងាយ Mahalanobis ដែលមានលក្ខណៈសម្បត្តិជាក់លាក់។ កន្សោមសម្រាប់ម៉ែត្រនេះ៖

នៅទីនេះតាមរយៈ X ខ្ញុំនិង X jវ៉ិចទ័រជួរឈរនៃតម្លៃអថេរសម្រាប់វត្ថុ i-th និង j-th ត្រូវបានចង្អុលបង្ហាញ។ និមិត្តសញ្ញា នៅក្នុងការបញ្ចេញមតិ (X ខ្ញុំ - X j ) តំណាង​ឱ្យ​អ្វី​ដែល​ហៅ​ថា​ប្រតិបត្តិការ​ផ្ទេរ​វ៉ិចទ័រ។ និមិត្តសញ្ញា ម៉ាទ្រីស variance-covariance ក្នុងក្រុមទូទៅត្រូវបានចង្អុលបង្ហាញ។ និមិត្តសញ្ញាមួយ។ -1 ខាងលើ មានន័យថាអ្នកត្រូវដាក់បញ្ច្រាសម៉ាទ្រីស . មិនដូចម៉ែត្រ Minkowski និងម៉ែត្រ Euclidean ចម្ងាយ Mahalanobis តាមរយៈម៉ាទ្រីសបំរែបំរួល-covariance ទាក់ទងនឹងការជាប់ទាក់ទងគ្នានៃអថេរ។ នៅពេលដែលការជាប់ទាក់ទងគ្នារវាងអថេរគឺសូន្យ ចម្ងាយ Mahalanobis គឺស្មើនឹងការ៉េនៃចម្ងាយ Euclidean ។

នៅក្នុងករណីនៃការប្រើប្រាស់ dichotomous (មានតម្លៃតែពីរ) លក្ខណៈគុណភាព ចម្ងាយ Hamming ត្រូវបានគេប្រើយ៉ាងទូលំទូលាយ

ស្មើនឹងចំនួននៃការមិនត្រូវគ្នានៅក្នុងតម្លៃនៃលក្ខណៈពិសេសដែលត្រូវគ្នាសម្រាប់វត្ថុ i-th និង j-th ដែលបានពិចារណា។

2. 3 ដង់ស៊ីតេ និងមូលដ្ឋាននៃចង្កោម

គោលដៅចម្បងនៃការវិភាគចង្កោមគឺដើម្បីស្វែងរកក្រុមវត្ថុដែលស្រដៀងនឹងគ្នានៅក្នុងគំរូ។ ចូរសន្មតថាដោយវិធីសាស្រ្តមួយចំនួនដែលយើងទទួលបានក្រុមបែបនេះ - ចង្កោម។ លក្ខណៈសម្បត្តិសំខាន់ៗនៃចង្កោមគួរតែត្រូវបានកត់សម្គាល់។ លក្ខណៈសម្បត្តិមួយក្នុងចំណោមលក្ខណៈសម្បត្តិទាំងនេះគឺដង់ស៊ីតេនៃការចែកចាយចំណុច ការសង្កេតនៅក្នុងចង្កោមមួយ។ លក្ខណសម្បត្តិនេះអនុញ្ញាតឱ្យយើងកំណត់ចង្កោមជាចង្កោមនៃចំណុចនៅក្នុងលំហពហុវិមាត្រដែលមានដង់ស៊ីតេធៀបនឹងតំបន់ផ្សេងទៀតនៃលំហនេះ ដែលមិនមានចំណុចទាំងអស់ ឬមានចំនួនសង្កេតតិចតួច។ ម្យ៉ាងវិញទៀត តើចង្កោមនេះបង្រួមកម្រិតណា ឬផ្ទុយទៅវិញ វាមានទំហំប៉ុនណា។ ទោះបីជាមានភស្តុតាងគ្រប់គ្រាន់នៃទ្រព្យសម្បត្តិនេះក៏ដោយ ក៏មិនមានវិធីមិនច្បាស់លាស់ក្នុងការគណនាសូចនាករនេះ (ដង់ស៊ីតេ) នោះទេ។ សូចនាករជោគជ័យបំផុតដែលកំណត់លក្ខណៈបង្រួម ដង់ស៊ីតេនៃ "ការវេចខ្ចប់" នៃការសង្កេតពហុវិមាត្រនៅក្នុងចង្កោមដែលបានផ្តល់ឱ្យគឺជាការបែកខ្ចាត់ខ្ចាយនៃចម្ងាយពីចំណុចកណ្តាលនៃចង្កោមទៅចំណុចនីមួយៗនៃចង្កោម។ ការបែកខ្ចាត់ខ្ចាយនៃចម្ងាយនេះកាន់តែតូច ការសង្កេតកាន់តែខិតទៅជិតកណ្តាលនៃចង្កោម ដង់ស៊ីតេនៃចង្កោមកាន់តែធំ។ ហើយផ្ទុយមកវិញ ការបែកខ្ចាត់ខ្ចាយនៃចម្ងាយកាន់តែធំ ចង្កោមនេះកាន់តែមានភាពខ្ចាត់ខ្ចាយ ហើយជាលទ្ធផល មានចំណុចដែលស្ថិតនៅជិតកណ្តាលនៃចង្កោម និងឆ្ងាយពីកណ្តាលនៃចង្កោម។

ទ្រព្យសម្បត្តិបន្ទាប់នៃចង្កោមគឺទំហំរបស់វា។ សូចនាករសំខាន់នៃទំហំនៃចង្កោមគឺ "កាំ" របស់វា។ ទ្រព្យសម្បត្តិនេះឆ្លុះបញ្ចាំងយ៉ាងពេញលេញនូវទំហំចង្កោមពិតប្រាកដ ប្រសិនបើចង្កោមដែលបានពិចារណាមានរាងមូល និងហឺស្វ៊ែរក្នុងចន្លោះពហុវិមាត្រ។ ទោះជាយ៉ាងណាក៏ដោយ ប្រសិនបើចង្កោមមានរូបរាងពន្លូត នោះគំនិតនៃកាំ ឬអង្កត់ផ្ចិតលែងឆ្លុះបញ្ចាំងពីទំហំពិតនៃចង្កោមទៀតហើយ។

ទ្រព្យសម្បត្តិសំខាន់មួយទៀតនៃចង្កោមគឺតំបន់របស់ពួកគេ ការបំបែកខ្លួន។ វាកំណត់លក្ខណៈកម្រិតនៃការត្រួតស៊ីគ្នា និងភាពដាច់ស្រយាលទៅវិញទៅមកនៃចង្កោមពីគ្នាទៅវិញទៅមកក្នុងចន្លោះពហុវិមាត្រ។ ជាឧទាហរណ៍ សូមពិចារណាលើការចែកចាយនៃចង្កោមចំនួនបីនៅក្នុងចន្លោះនៃលក្ខណៈពិសេសថ្មីដែលរួមបញ្ចូលគ្នានៅក្នុងរូបភាពខាងក្រោម។ អ័ក្ស 1 និង 2 ត្រូវបានទទួលដោយវិធីសាស្រ្តពិសេសពី 12 លក្ខណៈនៃលក្ខណៈសម្បត្តិឆ្លុះបញ្ចាំងនៃទម្រង់ផ្សេងគ្នានៃ erythrocytes ដែលបានសិក្សាដោយប្រើមីក្រូទស្សន៍អេឡិចត្រុង។

រូបភាពទី 1

យើងឃើញថាចង្កោមទី 1 មានទំហំអប្បបរមា ខណៈដែលចង្កោមទី 2 និងទី 3 មានទំហំប្រហាក់ប្រហែលគ្នា។ ក្នុងពេលជាមួយគ្នានេះ យើងអាចនិយាយបានថា ដង់ស៊ីតេអប្បបរមា ហើយហេតុដូច្នេះហើយការបែកខ្ចាត់ខ្ចាយចម្ងាយអតិបរមាគឺជាលក្ខណៈនៃចង្កោមទី 3។ លើសពីនេះ ចង្កោមទី 1 ត្រូវបានបំបែកដោយផ្នែកធំគ្រប់គ្រាន់នៃចន្លោះទទេទាំងពីចង្កោមទី 2 និងចង្កោមទី 3 ។ ខណៈពេលដែលចង្កោមទី 2 និងទី 3 ត្រួតលើគ្នាដោយផ្នែក។ វាក៏គួរឱ្យចាប់អារម្មណ៍ផងដែរដែលថាចង្កោមទី 1 មានភាពខុសគ្នាខ្លាំងជាងពីចង្កោមទី 2 និងទី 3 តាមអ័ក្សទី 1 ជាងតាមអ័ក្សទី 2 ។ ផ្ទុយទៅវិញ ចង្កោមទី 2 និងទី 3 មានភាពខុសគ្នាប្រហែលស្មើគ្នាពីគ្នាទៅវិញទៅមកទាំងនៅតាមបណ្តោយអ័ក្សទី 1 និងតាមអ័ក្សទី 2 ។ ជាក់ស្តែងសម្រាប់ការវិភាគដែលមើលឃើញបែបនេះ ចាំបាច់ត្រូវមានគម្រោងពិសេសនៃគម្រោងអ័ក្សទាំងអស់ អាចមើលឃើញជាក្រុមដាច់ដោយឡែក។

2. 4 ចម្ងាយរវាងក្រុម

ក្នុងន័យទូលំទូលាយ វត្ថុអាចត្រូវបានយល់មិនត្រឹមតែជាប្រធានបទដើមនៃការស្រាវជ្រាវ ដែលបានបង្ហាញនៅក្នុងម៉ាទ្រីស "វត្ថុ-ទ្រព្យសម្បត្តិ" ជាបន្ទាត់ដាច់ដោយឡែក ឬជាចំណុចបុគ្គលនៅក្នុងចន្លោះលក្ខណៈពហុវិមាត្រប៉ុណ្ណោះទេ ប៉ុន្តែក៏ជាក្រុមដាច់ដោយឡែកនៃចំណុចទាំងនោះ ដែលរួបរួមគ្នាដោយក្បួនដោះស្រាយមួយ ឬមួយផ្សេងទៀតទៅក្នុងចង្កោម។ ក្នុងករណីនេះសំណួរកើតឡើងអំពីរបៀបដើម្បីយល់ពីចម្ងាយរវាងការប្រមូលផ្តុំនៃចំណុចបែបនេះ (ចង្កោម) និងរបៀបគណនាវា។ ក្នុងករណីនេះភាពខុសគ្នានៃលទ្ធភាពគឺធំជាងនៅក្នុងករណីនៃការគណនាចម្ងាយរវាងការសង្កេតពីរនៅក្នុងលំហពហុវិមាត្រ។ នីតិវិធីនេះមានភាពស្មុគស្មាញដោយការពិតដែលថាមិនដូចចំណុចទេ ចង្កោមកាន់កាប់ចំនួនជាក់លាក់នៃលំហពហុវិមាត្រ និងមានចំណុចជាច្រើន។ នៅក្នុងការវិភាគចង្កោម ចម្ងាយអន្តរចង្កោមត្រូវបានគេប្រើយ៉ាងទូលំទូលាយ គណនាតាមគោលការណ៍នៃអ្នកជិតខាងដែលនៅជិតបំផុត (អ្នកជិតខាងដែលនៅជិតបំផុត) ចំណុចកណ្តាលនៃទំនាញ អ្នកជិតខាងឆ្ងាយបំផុត មេដ្យាន។ វិធីសាស្រ្តចំនួនបួនត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយបំផុត៖ តំណតែមួយ តំណពេញ តំណភ្ជាប់មធ្យម និងវិធីសាស្ត្ររបស់វួដ។ នៅក្នុងវិធីសាស្រ្តតំណតែមួយ វត្ថុមួយនឹងត្រូវបានភ្ជាប់ទៅចង្កោមដែលមានស្រាប់ ប្រសិនបើយ៉ាងហោចណាស់ធាតុមួយនៃចង្កោមមានកម្រិតនៃភាពស្រដៀងគ្នាដូចវត្ថុដែលត្រូវបានភ្ជាប់។ សម្រាប់វិធីសាស្រ្តនៃតំណភ្ជាប់ពេញលេញ វត្ថុមួយត្រូវបានភ្ជាប់ទៅចង្កោម លុះត្រាតែភាពស្រដៀងគ្នារវាងបេក្ខជនសម្រាប់ការដាក់បញ្ចូល និងធាតុណាមួយនៃចង្កោមគឺមិនតិចជាងកម្រិតជាក់លាក់មួយ។ សម្រាប់វិធីសាស្រ្តនៃការតភ្ជាប់ជាមធ្យម មានការកែប្រែជាច្រើន ដែលជាការសម្របសម្រួលមួយចំនួនរវាងការតភ្ជាប់តែមួយ និងពេញលេញ។ ពួកគេគណនាតម្លៃមធ្យមនៃភាពស្រដៀងគ្នារបស់បេក្ខជនសម្រាប់ការដាក់បញ្ចូលជាមួយវត្ថុទាំងអស់នៃចង្កោមដែលមានស្រាប់។ ឯកសារភ្ជាប់ត្រូវបានអនុវត្តនៅពេលដែលតម្លៃស្រដៀងគ្នាជាមធ្យមដែលបានរកឃើញឈានដល់ឬលើសពីកម្រិតជាក់លាក់មួយ។ ការប្រើជាទូទៅបំផុតគឺភាពស្រដៀងគ្នានៃមធ្យមនព្វន្ធរវាងវត្ថុនៃចង្កោម និងបេក្ខជនសម្រាប់ដាក់បញ្ចូលក្នុងចង្កោម។

វិធីសាស្រ្តនៃការធ្វើចង្កោមជាច្រើនខុសគ្នាពីគ្នាទៅវិញទៅមកដោយថាក្បួនដោះស្រាយរបស់ពួកគេនៅជំហាននីមួយៗគណនាមុខងារគុណភាពនៃការបែងចែកផ្សេងៗ។ វិធីសាស្ត្រ Ward ដ៏ពេញនិយមត្រូវបានសាងសង់តាមរបៀបមួយដើម្បីបង្កើនប្រសិទ្ធភាពភាពប្រែប្រួលអប្បបរមានៃចម្ងាយ intracluster ។ នៅជំហានដំបូង ចង្កោមនីមួយៗមានវត្ថុមួយ ដោយសារតែការបែកខ្ចាត់ខ្ចាយ intracluster នៃចម្ងាយស្មើនឹង 0 ។ តាមវិធីនេះ វត្ថុទាំងនោះដែលផ្តល់ការបំបែកជាបណ្តុំអប្បបរមាត្រូវបានបញ្ចូលគ្នា ដែលជាលទ្ធផលដែលវិធីសាស្ត្រនេះមាននិន្នាការបង្កើតចង្កោម hyperspheric ។

ការប៉ុនប៉ងជាច្រើនដើម្បីចាត់ថ្នាក់វិធីសាស្ត្រវិភាគចង្កោមនាំទៅដល់រាប់សិប ឬរាប់រយនៃថ្នាក់ផ្សេងៗគ្នា។ ភាពខុសគ្នាបែបនេះត្រូវបានបង្កើតឡើងដោយវិធីជាច្រើនដែលអាចធ្វើទៅបានដើម្បីគណនាចម្ងាយរវាងការសង្កេតបុគ្គល វិធីសាស្ត្រគណនាចម្ងាយរវាងចង្កោមនីមួយៗក្នុងដំណើរការនៃការដាក់ចង្កោម និងការប៉ាន់ប្រមាណផ្សេងៗនៃភាពល្អប្រសើរនៃរចនាសម្ព័ន្ធចង្កោមចុងក្រោយ។

ការប្រើប្រាស់យ៉ាងទូលំទូលាយបំផុតនៅក្នុងកញ្ចប់ស្ថិតិដ៏ពេញនិយមគឺជាក្រុមពីរនៃក្បួនដោះស្រាយការវិភាគចង្កោម៖ វិធីសាស្ត្រប្រមូលផ្តុំតាមឋានានុក្រម និងវិធីសាស្ត្រដាក់ក្រុមដដែលៗ។

3. វិធីសាស្រ្តជាក្រុម

3. 1 លក្ខណៈពិសេសនៃវិធីសាស្រ្ត agglomeration ឋានានុក្រម

នៅក្នុងក្បួនដោះស្រាយឋានានុក្រម agglomerative ដែលត្រូវបានគេប្រើញឹកញាប់ជាងនៅក្នុងការស្រាវជ្រាវជីវវេជ្ជសាស្ត្រពិត វត្ថុទាំងអស់ (ការសង្កេត) ត្រូវបានចាត់ទុកថាជាចង្កោមឯករាជ្យដាច់ដោយឡែកដែលមានធាតុតែមួយ។ បើគ្មានការប្រើប្រាស់បច្ចេកវិទ្យាកុំព្យូទ័រដ៏មានឥទ្ធិពល ការអនុវត្តការវិភាគទិន្នន័យចង្កោមគឺមានបញ្ហាខ្លាំងណាស់។

ជម្រើសនៃម៉ែត្រត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវ។ បន្ទាប់ពីការគណនាម៉ាទ្រីសចម្ងាយដំណើរការចាប់ផ្តើម ការប្រមូលផ្តុំ (ពីឡាតាំង agglomero - ខ្ញុំភ្ជាប់, កកកុញ) ឆ្លងកាត់តាមលំដាប់លំដោយ។ នៅជំហានដំបូងនៃដំណើរការនេះ ការសង្កេតដំបូងចំនួនពីរ (monoclusters) ដែលមានចម្ងាយតូចបំផុតរវាងពួកវាត្រូវបានបញ្ចូលគ្នាទៅក្នុងចង្កោមតែមួយ ដែលមានវត្ថុពីររួចហើយ (ការសង្កេត)។ ដូច្នេះជំនួសឱ្យ N-monoclusters ពីមុន (ចង្កោមមានវត្ថុមួយ) បន្ទាប់ពីជំហានដំបូង វានឹងមានចង្កោម N-1 ដែលចង្កោមមួយនឹងមានវត្ថុពីរ (ការសង្កេត) ហើយចង្កោម N-2 នឹងនៅតែមានវត្ថុតែមួយ។ នៅជំហានទីពីរ វិធីសាស្រ្តផ្សេងៗនៃការផ្សំចង្កោម N-2 គឺអាចធ្វើទៅបាន។ នេះ​ដោយសារ​តែ​ចង្កោម​មួយ​ក្នុង​ចំណោម​ចង្កោម​ទាំង​នេះ​មាន​វត្ថុ​ពីរ​រួច​ហើយ។ សម្រាប់ហេតុផលនេះសំណួរចម្បងពីរកើតឡើង:

· របៀបគណនាកូអរដោនេនៃចង្កោមនៃវត្ថុពីរ (និងលើសពីពីរ) ។

· របៀបគណនាចម្ងាយទៅចង្កោម "វត្ថុពហុ" ពី "ម៉ូណូក្លូស" និងរវាងចង្កោម "វត្ថុពហុ" ។

ទីបំផុត សំណួរទាំងនេះកំណត់រចនាសម្ព័ន្ធចុងក្រោយនៃចង្កោមចុងក្រោយ (រចនាសម្ព័ន្ធនៃចង្កោមមានន័យថា សមាសភាពនៃចង្កោមនីមួយៗ និងទីតាំងដែលទាក់ទងរបស់ពួកគេនៅក្នុងលំហពហុវិមាត្រ)។ ការរួមបញ្ចូលគ្នាជាច្រើននៃម៉ែត្រ និងវិធីសាស្រ្តសម្រាប់ការគណនាកូអរដោនេ និងចម្ងាយទៅវិញទៅមកនៃចង្កោម ផ្តល់នូវភាពខុសគ្នានៃវិធីសាស្ត្រវិភាគចង្កោម។ នៅជំហានទីពីរ អាស្រ័យលើវិធីសាស្រ្តដែលបានជ្រើសរើសសម្រាប់ការគណនាកូអរដោនេនៃចង្កោមដែលមានវត្ថុជាច្រើន និងវិធីសាស្ត្រសម្រាប់ការគណនាចម្ងាយរវាងចង្កោម វាអាចទៅរួចក្នុងការបញ្ចូលការសង្កេតដាច់ដោយឡែកពីរម្តងទៀតទៅក្នុងចង្កោមថ្មី ឬដើម្បីចូលរួមការសង្កេតថ្មីមួយទៅកាន់ចង្កោមដែលមានវត្ថុពីរ។ ដើម្បីភាពងាយស្រួល កម្មវិធីភាគច្រើននៃវិធីសាស្រ្ត agglomerative-hierarchical នៅចុងបញ្ចប់នៃការងារអាចផ្តល់ក្រាហ្វិកសំខាន់ពីរសម្រាប់ការមើល។ ក្រាហ្វទីមួយត្រូវបានគេហៅថា dendrogram (មកពីភាសាក្រិច dendron - ដើមឈើ) ដែលឆ្លុះបញ្ចាំងពីដំណើរការនៃការប្រមូលផ្តុំ ការបញ្ចូលគ្នានៃការសង្កេតបុគ្គលចូលទៅក្នុងចង្កោមចុងក្រោយតែមួយ។ ចូរយើងផ្តល់ឧទាហរណ៍នៃ dendrogram នៃការសង្កេតចំនួន 5 ក្នុងអថេរពីរ។

កាលវិភាគ1

អ័ក្សបញ្ឈរនៃក្រាហ្វបែបនេះគឺជាអ័ក្សនៃចម្ងាយអន្តរចង្កោម ហើយចំនួនវត្ថុ - ករណីដែលប្រើក្នុងការវិភាគ - ត្រូវបានសម្គាល់តាមអ័ក្សផ្ដេក។ វាអាចត្រូវបានគេមើលឃើញពី dendrogram នេះថាវត្ថុលេខ 1 និងលេខ 2 ត្រូវបានបញ្ចូលគ្នាជាលើកដំបូងទៅក្នុងចង្កោមតែមួយ ចាប់តាំងពីចម្ងាយរវាងពួកវាតូចបំផុត និងស្មើ 1 ។ ការរួមបញ្ចូលគ្នានេះត្រូវបានបង្ហាញនៅលើក្រាហ្វដោយបន្ទាត់ផ្តេកដែលភ្ជាប់ផ្នែកបញ្ឈរចេញពីចំណុចដែលបានសម្គាល់ថា C_1 និង C_2 ។ ចូរយើងយកចិត្តទុកដាក់លើការពិតដែលថាបន្ទាត់ផ្តេកខ្លួនវាឆ្លងកាត់យ៉ាងពិតប្រាកដនៅកម្រិតនៃចម្ងាយអន្តរចង្កោមស្មើនឹង 1។ លើសពីនេះទៅទៀត នៅជំហានទីពីរ វត្ថុលេខ 3 ដែលត្រូវបានកំណត់ថាជា C_3 ចូលរួមចង្កោមនេះ ដែលរួមបញ្ចូលវត្ថុពីររួចហើយ។ ជំហានបន្ទាប់គឺបញ្ចូលគ្នានូវវត្ថុ #4 និង #5 ចម្ងាយរវាងដែលស្មើនឹង 1.41។ ហើយនៅជំហានចុងក្រោយ ចង្កោមវត្ថុ 1, 2 និង 3 ត្រូវបានបញ្ចូលគ្នាជាមួយចង្កោមនៃវត្ថុ 4 និង 5 ។ ក្រាហ្វបង្ហាញថាចម្ងាយរវាងចង្កោមចុងក្រោយទាំងពីរនេះ (ចង្កោមចុងក្រោយរួមមានវត្ថុទាំង 5) គឺធំជាង 5 ប៉ុន្តែតិចជាង 6 ចាប់តាំងពីបន្ទាត់ផ្តេកខាងលើតភ្ជាប់ទំនាក់ទំនងស្មើៗគ្នានៃកម្រិតទី 4 ដល់កម្រិតទី 7 និង 7 ។ គឺ 1.41 ។

dendrogram ខាងក្រោមត្រូវបានទទួលដោយការវិភាគសំណុំទិន្នន័យពិតប្រាកដដែលមានសំណាកគីមីកែច្នៃចំនួន 70 ដែលនីមួយៗត្រូវបានកំណត់លក្ខណៈដោយលក្ខណៈពិសេស 12 ។

គំនូសតាង 2

វាអាចត្រូវបានគេមើលឃើញពីក្រាហ្វថានៅជំហានចុងក្រោយនៅពេលដែលចង្កោមពីរចុងក្រោយបញ្ចូលគ្នាចម្ងាយរវាងពួកវាគឺប្រហែល 200 ឯកតា។ វាអាចត្រូវបានគេមើលឃើញថាចង្កោមទីមួយរួមបញ្ចូលវត្ថុតិចជាងចង្កោមទីពីរ។ ខាងក្រោមគឺជាផ្នែកពង្រីកនៃ dendrography ដែលលេខសង្កេតអាចមើលឃើញយ៉ាងច្បាស់ តំណាងថា C_65, C_58 ។ល។ (ពីឆ្វេងទៅស្តាំ)៖ 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 ។ល។

គំនូសតាងទី 3 ពង្រីកផ្នែកនៃតារាង #2 ខាងលើ

វាអាចត្រូវបានគេមើលឃើញថាវត្ថុ 44 គឺជា monocluster ដែលរួមបញ្ចូលគ្នាជាមួយចង្កោមខាងស្តាំនៅជំហានចុងក្រោយហើយបន្ទាប់មកនៅជំហានចុងក្រោយការសង្កេតទាំងអស់ត្រូវបានបញ្ចូលគ្នាទៅជាចង្កោមមួយ។

ក្រាហ្វមួយផ្សេងទៀតដែលត្រូវបានបង្កើតឡើងនៅក្នុងនីតិវិធីបែបនេះគឺជាក្រាហ្វនៃចម្ងាយរវាងចង្កោមនៅជំហាននីមួយៗនៃសហជីព។ ខាងក្រោមនេះគឺជាគ្រោងស្រដៀងគ្នាសម្រាប់ dendrogram ខាងលើ។

គំនូសតាង 4

នៅក្នុងកម្មវិធីមួយចំនួន វាអាចបង្ហាញជាតារាងលទ្ធផលនៃការរួមបញ្ចូលគ្នារវាងវត្ថុនៅជំហាននីមួយៗនៃការដាក់ចង្កោម។ នៅក្នុងតារាងទាំងនេះភាគច្រើន ដើម្បីជៀសវាងការភាន់ច្រលំ វាក្យស័ព្ទផ្សេងគ្នាត្រូវបានប្រើដើម្បីកំណត់ការសង្កេតដំបូង - ចង្កោម និងចង្កោមជាក់ស្តែងដែលមានការសង្កេតពីរ ឬច្រើន។ នៅក្នុងកញ្ចប់ស្ថិតិជាភាសាអង់គ្លេស ការសង្កេតដំបូង (ជួរនៃម៉ាទ្រីសទិន្នន័យ) ត្រូវបានកំណត់ថាជា "ករណី" - ករណី។ ដើម្បីបង្ហាញពីភាពអាស្រ័យនៃរចនាសម្ព័ន្ធចង្កោមលើជម្រើសនៃម៉ែត្រ និងជម្រើសនៃក្បួនដោះស្រាយសហជីពចង្កោម យើងបង្ហាញខាងក្រោម dendrogram ដែលត្រូវគ្នានឹងក្បួនដោះស្រាយការតភ្ជាប់ពេញលេញ។ ហើយនៅទីនេះយើងឃើញថាវត្ថុ #44 ត្រូវបានបញ្ចូលគ្នាជាមួយជម្រើសដែលនៅសល់ក្នុងជំហានចុងក្រោយបំផុត។

គំនូសតាង ៥

ឥឡូវនេះ ចូរយើងប្រៀបធៀបវាជាមួយនឹងដ្យាក្រាមមួយផ្សេងទៀតដែលទទួលបានដោយប្រើវិធីសាស្ត្រភ្ជាប់តែមួយលើទិន្នន័យដូចគ្នា។ ផ្ទុយទៅនឹងវិធីសាស្រ្តនៃការតភ្ជាប់ពេញលេញ វាអាចត្រូវបានគេមើលឃើញថាវិធីសាស្រ្តនេះបង្កើតខ្សែសង្វាក់វែងនៃវត្ថុដែលភ្ជាប់ជាបន្តបន្ទាប់ទៅគ្នាទៅវិញទៅមក។ ទោះយ៉ាងណាក៏ដោយនៅក្នុងករណីទាំងបីយើងអាចនិយាយបានថាក្រុមសំខាន់ពីរលេចធ្លោ។

គំនូសតាង ៦

ចូរយើងយកចិត្តទុកដាក់ផងដែរចំពោះការពិតដែលថានៅក្នុងករណីទាំងបី វត្ថុលេខ 44 ចូលរួមជា monocluster ទោះបីជានៅជំហានផ្សេងគ្នានៃដំណើរការចង្កោមក៏ដោយ។ ការជ្រើសរើស monoclusters បែបនេះគឺជាមធ្យោបាយដ៏ល្អក្នុងការរកឃើញការសង្កេតមិនធម្មតាដែលហៅថា outliers ។ ចូរលុបវត្ថុ "គួរឱ្យសង្ស័យ" លេខ 44 នេះ ហើយអនុវត្តការចង្កោមម្តងទៀត។ យើងទទួលបាន dendrography ដូចខាងក្រោម:

គំនូសតាង ៧

វាអាចត្រូវបានគេមើលឃើញថាឥទ្ធិពល "ខ្សែសង្វាក់" ត្រូវបានរក្សាទុកក៏ដូចជាការបែងចែកទៅជាក្រុមក្នុងស្រុកពីរនៃការសង្កេត។

3. 2 លក្ខណៈ​ពិសេស​នៃ​វិធីសាស្ត្រ​ធ្វើ​ចង្កោម​ដដែលៗ

ក្នុងចំណោមវិធីសាស្រ្តដដែលៗ វិធីសាស្ត្រដ៏ពេញនិយមបំផុតគឺវិធីសាស្ត្រ k-means របស់ McKean ។ មិនដូចវិធីសាស្រ្តតាមឋានានុក្រមទេ ក្នុងការអនុវត្តភាគច្រើននៃវិធីសាស្ត្រនេះ អ្នកប្រើប្រាស់ខ្លួនឯងត្រូវតែបញ្ជាក់ចំនួនក្រុមចុងក្រោយដែលចង់បាន ដែលជាធម្មតាត្រូវបានតំណាងថាជា "k" ។ ដូចនៅក្នុងវិធីសាស្រ្តនៃការដាក់ចង្កោមតាមឋានានុក្រម អ្នកប្រើប្រាស់អាចជ្រើសរើសប្រភេទម៉ែត្រមួយ ឬប្រភេទផ្សេងទៀត។ ក្បួនដោះស្រាយផ្សេងគ្នានៃវិធីសាស្ត្រ k-means ក៏ខុសគ្នានៅក្នុងវិធីនៃការជ្រើសរើសចំណុចកណ្តាលដំបូងនៃចង្កោមដែលបានផ្តល់ឱ្យ។ នៅក្នុងកំណែមួយចំនួននៃវិធីសាស្រ្ត អ្នកប្រើប្រាស់ខ្លួនឯងអាច (ឬត្រូវតែ) បញ្ជាក់ចំណុចដំបូងបែបនេះ ដោយជ្រើសរើសពួកវាពីការសង្កេតជាក់ស្តែង ឬដោយការបញ្ជាក់កូអរដោនេនៃចំណុចទាំងនេះសម្រាប់អថេរនីមួយៗ។ នៅក្នុងការអនុវត្តផ្សេងទៀតនៃវិធីសាស្រ្តនេះ ជម្រើសនៃចំនួន k នៃចំណុចដំបូងត្រូវបានផ្តល់ឱ្យដោយចៃដន្យ ហើយចំនុចដំបូងទាំងនេះ (គ្រាប់ធញ្ញជាតិ) អាចត្រូវបានកែលម្អជាបន្តបន្ទាប់ក្នុងដំណាក់កាលជាច្រើន។ មាន 4 ដំណាក់កាលសំខាន់នៃវិធីសាស្រ្តបែបនេះ:

· ជ្រើសរើស ឬកំណត់ការសង្កេត k ដែលនឹងក្លាយជាមជ្ឈមណ្ឌលចម្បងនៃចង្កោម។

· ប្រសិនបើចាំបាច់ ចង្កោមកម្រិតមធ្យមត្រូវបានបង្កើតឡើងដោយការចាត់តាំងការសង្កេតនីមួយៗទៅកាន់មជ្ឈមណ្ឌលចង្កោមដែលបានបញ្ជាក់ដែលនៅជិតបំផុត;

· បន្ទាប់ពីការចាត់តាំងរាល់ការសង្កេតទៅក្រុមនីមួយៗ មជ្ឈមណ្ឌលចង្កោមបឋមត្រូវបានជំនួសដោយមធ្យមភាគនៃចង្កោម។

· ការធ្វើឡើងវិញពីមុនត្រូវបានធ្វើម្តងទៀតរហូតដល់ការផ្លាស់ប្តូរនៅក្នុងកូអរដោនេនៃមជ្ឈមណ្ឌលចង្កោមក្លាយជាតិចតួចបំផុត។

នៅក្នុងកំណែមួយចំនួននៃវិធីសាស្ត្រនេះ អ្នកប្រើប្រាស់អាចកំណត់តម្លៃជាលេខនៃលក្ខណៈវិនិច្ឆ័យ ដែលត្រូវបានបកស្រាយថាជាចម្ងាយអប្បបរមាសម្រាប់ជ្រើសរើសមជ្ឈមណ្ឌលចង្កោមថ្មី។ ការសង្កេតនឹងមិនត្រូវបានចាត់ទុកថាជាបេក្ខជនសម្រាប់មជ្ឈមណ្ឌលចង្កោមថ្មីទេ ប្រសិនបើចម្ងាយរបស់វាទៅមជ្ឈមណ្ឌលចង្កោមដែលបានជំនួសលើសពីចំនួនដែលបានបញ្ជាក់។ ប៉ារ៉ាម៉ែត្រនេះត្រូវបានគេហៅថា "កាំ" នៅក្នុងកម្មវិធីមួយចំនួន។ បន្ថែមពីលើប៉ារ៉ាម៉ែត្រនេះ វាក៏អាចកំណត់ចំនួនអតិបរិមានៃការធ្វើម្តងទៀត ឬឈានដល់ចំនួនជាក់លាក់ ដែលជាធម្មតាមានចំនួនតិចតួច ដែលការផ្លាស់ប្តូរចម្ងាយសម្រាប់មជ្ឈមណ្ឌលចង្កោមទាំងអស់ត្រូវបានប្រៀបធៀប។ ការកំណត់នេះត្រូវបានសំដៅជាទូទៅថាជា "ការបញ្ចូលគ្នា" ដោយសារតែ ឆ្លុះបញ្ចាំងពីការបញ្ចូលគ្នានៃដំណើរការចង្កោមដដែលៗ។ ខាងក្រោមនេះ យើងបង្ហាញលទ្ធផលមួយចំនួនដែលទទួលបានដោយប្រើវិធីសាស្ត្រ McKean k-means ទៅនឹងទិន្នន័យមុន។ ចំនួននៃចង្កោមដែលបានស្វែងរកដំបូងត្រូវបានកំណត់ជា 3 ហើយបន្ទាប់មកទៅ 2 ។ ផ្នែកទីមួយរបស់ពួកគេមានលទ្ធផលនៃការវិភាគមួយផ្លូវនៃការប្រែប្រួល ដែលលេខចង្កោមដើរតួជាកត្តាក្រុម។ ជួរទីមួយគឺជាបញ្ជីនៃអថេរចំនួន 12 អមដោយផលបូកនៃការ៉េ (SS) និងដឺក្រេនៃសេរីភាព (df) បន្ទាប់មក Fisher's F-test ហើយនៅជួរចុងក្រោយកម្រិតសារៈសំខាន់ "p" សម្រេចបាន។

តារាងទី 2 McKean k-មានន័យថាទិន្នន័យដែលអាចអនុវត្តបានចំពោះគំរូសាកល្បងចំនួន 70 ។

អថេរ

ដូចដែលអាចមើលឃើញពីតារាងនេះ សម្មតិកម្មគ្មានន័យអំពីសមភាពនៃមធ្យោបាយក្នុងក្រុមទាំងបីត្រូវបានច្រានចោល។ ខាងក្រោមនេះគឺជាក្រាហ្វនៃមធ្យោបាយនៃអថេរទាំងអស់សម្រាប់ចង្កោមនីមួយៗ។ មធ្យោបាយចង្កោមដូចគ្នានៃអថេរត្រូវបានបង្ហាញខាងក្រោមក្នុងទម្រង់ជាតារាង។

តារាងទី 3. ការពិនិត្យឡើងវិញលម្អិតនៃទិន្នន័យលើឧទាហរណ៍នៃចង្កោមចំនួនបី។

អថេរ

ចង្កោមលេខ 1

ចង្កោមលេខ ២

ចង្កោមលេខ ៣

គំនូសតាង ៨

ការវិភាគនៃតម្លៃមធ្យមនៃអថេរសម្រាប់ចង្កោមនីមួយៗអនុញ្ញាតឱ្យយើងសន្និដ្ឋានថាយោងទៅតាមលក្ខណៈ X1 ចង្កោមទី 1 និងទី 3 មានតម្លៃជិតស្និទ្ធខណៈពេលដែលចង្កោមទី 2 មានតម្លៃជាមធ្យមទាបជាងនៅក្នុងចង្កោមពីរផ្សេងទៀត។ ផ្ទុយទៅវិញ យោងតាមលក្ខណៈពិសេស X2 ចង្កោមទីមួយមានតម្លៃទាបបំផុត ខណៈពេលដែលចង្កោមទី 2 និងទី 3 មានតម្លៃមធ្យមខ្ពស់ជាង និងជិត។ សម្រាប់លក្ខណៈ X3-X12 តម្លៃមធ្យមនៅក្នុងចង្កោម 1 គឺខ្ពស់ជាងគួរឱ្យកត់សម្គាល់នៅក្នុងចង្កោម 2 និង 3 ។ តារាងខាងក្រោមនៃការវិភាគភាពខុសប្លែកគ្នានៃលទ្ធផលចង្កោមសម្រាប់ចង្កោមពីរក៏បង្ហាញពីតម្រូវការក្នុងការបដិសេធសម្មតិកម្មគ្មានន័យអំពីសមភាពនៃមធ្យោបាយក្រុមសម្រាប់ស្ទើរតែទាំងអស់ 12 លក្ខណៈពិសេស លើកលែងតែអថេរដែលសម្រេចបានកម្រិត X4 ច្រើនជាង 5% ។

តារាងទី 4. តារាងនៃការវិភាគការបែកខ្ញែកនៃលទ្ធផលនៃការដាក់ចង្កោមទៅជាចង្កោមពីរ។

អថេរ

ខាងក្រោម​នេះ​ជា​ក្រាហ្វ និង​តារាង​នៃ​មធ្យោបាយ​ក្រុម​សម្រាប់​ករណី​នៃ​ការ​ចង្កោម​ជា​ចង្កោម​ពីរ។

តារាងទី 5. តារាងសម្រាប់ករណីនៃចង្កោមជាពីរចង្កោម។

អថេរ

ចង្កោមលេខ 1

ចង្កោមលេខ ២

គំនូសតាង ៩.

ក្នុងករណីដែលអ្នកស្រាវជ្រាវមិនអាចកំណត់ជាមុននូវចំនួនចង្កោមដែលទំនងបំផុតនោះ គាត់ត្រូវបានបង្ខំឱ្យធ្វើការគណនាឡើងវិញ ដោយកំណត់ចំនួនផ្សេងគ្នា ស្រដៀងទៅនឹងអ្វីដែលបានធ្វើខាងលើ។ ហើយបន្ទាប់មក ដោយប្រៀបធៀបលទ្ធផលដែលទទួលបានជាមួយគ្នា ឈប់នៅជម្រើសមួយនៃការដាក់ចង្កោមដែលអាចទទួលយកបានបំផុត។

4 . ការប្រមូលផ្តុំនៃលក្ខណៈពិសេស

បន្ថែមពីលើការធ្វើចង្កោមការសង្កេតបុគ្គល ក៏មានលក្ខណៈពិសេសផងដែរ ក្បួនដោះស្រាយចង្កោម។ វិធីសាស្រ្តដំបូងមួយក្នុងចំណោមវិធីសាស្រ្តបែបនេះគឺវិធីសាស្រ្តនៃការទាក់ទង pleiades Terentiev P.V. រូបភាពដើមនៃ pleiades បែបនេះអាចត្រូវបានរកឃើញជាញឹកញាប់នៅក្នុងការបោះពុម្ពជីវវេជ្ជសាស្ត្រក្នុងទម្រង់ជារង្វង់ដែលមានសញ្ញាព្រួញភ្ជាប់សញ្ញាដែលអ្នកនិពន្ធបានរកឃើញទំនាក់ទំនង។ កម្មវិធីមួយចំនួនសម្រាប់ដាក់ចង្កោមវត្ថុ និងមុខងារមានដំណើរការដាច់ដោយឡែក។ ឧទាហរណ៍ នៅក្នុងកញ្ចប់ SAS សម្រាប់ការធ្វើចង្កោមលក្ខណៈពិសេស នីតិវិធី VARCLUS (ពី VARiable - អថេរ និង CLUSter - ចង្កោម) ត្រូវបានប្រើខណៈពេលដែលការវិភាគចង្កោមនៃការសង្កេតត្រូវបានអនុវត្តដោយនីតិវិធីផ្សេងទៀត - FASTCLUS និង CLUSTER ។ ការសាងសង់ dendrogram នៅក្នុងករណីទាំងពីរត្រូវបានអនុវត្តដោយប្រើនីតិវិធី TREE (ដើមឈើ) ។

នៅក្នុងកញ្ចប់ស្ថិតិផ្សេងទៀត ការជ្រើសរើសធាតុសម្រាប់ចង្កោម - វត្ថុ ឬលក្ខណៈពិសេស - ត្រូវបានធ្វើឡើងនៅក្នុងម៉ូឌុលតែមួយ។ ជាម៉ែត្រសម្រាប់ការចង្កោមលក្ខណៈពិសេស កន្សោមត្រូវបានគេប្រើជាញឹកញាប់ដែលរួមបញ្ចូលតម្លៃនៃមេគុណជាក់លាក់ដែលឆ្លុះបញ្ចាំងពីភាពខ្លាំងនៃទំនាក់ទំនងសម្រាប់គូនៃលក្ខណៈពិសេសមួយ។ ក្នុងករណីនេះវាងាយស្រួលណាស់សម្រាប់សញ្ញាដែលមានកម្លាំងតភ្ជាប់ស្មើនឹងមួយ (ការពឹងផ្អែកមុខងារ) ដើម្បីយកចម្ងាយរវាងសញ្ញាស្មើនឹងសូន្យ។ ជាការពិតណាស់ ជាមួយនឹងការតភ្ជាប់មុខងារ តម្លៃនៃលក្ខណៈពិសេសមួយអាចគណនាបានយ៉ាងត្រឹមត្រូវនូវតម្លៃនៃមុខងារមួយផ្សេងទៀត។ ជាមួយនឹងការថយចុះនៃកម្លាំងនៃទំនាក់ទំនងរវាងលក្ខណៈពិសេសចម្ងាយកើនឡើងទៅតាមនោះ។ ខាងក្រោមនេះគឺជាក្រាហ្វដែលបង្ហាញពី dendrography នៃការរួមបញ្ចូលគ្នានៃលក្ខណៈពិសេស 12 ដែលត្រូវបានប្រើខាងលើនៅពេលដាក់ចង្កោមគំរូវិភាគចំនួន 70 ។

ក្រាហ្វ 10. Dendrogramលក្ខណៈពិសេស 12 ចង្កោម។

ដូចដែលអាចមើលឃើញពី dendrogram នេះ យើងកំពុងដោះស្រាយជាមួយនឹងក្រុមមូលដ្ឋានពីរនៃលក្ខណៈពិសេស: X1-X10 និង X11-X12 ។ ក្រុមនៃលក្ខណៈពិសេស X1-X10 ត្រូវបានកំណត់លក្ខណៈដោយតម្លៃតូចមួយនៃចម្ងាយ intercluster មិនលើសពីប្រហែល 100 ឯកតា។ នៅទីនេះយើងក៏ឃើញក្រុមរងដែលបានផ្គូផ្គងខាងក្នុងមួយចំនួនផងដែរ៖ X1 និង X2, X3 និង X4, X6 និង X7 ។ ចម្ងាយរវាងលក្ខណៈពិសេសនៃគូទាំងនេះដែលជិតដល់សូន្យបង្ហាញពីទំនាក់ទំនងគូខ្លាំងរបស់ពួកគេ។ ចំណែកឯសម្រាប់គូ X11 និង X12 តម្លៃនៃចម្ងាយរវាងចង្កោមគឺធំជាង និងប្រហែល 300 ឯកតា។ ជាចុងក្រោយ ចម្ងាយដ៏ធំរវាងចង្កោមខាងឆ្វេង (X1-X10) និងស្តាំ (X11-X12) ដែលស្មើនឹងប្រហែល 1150 ឯកតា បង្ហាញថាទំនាក់ទំនងរវាងក្រុមទាំងពីរនេះមានតិចតួចណាស់។

5. ស្ថេរភាព និងគុណភាពនៃចង្កោម

ជាក់ស្តែង វានឹងជាការមិនទំនងទាល់តែសោះក្នុងការលើកឡើងនូវសំណួរថាតើការចាត់ថ្នាក់នេះ ឬចំណាត់ថ្នាក់ដែលទទួលបានដោយជំនួយពីវិធីសាស្ត្រវិភាគចង្កោមគឺយ៉ាងណា។ នៅពេលដែលវិធីសាស្ត្រចង្កោមត្រូវបានផ្លាស់ប្តូរ ស្ថេរភាពបង្ហាញដោយខ្លួនវាផ្ទាល់នៅក្នុងការពិតដែលថាចង្កោមពីរអាចមើលឃើញយ៉ាងច្បាស់នៅលើ dendrography ។

ជាមធ្យោបាយមួយដែលអាចធ្វើទៅបានដើម្បីពិនិត្យមើលស្ថេរភាពនៃលទ្ធផលការវិភាគចង្កោម វិធីសាស្ត្រនៃការប្រៀបធៀបលទ្ធផលដែលទទួលបានសម្រាប់ក្បួនដោះស្រាយចង្កោមផ្សេងៗអាចត្រូវបានប្រើ។ មធ្យោបាយផ្សេងទៀតត្រូវបានគេហៅថាវិធីសាស្ត្រ bootstrap ដែលស្នើឡើងដោយ B. Efron ក្នុងឆ្នាំ 1977 វិធីសាស្ត្រ "jackknife" និង "sliding control" ។ មធ្យោបាយសាមញ្ញបំផុតក្នុងការត្រួតពិនិត្យស្ថេរភាពនៃដំណោះស្រាយចង្កោមអាចជាការបែងចែកគំរូដំបូងដោយចៃដន្យជាពីរផ្នែកប្រហែលស្មើគ្នា ចង្កោមផ្នែកទាំងពីរ ហើយបន្ទាប់មកប្រៀបធៀបលទ្ធផល។ មធ្យោបាយដែលប្រើពេលច្រើនជាងនេះពាក់ព័ន្ធនឹងការដកចេញជាបន្តបន្ទាប់នៃវត្ថុទីមួយនៅដើមដំបូង និងការចង្កោមនៃវត្ថុដែលនៅសល់ (N - 1) ។ លើសពីនេះ អនុវត្តនីតិវិធីនេះជាបន្តបន្ទាប់ លើកលែងតែទីពីរ ទីបី។ល។ វត្ថុ រចនាសម្ព័ន្ធនៃក្រុម N ដែលទទួលបានទាំងអស់ត្រូវបានវិភាគ។ ក្បួនដោះស្រាយមួយផ្សេងទៀតសម្រាប់ពិនិត្យមើលស្ថេរភាពពាក់ព័ន្ធនឹងការបន្តពូជច្រើន ការចម្លងគំរូដើមនៃវត្ថុ N បន្ទាប់មករួមបញ្ចូលគ្នានូវគំរូស្ទួនទាំងអស់ទៅជាគំរូធំមួយ (ប្រជាជនទូទៅ) និងទាញយកដោយចៃដន្យនូវគំរូថ្មីនៃវត្ថុ N ពីវា។ បន្ទាប់ពីនោះ គំរូនេះត្រូវបានដាក់ជាចង្កោម បន្ទាប់មកគំរូចៃដន្យថ្មីមួយត្រូវបានយក ហើយការចង្កោមត្រូវបានអនុវត្តម្តងទៀត។ល។ វាក៏ពឹងផ្អែកខ្លាំងលើកម្លាំងពលកម្មផងដែរ។

មិនមានបញ្ហាតិចជាងនេះទេនៅពេលវាយតម្លៃគុណភាពនៃចង្កោម។ ក្បួនដោះស្រាយមួយចំនួនសម្រាប់ការបង្កើនប្រសិទ្ធភាពដំណោះស្រាយចង្កោមត្រូវបានគេស្គាល់។ ការងារដំបូងដែលមានរូបមន្តនៃលក្ខណៈវិនិច្ឆ័យសម្រាប់ការបង្រួមអប្បបរមានៃភាពខុសគ្នានៃ intracluster និងក្បួនដោះស្រាយ (នៃប្រភេទ k-means) សម្រាប់ការស្វែងរកដំណោះស្រាយដ៏ល្អប្រសើរបានបង្ហាញខ្លួននៅក្នុងទសវត្សរ៍ទី 50 ។ នៅឆ្នាំ 1963 អត្ថបទរបស់ J. Ward ក៏បានបង្ហាញពីក្បួនដោះស្រាយឋានានុក្រមនៃការបង្កើនប្រសិទ្ធភាពស្រដៀងគ្នាផងដែរ។ មិនមានលក្ខណៈវិនិច្ឆ័យជាសកលសម្រាប់ការបង្កើនប្រសិទ្ធភាពដំណោះស្រាយចង្កោមនោះទេ។ ទាំងអស់នេះធ្វើឱ្យអ្នកស្រាវជ្រាវពិបាកជ្រើសរើសដំណោះស្រាយល្អបំផុត។ ក្នុងស្ថានភាពបែបនេះ មធ្យោបាយដ៏ល្អបំផុតដើម្បីអះអាងថាដំណោះស្រាយចង្កោមដែលបានរកឃើញគឺល្អប្រសើរបំផុតក្នុងដំណាក់កាលនៃការសិក្សានេះគឺមានតែភាពស៊ីសង្វាក់គ្នានៃដំណោះស្រាយនេះជាមួយនឹងការសន្និដ្ឋានដែលទទួលបានដោយប្រើវិធីសាស្រ្តផ្សេងទៀតនៃស្ថិតិចម្រុះ។

នៅក្នុងការពេញចិត្តនៃការសន្និដ្ឋានអំពីភាពល្អប្រសើរនៃការដាក់ចង្កោម វាក៏មានលទ្ធផលវិជ្ជមាននៃការត្រួតពិនិត្យពេលវេលាព្យាករណ៍នៃដំណោះស្រាយដែលទទួលបានរួចហើយនៅលើវត្ថុផ្សេងទៀតនៃការសិក្សា។ នៅពេលប្រើវិធីសាស្រ្តតាមឋានានុក្រមនៃការវិភាគចង្កោម យើងអាចផ្តល់អនុសាសន៍ឱ្យប្រៀបធៀបក្រាហ្វជាច្រើននៃការផ្លាស់ប្តូរជាជំហានៗក្នុងចម្ងាយរវាងចង្កោមជាមួយគ្នា។ ក្នុងករណីនេះ ចំណង់ចំណូលចិត្តគួរតែត្រូវបានផ្តល់ទៅឱ្យជម្រើសដែលបន្ទាត់រាបស្មើនៃការកើនឡើងបែបនេះត្រូវបានគេសង្កេតឃើញពីជំហានដំបូងរហូតដល់ជំហានចុងក្រោយជាច្រើនជាមួយនឹងការកើនឡើងបញ្ឈរយ៉ាងខ្លាំងនៅក្នុងក្រាហ្វនេះនៅ 1-2 ជំហានចុងក្រោយនៃការចង្កោម។

សេចក្តីសន្និដ្ឋាន

នៅក្នុងការងាររបស់ខ្ញុំ ខ្ញុំបានព្យាយាមបង្ហាញមិនត្រឹមតែភាពស្មុគស្មាញនៃការវិភាគប្រភេទនេះប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងសមត្ថភាពដំណើរការទិន្នន័យដ៏ល្អប្រសើរផងដែរ ព្រោះជាញឹកញាប់សម្រាប់ភាពត្រឹមត្រូវនៃលទ្ធផល អ្នកត្រូវប្រើគំរូពីរាប់សិបទៅរាប់រយគំរូ។ ប្រភេទនៃការវិភាគនេះជួយចាត់ថ្នាក់ និងដំណើរការលទ្ធផល។ ខ្ញុំក៏ចាត់ទុកថាមិនសំខាន់ចំពោះការទទួលយកបច្ចេកវិទ្យាកុំព្យូទ័រក្នុងការវិភាគនេះ ដែលធ្វើឱ្យវាអាចធ្វើឱ្យដំណើរការនៃលទ្ធផលដំណើរការត្រូវចំណាយពេលតិច ហើយដូច្នេះអនុញ្ញាតឱ្យមានការយកចិត្តទុកដាក់បន្ថែមទៀតចំពោះភាពត្រឹមត្រូវនៃគំរូសម្រាប់ការវិភាគ។

នៅក្នុងការប្រើប្រាស់នៃការវិភាគចង្កោម មាន subtleties និងព័ត៌មានលម្អិតដែលលេចឡើងនៅក្នុងករណីជាក់លាក់នីមួយៗ ហើយមិនអាចមើលឃើញភ្លាមៗនោះទេ។ ជាឧទាហរណ៍ តួនាទីនៃមាត្រដ្ឋាននៃលក្ខណៈពិសេសអាចមានតិចតួច ហើយអាចមានភាពលេចធ្លោនៅក្នុងករណីខ្លះ។ ក្នុងករណីបែបនេះ ចាំបាច់ត្រូវប្រើការបំប្លែងអថេរ។ នេះមានប្រសិទ្ធភាពជាពិសេសនៅពេលប្រើវិធីសាស្រ្តដែលបង្កើតការបំប្លែងលក្ខណៈពិសេសដែលមិនមែនជាលីនេអ៊ែរ ដែលជាទូទៅបង្កើនកម្រិតនៃការទាក់ទងគ្នារវាងលក្ខណៈពិសេស។

មានភាពជាក់លាក់កាន់តែខ្លាំងក្នុងការប្រើប្រាស់ការវិភាគចង្កោមទាក់ទងនឹងវត្ថុដែលត្រូវបានពិពណ៌នាដោយលក្ខណៈគុណភាពតែប៉ុណ្ណោះ។ ក្នុងករណីនេះ វិធីសាស្រ្តនៃការធ្វើឌីជីថលបឋមនៃលក្ខណៈគុណភាព និងការវិភាគចង្កោមជាមួយនឹងលក្ខណៈពិសេសថ្មីគឺជោគជ័យណាស់។ នៅក្នុងការងាររបស់ខ្ញុំ ខ្ញុំបានបង្ហាញថាការវិភាគចង្កោមផ្តល់នូវព័ត៌មានថ្មី និងដើមជាច្រើន ទាំងក្នុងករណីកម្មវិធីរបស់វានៅក្នុងប្រព័ន្ធដែលបានសិក្សាគ្រប់គ្រាន់ និងក្នុងការសិក្សាអំពីប្រព័ន្ធដែលមានរចនាសម្ព័ន្ធមិនស្គាល់។

គួរកត់សំគាល់ផងដែរថា ការវិភាគចង្កោមបានក្លាយទៅជាមិនអាចខ្វះបានក្នុងការស្រាវជ្រាវវិវត្តន៍ ដែលអនុញ្ញាតឱ្យមានការសាងសង់ដើមឈើ phylogenetic ដែលបង្ហាញពីផ្លូវវិវត្តន៍។ វិធីសាស្រ្តទាំងនេះក៏ត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងកម្មវិធីស្រាវជ្រាវវិទ្យាសាស្ត្រផ្នែករូបវិទ្យា និងគីមីវិទ្យាវិភាគផងដែរ។

គម្ពីរប៊ីប

1) Aivazyan S. A., Enyukov I. S., Meshalkin L. D. ស្តីពីរចនាសម្ព័ន្ធ និងខ្លឹមសារនៃកញ្ចប់កម្មវិធីសម្រាប់ការវិភាគស្ថិតិ//ក្បួនដោះស្រាយ និងកម្មវិធីសម្រាប់ការវិភាគស្ថិតិដែលបានអនុវត្ត។--M., 1980 ។

2) Ayvazyan S.A., Bezhaeva Z. I., Staroverov O.V. ចំណាត់ថ្នាក់នៃការសង្កេតពហុវិមាត្រ។--M.: ស្ថិតិ, 1974 ។

3) Becker V.A., Lukatskaya M.L. លើការវិភាគនៃរចនាសម្ព័ន្ធនៃម៉ាទ្រីសនៃមេគុណភ្ជាប់//បញ្ហានៃគំរូសេដ្ឋកិច្ច និងស្ថិតិ និងការព្យាករណ៍នៅក្នុងឧស្សាហកម្ម។-- Novosibirsk, 1970 ។

4) Braverman E. M., Muchnik I. B. វិធីសាស្រ្តរចនាសម្ព័ន្ធនៃដំណើរការទិន្នន័យ។--M.: Nauka, 1983 ។

5) Voronin Yu. A. ទ្រឹស្ដីការចាត់ថ្នាក់ និងការអនុវត្តន៍របស់វា។--Novosibirsk: Nauka, 1987 ។

6) Good I. J. Botryology of botryology // ចំណាត់ថ្នាក់ និងចង្កោម។--M.: Mir, 1980 ។

7) Dubrovsky S.A. អនុវត្តការវិភាគស្ថិតិពហុវ៉ារ្យង់។--M.: ហិរញ្ញវត្ថុនិងស្ថិតិ, 1982 ។

8) Duran N., Odell P. Cluster analysis.--M.: Statistics, 1977 ។

9) Eliseeva I.I., Rukavishnikov V.S. ការដាក់ជាក្រុម ការជាប់ទាក់ទងគ្នា ការទទួលស្គាល់លំនាំ។--M.: ស្ថិតិ, 1977 ។

10) វិធីសាស្រ្តនៃការទទួលស្គាល់ Zagoruiko N.G. និងកម្មវិធីរបស់ពួកគេ។--M.: វិទ្យុសូវៀត ឆ្នាំ ១៩៧២។

11) Zade L. A. Fuzzy sets និងកម្មវិធីរបស់ពួកគេក្នុងការទទួលស្គាល់លំនាំ និងការវិភាគចង្កោម // ចំណាត់ថ្នាក់ និងចង្កោម។--M.: Mir, 1980 ។

12) Kildishev G.S., Abolenttsev Yu.I. ការដាក់ជាក្រុមពហុវិមាត្រ។--M.: ស្ថិតិ, 1978 ។

13) Raiskaya II, Gostilin NI, Frenkel AA អំពីវិធីមួយដើម្បីពិនិត្យមើលសុពលភាពនៃការបែងចែកនៅក្នុងការវិភាគចង្កោម។//កម្មវិធីនៃការវិភាគស្ថិតិចម្រុះក្នុងសេដ្ឋកិច្ច និងការវាយតម្លៃគុណភាពផលិតផល។--Ch ។ P. Tartu, 1977 ។

14) Shurygin A. M. ការចែកចាយចំងាយអន្តរចំណុច និងភាពខុសគ្នា // កម្មវិធី និងការគាំទ្រក្បួនដោះស្រាយសម្រាប់ការវិភាគស្ថិតិពហុវិមាត្រដែលបានអនុវត្ត។--M., 1983 ។

15) Eeremaa R. ទ្រឹស្ដីទូទៅនៃការរចនាប្រព័ន្ធចង្កោម និងក្បួនដោះស្រាយសម្រាប់ការស្វែងរកតំណាងលេខរបស់ពួកគេ៖ ដំណើរការនៃមជ្ឈមណ្ឌលកុំព្យូទ័រនៃ TSU.--Tartu, 1978 ។

16) Yastremsky B.S. Selected Works.--M.: Statistics, 1964 ។

ឯកសារស្រដៀងគ្នា

    គោលដៅនៃការបែងចែកទីផ្សារក្នុងសកម្មភាពទីផ្សារ។ ខ្លឹមសារនៃការវិភាគចង្កោម ដំណាក់កាលសំខាន់នៃការអនុវត្តរបស់វា។ ជ្រើសរើសវិធីវាស់ចម្ងាយ ឬរង្វាស់ភាពស្រដៀងគ្នា។ វិធីសាស្ត្រ​ចង្កោម​តាម​ឋានានុក្រម មិន​តាម​ឋានានុក្រម។ ការវាយតម្លៃភាពជឿជាក់និងភាពជឿជាក់។

    របាយការណ៍បន្ថែមថ្ងៃទី ០២.១១.២០០៩

    សូចនាករសំខាន់ៗនៃស្ថានភាពហិរញ្ញវត្ថុរបស់សហគ្រាស។ វិបត្តិនៅសហគ្រាស មូលហេតុ ប្រភេទ និងផលវិបាករបស់វា។ វិធីសាស្រ្តទំនើប និងឧបករណ៍នៃការវិភាគចង្កោម លក្ខណៈពិសេសនៃការប្រើប្រាស់របស់ពួកគេសម្រាប់ការវាយតម្លៃហិរញ្ញវត្ថុ និងសេដ្ឋកិច្ចរបស់សហគ្រាស។

    និក្ខេបបទបន្ថែម ១០/០៩/២០១៣

    អនុវត្តការវិភាគចង្កោមនៃសហគ្រាសដោយប្រើ Statgraphics Plus ។ ការស្ថាបនាសមីការតំរែតំរង់លីនេអ៊ែរ។ ការគណនាមេគុណនៃការបត់បែនតាមគំរូតំរែតំរង់។ ការវាយតម្លៃពីសារៈសំខាន់ស្ថិតិនៃសមីការ និងមេគុណនៃការកំណត់។

    ភារកិច្ច, បានបន្ថែម 03/16/2014

    ការសាងសង់នៃការតំរែតំរង់ typological សម្រាប់ក្រុមបុគ្គលនៃការសង្កេត។ ទិន្នន័យលំហ និងព័ត៌មានបណ្ដោះអាសន្ន។ វិសាលភាពនៃការអនុវត្តការវិភាគចង្កោម។ គំនិតនៃភាពដូចគ្នានៃវត្ថុ លក្ខណៈសម្បត្តិនៃម៉ាទ្រីសចម្ងាយ។ អនុវត្តការតំរែតំរង់ typological ។

    បទបង្ហាញ, បានបន្ថែម 10/26/2013

    ការបង្កើតគំរូ និងវិធីសាស្រ្តរួមបញ្ចូលគ្នាជាវិធីទំនើបនៃការព្យាករណ៍។ គំរូដែលមានមូលដ្ឋានលើ ARIMA សម្រាប់ការពិពណ៌នាអំពីស៊េរីពេលវេលានៅស្ថានី និងមិនមែនស្ថានី ក្នុងការដោះស្រាយបញ្ហាជាក្រុម។ ម៉ូដែល Autoregressive AR និងកម្មវិធីនៃ correlograms ។

    បទបង្ហាញ, បានបន្ថែម 05/01/2015

    លក្ខណៈនៃប្រភេទផ្សេងគ្នានៃម៉ែត្រ។ វិធីសាស្រ្តអ្នកជិតខាងដែលនៅជិតបំផុត និងលក្ខណៈទូទៅរបស់វា។ ក្បួនដោះស្រាយអ្នកជិតខាងដែលនៅជិតបំផុត។ វិធីសាស្រ្តបង្អួច Parzen ។ ឧបករណ៍ចាត់ថ្នាក់ម៉ែត្រទូទៅ។ បញ្ហានៃការជ្រើសរើសម៉ែត្រ។ Manhattan និង Euclidean ចម្ងាយ។ រង្វាស់កូស៊ីនុស។

    ក្រដាសពាក្យបន្ថែមថ្ងៃទី ០៣/០៨/២០១៥

    លក្ខណៈនៃឧស្សាហកម្មសំណង់នៃដែនដី Krasnodar ។ ការព្យាករណ៍នៃការអភិវឌ្ឍន៍សំណង់លំនៅដ្ឋាន។ វិធីសាស្រ្តទំនើប និងឧបករណ៍នៃការវិភាគចង្កោម។ វិធីសាស្រ្តស្ថិតិពហុវិមាត្រសម្រាប់ការធ្វើរោគវិនិច្ឆ័យស្ថានភាពសេដ្ឋកិច្ចនៃសហគ្រាស។

    និក្ខេបបទបន្ថែម ០៧/២០/២០១៥

    លក្ខណៈពិសេសនៃប្រាក់កម្ចីទិញផ្ទះនៅលើឧទាហរណ៍នៃតំបន់ Bryansk ។ ការពិនិត្យឡើងវិញនៃវិធីសាស្រ្តធ្វើការសម្រេចចិត្តគណិតវិទ្យា៖ ការវាយតម្លៃអ្នកជំនាញ ការប្រៀបធៀបតាមលំដាប់ និងជាគូ ការវិភាគតាមឋានានុក្រម។ ការអភិវឌ្ឍន៍កម្មវិធីស្វែងរកប្រាក់កម្ចីទិញផ្ទះដ៏ល្អប្រសើរ។

    ក្រដាសពាក្យបន្ថែមថ្ងៃទី 11/29/2012

    តំបន់នៃការអនុវត្តការវិភាគប្រព័ន្ធ ទីកន្លែង តួនាទី គោលដៅ និងមុខងារក្នុងវិទ្យាសាស្ត្រទំនើប។ គំនិតនិងខ្លឹមសារនៃវិធីសាស្រ្តនៃការវិភាគប្រព័ន្ធ វិធីសាស្រ្តក្រៅផ្លូវការរបស់វា។ លក្ខណៈពិសេសនៃវិធីសាស្រ្តស្រាវជ្រាវ heuristic និងអ្នកជំនាញ និងលក្ខណៈពិសេសនៃកម្មវិធីរបស់ពួកគេ។

    ក្រដាសពាក្យបន្ថែមថ្ងៃទី ០៥/២០/២០១៣

    ការអភិវឌ្ឍន៍ និងស្រាវជ្រាវវិធីសាស្រ្តសេដ្ឋកិច្ច ដោយគិតគូរពីភាពជាក់លាក់នៃទិន្នន័យសេដ្ឋកិច្ច និងស្របតាមតម្រូវការនៃវិទ្យាសាស្ត្រសេដ្ឋកិច្ច និងការអនុវត្ត។ ការអនុវត្តវិធីសាស្រ្ត និងគំរូសេដ្ឋកិច្ចសម្រាប់ការវិភាគស្ថិតិនៃទិន្នន័យសេដ្ឋកិច្ច។

ពាក្យ "ការវិភាគចង្កោម" ត្រូវបានប្រើជាលើកដំបូងដោយចិត្តវិទូអាមេរិក Robert Trion នៅក្នុងការងារដែលមានឈ្មោះដូចគ្នាកាលពីឆ្នាំ 1930 ។ ទោះបីជាយ៉ាងនេះក៏ដោយ ពាក្យ "ចង្កោម" និង "ការវិភាគចង្កោម" ត្រូវបានយល់ឃើញដោយអ្នកនិយាយដើមថាជារឿងថ្មី ដែល Alexander Khrolenko កត់ចំណាំ ដែលបានធ្វើការវិភាគលើការប្រើប្រាស់ lexeme "cluster"៖ "អ្នកនិពន្ធភាគច្រើនដែលប្រើពាក្យនេះយកចិត្តទុកដាក់ចំពោះភាពថ្មីថ្មោងរបស់វា" (Khrolenko, 2016, p. 106) ។

ការវិភាគចង្កោមរួមមានក្បួនដោះស្រាយការចាត់ថ្នាក់ផ្សេងៗគ្នាជាច្រើន ដែលគោលបំណងគឺរៀបចំព័ត៌មានទៅជាចង្កោម។ វាជាការសំខាន់ក្នុងការចងចាំថាការវិភាគចង្កោមមិនមែននៅក្នុងខ្លួនវានូវក្បួនដោះស្រាយជាក់លាក់មួយនោះទេប៉ុន្តែមានភារកិច្ចដែលត្រូវដោះស្រាយ។ Mark Ereshefsky កត់ចំណាំនៅក្នុងការងាររបស់គាត់ "The Scarcity of the Linear Hierarchy" ថា ការវិភាគចង្កោមគឺជាប្រភេទនៃចំណាត់ថ្នាក់វត្ថុមួយក្នុងចំនោមបីប្រភេទក្នុងពិភពលោក រួមជាមួយនឹងសារៈសំខាន់ និងចំណាត់ថ្នាក់ប្រវត្តិសាស្ត្រ។

នៅក្នុងភាសាវិទ្យា គោលការណ៍នៃចង្កោមនៃការពិពណ៌នាបង្កប់ន័យ បន្ថែមពីលើការវិភាគនៃគ្រឿងដែលបានរួមបញ្ចូលនៅក្នុងចង្កោមនេះ ក៏មានការវិភាគអំពីទំនាក់ទំនងនៅក្នុងពួកគេផងដែរ។ ទាំងនេះអាចជាការភ្ជាប់នៃកម្រិតផ្សេងៗគ្នា៖ ពីតក្កវិជ្ជា (ឧទាហរណ៍ paradigmatic និង syntagmatic) ដល់ការបង្កើតពាក្យ និងការតភ្ជាប់តាមសូរសព្ទ។

F. Brown កំណត់ជំហានខាងក្រោមនៃការវិភាគចង្កោម (ប្រោន)៖

  • 1. ការជ្រើសរើសរង្វាស់ និងផលិតរង្វាស់ចាំបាច់ លក្ខណៈវិនិច្ឆ័យ ឬអង្គភាពដែលត្រូវចាត់ថ្នាក់
  • 2. ការកំណត់រង្វាស់នៃភាពស្រដៀងគ្នា
  • 3. ការបង្កើតច្បាប់សម្រាប់កំណត់លំដាប់នៃការបង្កើតចង្កោម
  • 4. ការអនុវត្តច្បាប់ដើម្បីបង្កើតជាចង្កោម

គួរកត់សំគាល់ថា ចំណុចទី 3 លើកឡើងនូវសំណួរ ដោយហេតុថា ចំណុចសំខាន់នៃការដាក់ចង្កោមជាវិធីសាស្ត្រចាត់ថ្នាក់ គឺអវត្តមាននៃថ្នាក់ដែលបានបញ្ជាក់។ ការធ្វើចង្កោមឯកសារគឺជាកិច្ចការទាញយកព័ត៌មាន។ មិនដូចការចាត់ថ្នាក់អត្ថបទទេ វាមិនរួមបញ្ចូលប្រភេទដែលបានកំណត់ទុកជាមុន ឬសំណុំបណ្តុះបណ្តាលទេ។ ចង្កោម និងទំនាក់ទំនងរវាងពួកវាត្រូវបាន "ស្រង់ចេញដោយស្វ័យប្រវត្តិពីឯកសារ ហើយឯកសារត្រូវបានភ្ជាប់ជាបន្តបន្ទាប់ទៅនឹងចង្កោមទាំងនេះ" (Golub, ទំព័រ 52-53) Mark Ereshefsky ណែនាំការវិភាគចង្កោមជាវិធីសាស្ត្រចាត់ថ្នាក់។ គាត់ជឿថា "គ្រប់ទម្រង់នៃការវិភាគចង្កោមគឺផ្អែកលើការសន្មត់ពីរយ៉ាង៖ សមាជិកនៃក្រុមនិក្ខេបបទត្រូវតែចែករំលែកចង្កោមនៃលក្ខណៈ ហើយលក្ខណៈទាំងនេះមិនអាចលេចឡើងក្នុងសមាជិកទាំងអស់ ឬតែមួយនៃក្រុមនេះទេ"។ (Ereshefsky, ទំព័រ 15)

នៅក្នុងការងាររបស់នាង "វិធីសាស្រ្តចង្កោមក្នុងការវិភាគភាសា" (Nurgalieva, 2013) N.Kh. Nurgalieva កំណត់ភារកិច្ចសំខាន់ៗចំនួនបួននៃការវិភាគចង្កោម៖

  • 1. ការអភិវឌ្ឍន៍ប្រភេទអក្សរសាស្ត្រ ឬចំណាត់ថ្នាក់
  • 2. ស្វែងយល់ពីគ្រោងការណ៍គំនិតដែលមានប្រយោជន៍សម្រាប់ការដាក់ជាក្រុមវត្ថុ
  • 3. ការបង្ហាញសម្មតិកម្មដោយផ្អែកលើទិន្នន័យដែលបានស្រាវជ្រាវ
  • 4. ការសាកល្បងសម្មតិកម្ម ឬការសិក្សាដើម្បីកំណត់ថាតើប្រភេទ (ក្រុម) ដែលត្រូវបានកំណត់តាមមធ្យោបាយមួយ ឬវិធីផ្សេងទៀតគឺពិតជាមានវត្តមាននៅក្នុងទិន្នន័យដែលមាន។

វិធីសាស្រ្តទាំងអស់នៃការវិភាគចង្កោមអាចបែងចែកទៅជា "រឹង" ការវិភាគចង្កោមច្បាស់លាស់ នៅពេលដែលវត្ថុនីមួយៗជាកម្មសិទ្ធិរបស់ចង្កោម ឬអត់ និង "ទន់" ការវិភាគចង្កោមមិនច្បាស់ នៅពេលដែលវត្ថុនីមួយៗជារបស់ក្រុមដែលមានកម្រិតប្រូបាប៊ីលីតេជាក់លាក់។

វិធីសាស្រ្តនៃការវិភាគចង្កោមក៏ត្រូវបានបែងចែកទៅជាឋានានុក្រម និងមិនមែនឋានានុក្រមផងដែរ។ វិធីសាស្រ្តតាមឋានានុក្រមបង្កប់ន័យវត្តមាននៃក្រុមដែលជាប់គ្នា មិនដូចវិធីសាស្ត្រដែលមិនមានឋានានុក្រមទេ។ Nurgaliyeva កត់សម្គាល់ថាវិធីសាស្រ្តតាមឋានានុក្រម "ហាក់ដូចជាសមរម្យបំផុតសម្រាប់ការដោះស្រាយបញ្ហាភាសា" (Nurgaliyeva, ទំ។ 1) ព្រោះវាអនុញ្ញាតឱ្យអ្នកមើលឃើញនិងវិភាគរចនាសម្ព័ន្ធនៃបាតុភូតដែលកំពុងសិក្សា។

ការវិភាគក្រុមនៅក្នុងបញ្ហានៃការព្យាករណ៍សេដ្ឋកិច្ចសង្គម

ការណែនាំអំពីការវិភាគចង្កោម។

នៅពេលវិភាគ និងព្យាករណ៍បាតុភូតសេដ្ឋកិច្ចសង្គម អ្នកស្រាវជ្រាវតែងតែជួបប្រទះនូវពហុវិមាត្រនៃការពិពណ៌នារបស់ពួកគេ។ វាកើតឡើងនៅពេលដោះស្រាយបញ្ហានៃការបែងចែកទីផ្សារ ការកសាងប្រភេទប្រទេសតាមសូចនាករមួយចំនួនធំ ព្យាករណ៍ស្ថានភាពទីផ្សារសម្រាប់ទំនិញនីមួយៗ សិក្សា និងព្យាករណ៍ពីការធ្លាក់ចុះសេដ្ឋកិច្ច និងបញ្ហាជាច្រើនទៀត។

វិធីសាស្រ្តនៃការវិភាគពហុវ៉ារ្យង់គឺជាឧបករណ៍បរិមាណដ៏មានប្រសិទ្ធភាពបំផុតសម្រាប់សិក្សាដំណើរការសេដ្ឋកិច្ចសង្គមដែលត្រូវបានពិពណ៌នាដោយលក្ខណៈមួយចំនួនធំ។ ទាំងនេះរួមមាន ការវិភាគចង្កោម ការចាត់ថ្នាក់ ការទទួលស្គាល់គំរូ និងការវិភាគកត្តា។

ការវិភាគចង្កោមភាគច្រើនឆ្លុះបញ្ចាំងយ៉ាងច្បាស់ពីលក្ខណៈពិសេសនៃការវិភាគពហុវ៉ារ្យង់ក្នុងការចាត់ថ្នាក់ការវិភាគកត្តា - ក្នុងការសិក្សាទំនាក់ទំនង។

ជួនកាលវិធីសាស្រ្តនៃការវិភាគចង្កោមត្រូវបានសំដៅដល់ក្នុងអក្សរសិល្ប៍ថាជា វចនានុក្រមលេខ ចំណាត់ថ្នាក់លេខ ការទទួលស្គាល់ការរៀនដោយខ្លួនឯង ។ល។

ការវិភាគចង្កោមបានរកឃើញកម្មវិធីដំបូងរបស់ខ្លួននៅក្នុងសង្គមវិទ្យា។ ការវិភាគចង្កោមឈ្មោះបានមកពីពាក្យអង់គ្លេស cluster - bunch, accumulation ។ ជាលើកដំបូងក្នុងឆ្នាំ 1939 ប្រធានបទនៃការវិភាគចង្កោមត្រូវបានកំណត់ ហើយការពិពណ៌នារបស់វាត្រូវបានធ្វើឡើងដោយអ្នកស្រាវជ្រាវ Trion ។ គោលបំណងសំខាន់នៃការវិភាគចង្កោមគឺដើម្បីបែងចែកសំណុំនៃវត្ថុ និងលក្ខណៈដែលស្ថិតនៅក្រោមការសិក្សាទៅជាក្រុម ឬចង្កោមដែលមានលក្ខណៈដូចគ្នាក្នុងន័យសមស្រប។ នេះមានន័យថាបញ្ហានៃការបែងចែកទិន្នន័យ និងការកំណត់រចនាសម្ព័ន្ធដែលត្រូវគ្នានៅក្នុងវាកំពុងត្រូវបានដោះស្រាយ។ វិធីសាស្រ្តនៃការវិភាគចង្កោមអាចត្រូវបានអនុវត្តនៅក្នុងករណីជាច្រើន សូម្បីតែក្នុងករណីដែលយើងកំពុងនិយាយអំពីការដាក់ជាក្រុមសាមញ្ញ ដែលអ្វីៗទាំងអស់មកលើការបង្កើតក្រុមទៅតាមភាពស្រដៀងគ្នានៃបរិមាណ។

អត្ថប្រយោជន៍ដ៏អស្ចារ្យនៃការវិភាគចង្កោមគឺថាវាអនុញ្ញាតឱ្យអ្នកបែងចែកវត្ថុមិនមែនដោយប៉ារ៉ាម៉ែត្រមួយទេប៉ុន្តែដោយសំណុំទាំងមូលនៃលក្ខណៈពិសេស។ លើសពីនេះ ការវិភាគចង្កោម មិនដូចវិធីសាស្រ្តគណិតវិទ្យា និងស្ថិតិភាគច្រើន មិនដាក់កម្រិតលើប្រភេទនៃវត្ថុដែលកំពុងពិចារណានោះទេ ហើយអនុញ្ញាតឱ្យយើងពិចារណាលើសំណុំនៃទិន្នន័យដំបូងដែលមានលក្ខណៈស្ទើរតែបំពាន។ នេះជាសារៈសំខាន់ដ៏អស្ចារ្យ ជាឧទាហរណ៍ សម្រាប់ការព្យាករណ៍រួមគ្នា នៅពេលដែលសូចនាករមានទម្រង់ផ្សេងៗគ្នា ដែលធ្វើឱ្យវាពិបាកក្នុងការប្រើវិធីសាស្រ្តសេដ្ឋកិច្ចបែបប្រពៃណី។

ការវិភាគជាចង្កោមធ្វើឱ្យវាអាចពិចារណានូវចំនួនដ៏ច្រើននៃព័ត៌មាន និងកាត់បន្ថយយ៉ាងខ្លាំង បង្រួមព័ត៌មានសេដ្ឋកិច្ចសង្គមយ៉ាងច្រើន ធ្វើឱ្យពួកវាបង្រួម និងមើលឃើញ។

ការវិភាគតាមចង្កោមគឺមានសារៈសំខាន់យ៉ាងខ្លាំងទាក់ទងនឹងសំណុំនៃស៊េរីពេលវេលាកំណត់លក្ខណៈនៃការអភិវឌ្ឍន៍សេដ្ឋកិច្ច (ឧទាហរណ៍ លក្ខខណ្ឌសេដ្ឋកិច្ច និងទំនិញទូទៅ)។ នៅទីនេះ គេអាចបែងចែករយៈពេលដែលតម្លៃនៃសូចនាករដែលត្រូវគ្នាមានភាពជិតស្និទ្ធ ក៏ដូចជាដើម្បីកំណត់ក្រុមនៃស៊េរីពេលវេលា ថាមវន្តដែលស្រដៀងគ្នាបំផុត។

ការវិភាគចង្កោមអាចត្រូវបានប្រើជារង្វង់។ ក្នុងករណីនេះការសិក្សាត្រូវបានអនុវត្តរហូតដល់លទ្ធផលដែលចង់បាន។ ទន្ទឹមនឹងនេះ វដ្តនីមួយៗនៅទីនេះអាចផ្តល់ព័ត៌មានដែលអាចផ្លាស់ប្តូរទិសដៅ និងវិធីសាស្រ្តនៃការអនុវត្តបន្ថែមទៀតនៃការវិភាគចង្កោម។ ដំណើរការនេះអាចត្រូវបានតំណាងថាជាប្រព័ន្ធមតិត្រឡប់។

នៅក្នុងបញ្ហានៃការព្យាករណ៍សេដ្ឋកិច្ចសង្គម វាពិតជាមានសំណាងណាស់ក្នុងការបញ្ចូលគ្នានូវការវិភាគចង្កោមជាមួយនឹងវិធីសាស្រ្តបរិមាណផ្សេងទៀត (ឧទាហរណ៍ជាមួយនឹងការវិភាគតំរែតំរង់)។

ដូចវិធីសាស្រ្តផ្សេងទៀតដែរ ការវិភាគចង្កោមមានគុណវិបត្តិ និងដែនកំណត់ជាក់លាក់៖ ជាពិសេស សមាសភាព និងចំនួនចង្កោមអាស្រ័យលើលក្ខណៈវិនិច្ឆ័យនៃការបែងចែកដែលបានជ្រើសរើស។ នៅពេលកាត់បន្ថយអារេទិន្នន័យដំបូងទៅជាទម្រង់បង្រួមជាងមុន ការបង្ខូចទ្រង់ទ្រាយជាក់លាក់អាចនឹងកើតឡើង ហើយលក្ខណៈបុគ្គលនៃវត្ថុនីមួយៗក៏អាចនឹងត្រូវបាត់បង់ដោយសារតែការជំនួសរបស់វាដោយលក្ខណៈនៃតម្លៃទូទៅនៃប៉ារ៉ាម៉ែត្រចង្កោម។ នៅពេលចាត់ថ្នាក់វត្ថុ ជាញឹកញាប់លទ្ធភាពនៃអវត្តមាននៃតម្លៃចង្កោមណាមួយនៅក្នុងសំណុំដែលបានពិចារណាមិនត្រូវបានអើពើ។

នៅក្នុងការវិភាគចង្កោម វាត្រូវបានចាត់ទុកថា៖

ក) លក្ខណៈដែលបានជ្រើសរើសអនុញ្ញាតជាគោលការណ៍ ការដាក់ចង្កោមដែលចង់បាន។

ខ) ឯកតារង្វាស់ (មាត្រដ្ឋាន) ត្រូវបានជ្រើសរើសយ៉ាងត្រឹមត្រូវ។

ជម្រើសនៃមាត្រដ្ឋានដើរតួនាទីយ៉ាងធំ។ ជាធម្មតា ទិន្នន័យត្រូវបានធ្វើឱ្យធម្មតាដោយការដកមធ្យម និងបែងចែកដោយគម្លាតស្តង់ដារ ដូច្នេះវ៉ារ្យង់គឺស្មើនឹងមួយ។

បញ្ហានៃការវិភាគចង្កោម។

ភារកិច្ចនៃការវិភាគចង្កោមគឺដើម្បីបំបែកសំណុំនៃវត្ថុ G ទៅជា m (m គឺជាចំនួនគត់) ចង្កោម (សំណុំរង) Q1, Q2, ..., Qm ដោយផ្អែកលើទិន្នន័យដែលមាននៅក្នុងសំណុំ X ដូច្នេះវត្ថុនីមួយៗ Gj ជាកម្មសិទ្ធិរបស់ផ្នែករងមួយ និងតែមួយគត់ ហើយវត្ថុដែលជាកម្មសិទ្ធិរបស់ចង្កោមដូចគ្នាគឺស្រដៀងគ្នា ចំណែកឯវត្ថុដែលជាកម្មសិទ្ធិរបស់ចង្កោមផ្សេងគ្នា។

ឧទាហរណ៍ អនុញ្ញាតឱ្យ G រួមបញ្ចូល n ប្រទេស ដែលនីមួយៗត្រូវបានកំណត់លក្ខណៈដោយ GNP ក្នុងមនុស្សម្នាក់ (F1) ចំនួនរថយន្ត M សម្រាប់មនុស្ស 1,000 នាក់ (F2) ការប្រើប្រាស់អគ្គិសនីក្នុងមនុស្សម្នាក់ (F3) ការប្រើប្រាស់ដែកសម្រាប់មនុស្សម្នាក់ (F4) ជាដើម។ បន្ទាប់មក X1 (វ៉ិចទ័ររង្វាស់) គឺជាសំណុំនៃលក្ខណៈជាក់លាក់សម្រាប់ប្រទេសទីមួយ X2 សម្រាប់ទីពីរ X3 សម្រាប់ទីបី ហើយដូច្នេះនៅលើ។ បញ្ហាប្រឈមគឺបំបែកប្រទេសតាមកម្រិតនៃការអភិវឌ្ឍន៍។

ដំណោះស្រាយចំពោះបញ្ហានៃការវិភាគចង្កោមគឺជាភាគថាសដែលបំពេញតាមលក្ខណៈវិនិច្ឆ័យសុទិដ្ឋិនិយមជាក់លាក់មួយ។ លក្ខណៈវិនិច្ឆ័យនេះអាចជាមុខងារមួយចំនួនដែលបង្ហាញពីកម្រិតនៃការចង់បាននៃភាគថាស និងការដាក់ជាក្រុមផ្សេងៗ ដែលត្រូវបានគេហៅថាមុខងារគោលបំណង។ ឧទាហរណ៍ ផលបូកក្រុមនៃគម្លាតការេអាចត្រូវបានយកជាមុខងារគោលបំណង៖

ដែល xj ​​- តំណាងឱ្យការវាស់វែងនៃវត្ថុ j-th ។

ដើម្បីដោះស្រាយបញ្ហានៃការវិភាគចង្កោម ចាំបាច់ត្រូវកំណត់គោលគំនិតនៃភាពស្រដៀងគ្នា និងតំណពូជ។

វាច្បាស់ណាស់ថាវត្ថុ i-th និង j-th នឹងធ្លាក់ចូលទៅក្នុងចង្កោមតែមួយ នៅពេលដែលចម្ងាយ (ចំងាយ) រវាងចំនុច Xi និង Xj តូចល្មម ហើយនឹងធ្លាក់ចូលទៅក្នុងចង្កោមផ្សេងៗគ្នា នៅពេលដែលចម្ងាយនេះធំល្មម។ ដូច្នេះ ការចូលទៅក្នុងចង្កោមវត្ថុមួយ ឬផ្សេងគ្នាត្រូវបានកំណត់ដោយគោលគំនិតនៃចម្ងាយរវាង Xi និង Xj ពី Ep ដែល Ep គឺជាលំហអឺគ្លីឌាន p-dimensional ។ អនុគមន៍មិនអវិជ្ជមាន d(Xi, Xj) ត្រូវបានគេហៅថាអនុគមន៍ចម្ងាយ (ម៉ែត្រ) ប្រសិនបើ៖

a) d(Xi , Xj) ³ 0 សម្រាប់ Xi និង Xj ទាំងអស់ពី Ep

b) d(Xi, Xj) = 0 ប្រសិនបើ ហើយប្រសិនបើ Xi = Xj

គ) d(Xi, Xj) = d(Xj, Xi)

d) d(Xi, Xj) £ d(Xi, Xk) + d(Xk, Xj) ដែល Xj; Xi និង Xk គឺជាវ៉ិចទ័របីពី Ep.

តម្លៃ d(Xi, Xj) សម្រាប់ Xi និង Xj ត្រូវបានគេហៅថាចម្ងាយរវាង Xi និង Xj ហើយស្មើនឹងចម្ងាយរវាង Gi និង Gj យោងតាមលក្ខណៈដែលបានជ្រើសរើស (F1, F2, F3, ..., Fр)។

មុខងារចម្ងាយដែលប្រើជាទូទៅបំផុតគឺ៖

1. ចម្ងាយអ៊ីក្លីដ d2(Хi , Хj) =

2. l1 - បទដ្ឋាន d1(Хi , Хj) =

3. កំពូល - បទដ្ឋាន d¥ (Хi , Хj) = sup

k = 1, 2, ... , ទំ

4. lp - norm dр(Хi, Хj) =

ម៉ែត្រ Euclidean គឺពេញនិយមបំផុត។ ម៉ែត្រ l1 គឺងាយស្រួលបំផុតក្នុងការគណនា។ supremum-norm ងាយស្រួលក្នុងការគណនា និងរួមបញ្ចូលនូវនិតិវិធីបញ្ជាទិញ ខណៈពេលដែល lp-norm គ្របដណ្តប់មុខងារចម្ងាយ 1, 2, 3, ។

អនុញ្ញាតឱ្យ n ការវាស់វែង X1, ​​X2, ..., Xn ត្រូវបានតំណាងជាម៉ាទ្រីសទិន្នន័យ p ´n៖

បន្ទាប់មកចម្ងាយរវាងគូនៃវ៉ិចទ័រ d (Хi , Хj) អាចត្រូវបានតំណាងជាម៉ាទ្រីសចម្ងាយស៊ីមេទ្រី៖

គំនិតផ្ទុយពីចម្ងាយគឺជាគំនិតនៃភាពស្រដៀងគ្នារវាងវត្ថុ Gi ។ និង Gj ។ អនុគមន៍ពិតដែលមិនអវិជ្ជមាន S(Хi ; Хj) = Sij ត្រូវបានគេហៅថារង្វាស់នៃភាពស្រដៀងគ្នាប្រសិនបើ៖

1) 0 £ S(Xi , Xj)<1 для Хi¹ Хj

2) S(Хi, Хi) = 1

3) S(Xi, Xj) = S(Xj, Xi)

គូនៃតម្លៃរង្វាស់ភាពស្រដៀងគ្នាអាចត្រូវបានបញ្ចូលគ្នាទៅក្នុងម៉ាទ្រីសស្រដៀងគ្នា៖

តម្លៃនៃ Sij ត្រូវបានគេហៅថាមេគុណភាពស្រដៀងគ្នា។

១.៣. វិធីសាស្រ្តនៃការវិភាគចង្កោម។

សព្វថ្ងៃនេះមានវិធីសាស្រ្តជាច្រើននៃការវិភាគចង្កោម។ អនុញ្ញាតឱ្យយើងរស់នៅលើពួកវាមួយចំនួន (វិធីសាស្រ្តដែលបានផ្តល់ឱ្យខាងក្រោមជាធម្មតាត្រូវបានគេហៅថាវិធីសាស្រ្តនៃការប្រែប្រួលអប្បបរមា) ។

ទុក X ជាម៉ាទ្រីសសង្កេត៖ X = (X1, X2,..., Xu) និងការ៉េនៃចម្ងាយ Euclidean រវាង Xi និង Xj ត្រូវបានកំណត់ដោយរូបមន្ត៖

1) វិធីសាស្រ្តនៃការតភ្ជាប់ពេញលេញ។

ខ្លឹមសារនៃវិធីសាស្រ្តនេះគឺថាវត្ថុពីរដែលជាកម្មសិទ្ធិរបស់ក្រុមដូចគ្នា (ចង្កោម) មានមេគុណភាពស្រដៀងគ្នាដែលតិចជាងតម្លៃកម្រិតជាក់លាក់ S. នៅក្នុងលក្ខខណ្ឌនៃ Euclidean distance d មានន័យថាចម្ងាយរវាងចំនុចពីរ (វត្ថុ) នៃចង្កោមមិនគួរលើសពីតម្លៃកម្រិតជាក់លាក់ h ។ ដូច្នេះ h កំណត់អង្កត់ផ្ចិតអតិបរមាដែលអាចអនុញ្ញាតបាននៃសំណុំរងដែលបង្កើតជាចង្កោម។

2) វិធីសាស្រ្តនៃចម្ងាយក្នុងស្រុកអតិបរមា។

វត្ថុនីមួយៗត្រូវបានចាត់ទុកថាជាចង្កោមមួយចំណុច។ វត្ថុត្រូវបានដាក់ជាក្រុមដោយយោងទៅតាមច្បាប់ខាងក្រោម៖ ចង្កោមពីរត្រូវបានបញ្ចូលគ្នា ប្រសិនបើចម្ងាយអតិបរមារវាងចំនុចនៃចង្កោមមួយ និងចំនុចនៃចង្កោមមួយទៀតគឺតិចតួចបំផុត។ នីតិវិធីមាន n - 1 ជំហាន និងលទ្ធផលនៅក្នុងភាគថាសដែលត្រូវគ្នានឹងភាគថាសដែលអាចធ្វើបានទាំងអស់នៅក្នុងវិធីមុនសម្រាប់តម្លៃកម្រិតចាប់ផ្ដើមណាមួយ។

3) វិធីសាស្រ្តពាក្យ។

នៅក្នុងវិធីនេះ ផលបូកនៃគម្លាតការេក្នុងក្រុមត្រូវបានប្រើជាមុខងារគោលបំណង ដែលគ្មានអ្វីលើសពីផលបូកនៃចម្ងាយការ៉េរវាងចំណុចនីមួយៗ (វត្ថុ) និងមធ្យមសម្រាប់ចង្កោមដែលមានវត្ថុនេះ។ នៅជំហាននីមួយៗ ចង្កោមពីរត្រូវបានបញ្ចូលគ្នា ដែលនាំទៅដល់ការកើនឡើងអប្បបរមានៃមុខងារគោលបំណង ពោលគឺឧ។ ផលបូកក្នុងក្រុមនៃការ៉េ។ វិធីសាស្រ្តនេះគឺមានគោលបំណងបញ្ចូលគ្នានូវចង្កោមដែលមានគម្លាតយ៉ាងជិតស្និទ្ធ។

4) វិធីសាស្រ្តកណ្តាល។

ចម្ងាយរវាងចង្កោមពីរត្រូវបានកំណត់ថាជាចម្ងាយ Euclidean រវាងមជ្ឈមណ្ឌល (មធ្យម) នៃចង្កោមទាំងនេះ៖

d2 ij = (`X – `Y)Т(`X–`Y) ចង្កោមដំណើរការមួយជំហានម្តងៗ នៅជំហាននីមួយៗនៃ n–1 ចង្កោមពីរ G និង p ដែលមានតម្លៃអប្បបរមា d2ij ត្រូវបានបញ្ចូលគ្នា។ ជួនកាលវិធីសាស្រ្តនេះជួនកាលត្រូវបានគេហៅថាវិធីសាស្រ្តនៃក្រុមទម្ងន់។

1.4 ក្បួនដោះស្រាយការចង្កោមតាមលំដាប់លំដោយ។

ពិចារណា Ι = (Ι1, Ι2, … Ιn) ជាសំណុំនៃចង្កោម (Ι1), (Ι2),…(Ιn)។ ចូរយើងជ្រើសរើសពួកវាពីរឧទាហរណ៍ Ι i និង Ι j ដែលក្នុងន័យខ្លះនៅជិតគ្នា ហើយបញ្ចូលពួកវាទៅក្នុងចង្កោមតែមួយ។ សំណុំ​ចង្កោម​ថ្មី​ដែល​មាន​ចង្កោម n-1 រួច​ហើយ​នឹង​មាន​ដូច​ជា៖

(Ι1), (Ι2)…, (Ι i, Ι j), …, (Ιn) ។

ដំណើរការឡើងវិញ យើងទទួលបានបណ្តុំបណ្តុំជាបន្តបន្ទាប់ដែលមាន (n-2), (n-3), (n-4) ជាដើម។ ចង្កោម។ នៅចុងបញ្ចប់នៃនីតិវិធី អ្នកអាចទទួលបានចង្កោមដែលមានវត្ថុ n ហើយស្របគ្នាជាមួយនឹងសំណុំដំបូង Ι = (Ι1, Ι2, … Ιn) ។

ជារង្វាស់នៃចម្ងាយ យើងយកការ៉េនៃម៉ែត្រ Euclidean di j2 ។ ហើយគណនាម៉ាទ្រីស D = (di j2) ដែល di j2 ជាការ៉េនៃចំងាយរវាង

អ៊ី ១ អ៊ី ២ អ៊ី ៣ …. អ៊ី
អ៊ី ១ 0 d122 d132 …. d1n2
អ៊ី ២ 0 d232 …. d2n2
អ៊ី ៣ 0 …. d3n2
…. …. ….
អ៊ី 0

សូមឱ្យចម្ងាយរវាង Ι i និង Ι j តិចបំផុត៖

di j2 = នាទី (di j2, i ¹ j) ។ ដោយមានជំនួយពី Ι i និង Ι j យើងបង្កើតចង្កោមថ្មីមួយ

(ខ្ញុំ, Ιj) ។ បង្កើតម៉ាទ្រីសចម្ងាយ ((n-1), (n-1)) ថ្មី។

(ខ្ញុំ , ច) អ៊ី ១ អ៊ី ២ អ៊ី ៣ …. អ៊ី
(ខ្ញុំ ; ខ្ញុំ j) 0 di j21 di j22 ឌី j23 …. ឌី j2n
អ៊ី ១ 0 d122 ឃ១៣ …. d12n
អ៊ី ២ 0 di j21 …. d2n
អ៊ី ៣ 0 …. d3n
អ៊ី 0

(n-2) ជួរ​ដេក​សម្រាប់​ម៉ាទ្រីស​ចុង​ក្រោយ​ត្រូវ​បាន​យក​ពី​ជួរ​មុន ហើយ​ជួរ​ទីមួយ​ត្រូវ​បាន​គណនា​ឡើង​វិញ។ ការគណនាអាចត្រូវបានកាត់បន្ថយទៅអប្បបរមាប្រសិនបើ di j2k, k = 1, 2,…, n អាចត្រូវបានបង្ហាញ; (k ¹ i ¹ j) តាមរយៈធាតុនៃម៉ាទ្រីសដើម។

ដំបូង ចម្ងាយត្រូវបានកំណត់ត្រឹមតែរវាងចង្កោមធាតុតែមួយប៉ុណ្ណោះ ប៉ុន្តែវាក៏ចាំបាច់ដើម្បីកំណត់ចម្ងាយរវាងចង្កោមដែលមានធាតុច្រើនជាងមួយ។ នេះអាចត្រូវបានធ្វើតាមវិធីផ្សេងៗ ហើយអាស្រ័យលើវិធីសាស្ត្រដែលបានជ្រើសរើស យើងទទួលបានក្បួនដោះស្រាយការវិភាគចង្កោមដែលមានលក្ខណៈសម្បត្តិខុសៗគ្នា។ ជាឧទាហរណ៍ គេអាចកំណត់ចម្ងាយរវាងចង្កោម i + j និងចង្កោម k មួយចំនួនទៀតស្មើនឹងមធ្យមនព្វន្ធនៃចម្ងាយរវាងចង្កោម i និង k និងចង្កោម j និង k:

di+j,k = ½ (di k + dj k) ។

ប៉ុន្តែគេក៏អាចកំណត់ di+j,k ជាអប្បបរមានៃចម្ងាយទាំងពីរនេះផងដែរ៖

di + j, k = min (di k + dj k) ។

ដូច្នេះជំហានដំបូងនៃប្រតិបត្តិការក្បួនដោះស្រាយឋានានុក្រម agglomeration ត្រូវបានពិពណ៌នា។ ជំហានបន្ទាប់គឺដូចគ្នា។

ថ្នាក់ធំទូលាយនៃក្បួនដោះស្រាយអាចទទួលបាន ប្រសិនបើរូបមន្តទូទៅខាងក្រោមត្រូវបានប្រើដើម្បីគណនាចម្ងាយឡើងវិញ៖

di+j,k = A(w) min(dik djk) + B(w) max(dik djk) ដែល

A(w) = ប្រសិនបើ dik £ djk

A(w) = ប្រសិនបើ dik > djk

B(w) = ប្រសិនបើ dik £ djk

B(w) = ប្រសិនបើ dik > djk

ដែល ni និង nj ជាចំនួនធាតុនៅក្នុងចង្កោម i និង j ហើយ w គឺជាប៉ារ៉ាម៉ែត្រឥតគិតថ្លៃ ជម្រើសដែលកំណត់ក្បួនដោះស្រាយជាក់លាក់មួយ។ ឧទាហរណ៍ជាមួយ w = 1 យើងទទួលបានអ្វីដែលគេហៅថា "ការតភ្ជាប់មធ្យម" ក្បួនដោះស្រាយ ដែលរូបមន្តសម្រាប់គណនាចម្ងាយឡើងវិញមានទម្រង់៖

di+j,k=

ក្នុងករណីនេះ ចម្ងាយរវាងចង្កោមពីរនៅជំហាននីមួយៗនៃក្បួនដោះស្រាយប្រែថាស្មើនឹងមធ្យមនព្វន្ធនៃចម្ងាយរវាងគូនៃធាតុទាំងអស់ ដូចជាធាតុមួយរបស់គូជារបស់ចង្កោមមួយ មួយទៀតទៅមួយទៀត។

អត្ថន័យដែលមើលឃើញនៃប៉ារ៉ាម៉ែត្រ w កាន់តែច្បាស់ប្រសិនបើយើងដាក់w®¥។ រូបមន្តបំប្លែងចម្ងាយមានទម្រង់៖

di+j,k = min(di,k djk)

នេះ​នឹង​ជា​អ្វី​ដែល​ហៅ​ថា​ក្បួន​ដោះស្រាយ "អ្នកជិតខាង​ជិត​បំផុត" ដែល​អនុញ្ញាត​ឱ្យ​អ្នក​ជ្រើសរើស​ចង្កោម​នៃ​រាង​ស្មុគ្រ​ស្មាញ ដោយ​ផ្តល់​ថា​ផ្នែក​ផ្សេង​គ្នា​នៃ​ចង្កោម​បែប​នេះ​ត្រូវ​បាន​តភ្ជាប់​ដោយ​ច្រវាក់​ធាតុ​នៅ​ជិត​គ្នា។ ក្នុងករណីនេះ ចម្ងាយរវាងចង្កោមពីរនៅជំហាននីមួយៗនៃក្បួនដោះស្រាយ ប្រែថាស្មើនឹងចម្ងាយរវាងធាតុជិតបំផុតទាំងពីរដែលជាកម្មសិទ្ធិរបស់ចង្កោមទាំងពីរនេះ។

ជារឿយៗវាត្រូវបានសន្មត់ថាចម្ងាយដំបូង (ភាពខុសគ្នា) រវាងធាតុដែលបានដាក់ជាក្រុមត្រូវបានផ្តល់ឱ្យ។ ក្នុងករណីខ្លះនេះជាការពិត។ ទោះជាយ៉ាងណាក៏ដោយមានតែវត្ថុនិងលក្ខណៈរបស់ពួកគេប៉ុណ្ណោះដែលត្រូវបានបញ្ជាក់ហើយម៉ាទ្រីសចម្ងាយត្រូវបានបង្កើតឡើងដោយផ្អែកលើទិន្នន័យទាំងនេះ។ អាស្រ័យលើថាតើចម្ងាយរវាងវត្ថុ ឬរវាងលក្ខណៈរបស់វត្ថុត្រូវបានគណនា វិធីសាស្ត្រផ្សេងៗត្រូវបានប្រើប្រាស់។

ក្នុង​ករណី​នៃ​ការ​វិភាគ​ចង្កោម​នៃ​វត្ថុ រង្វាស់​ទូទៅ​នៃ​ភាព​ខុស​គ្នា​គឺ​ជា​ការ​ការ៉េ​នៃ​ចម្ងាយ​អឺគ្លីដ។

(ដែល xih, xjh គឺជាតម្លៃនៃគុណលក្ខណៈ h-th សម្រាប់វត្ថុ i-th និង j-th ហើយ m គឺជាចំនួននៃលក្ខណៈ) ឬចម្ងាយ Euclidean ខ្លួនវាផ្ទាល់។ ប្រសិនបើលក្ខណៈពិសេសត្រូវបានកំណត់ទម្ងន់ខុសៗគ្នានោះទម្ងន់ទាំងនេះអាចត្រូវបានយកមកពិចារណានៅពេលគណនាចម្ងាយ

ពេលខ្លះចម្ងាយត្រូវបានប្រើជារង្វាស់នៃភាពខុសគ្នា គណនាដោយរូបមន្ត៖

ដែលត្រូវបានគេហៅថា: "ហាំមីង", "ម៉ាន់ហាតាន់" ឬ "ប្លុកទីក្រុង" ចម្ងាយ។

រង្វាស់ធម្មជាតិនៃភាពស្រដៀងគ្នានៃលក្ខណៈវត្ថុនៅក្នុងបញ្ហាជាច្រើនគឺមេគុណទំនាក់ទំនងរវាងពួកវា

ដែល mi ,mj ,di ,dj គឺជាគម្លាតមធ្យម និងឫស-មធ្យម-ការ៉េ សម្រាប់លក្ខណៈ i និង j រៀងគ្នា។ តម្លៃ 1 - r អាចដើរតួជារង្វាស់នៃភាពខុសគ្នារវាងលក្ខណៈ។ នៅក្នុងបញ្ហាមួយចំនួន សញ្ញានៃមេគុណទំនាក់ទំនងគឺមិនសំខាន់ ហើយអាស្រ័យតែលើជម្រើសនៃឯកតារង្វាស់ប៉ុណ្ណោះ។ ក្នុងករណីនេះ ô1 - ri j ô ត្រូវបានប្រើជារង្វាស់នៃភាពខុសគ្នារវាងលក្ខណៈ

1.5 ចំនួនចង្កោម។

បញ្ហាសំខាន់មួយគឺបញ្ហានៃការជ្រើសរើសចំនួនក្រុមដែលត្រូវការ។ ពេលខ្លះចំនួន m នៃចង្កោមអាចត្រូវបានជ្រើសរើសជាអាទិភាព។ ទោះយ៉ាងណាក៏ដោយក្នុងករណីទូទៅចំនួននេះត្រូវបានកំណត់នៅក្នុងដំណើរការនៃការបំបែកសំណុំទៅជាចង្កោម។

ការសិក្សាត្រូវបានអនុវត្តដោយ Fortier និង Solomon ហើយវាត្រូវបានគេរកឃើញថាចំនួននៃចង្កោមត្រូវតែត្រូវបានយកទៅដើម្បីសម្រេចបាននូវប្រូបាប៊ីលីតេដែលភាគថាសល្អបំផុតត្រូវបានរកឃើញ។ ដូច្នេះ ចំនួនភាគល្អិតល្អបំផុតគឺជាមុខងារនៃប្រភាគ b ដែលល្អបំផុត ឬក្នុងន័យខ្លះ ភាគថាសដែលអាចធ្វើបាននៅក្នុងសំណុំនៃភាគដែលអាចធ្វើបានទាំងអស់។ ការខ្ចាត់ខ្ចាយសរុបនឹងកាន់តែធំ ប្រភាគ b នៃភាគថាសដែលអាចទទួលយកបានកាន់តែខ្ពស់។ Fortier និង Solomon បានបង្កើតតារាងមួយដែលមនុស្សម្នាក់អាចស្វែងរកចំនួនភាគថាសដែលត្រូវការ។ S(a,b) អាស្រ័យលើ a និង b (ដែល a គឺជាប្រូបាប៊ីលីតេដែលភាគថាសល្អបំផុតត្រូវបានរកឃើញ b គឺជាសមាមាត្រនៃភាគថាសល្អបំផុតនៅក្នុងចំនួនសរុបនៃភាគថាស) លើសពីនេះទៅទៀត ក្នុងនាមជារង្វាស់នៃភាពដូចគ្នា មិនមែនជារង្វាស់នៃការខ្ចាត់ខ្ចាយត្រូវបានប្រើទេ ប៉ុន្តែវិធានការសមាជិកភាពដែលណែនាំដោយ Holzenger និង Harman ។ តារាងនៃតម្លៃ S(a,b) ត្រូវបានផ្តល់ឱ្យខាងក្រោម។

តារាងតម្លៃ S(a,b)

b\a 0.20 0.10 0.05 0.01 0.001 0.0001
0.20 8 11 14 21 31 42
0.10 16 22 29 44 66 88
0.05 32 45 59 90 135 180
0.01 161 230 299 459 689 918
0.001 1626 2326 3026 4652 6977 9303
0.0001 17475 25000 32526 55000 75000 100000

ជាញឹកញាប់ លក្ខណៈវិនិច្ឆ័យសម្រាប់ការបញ្ចូលគ្នា (ចំនួនចង្កោម) គឺជាការផ្លាស់ប្តូរមុខងារដែលត្រូវគ្នា។ ឧទាហរណ៍ ផលបូកនៃគម្លាតការ៉េ៖

ដំណើរការដាក់ជាក្រុមគួរតែត្រូវគ្នានៅទីនេះទៅនឹងការកើនឡើងអប្បរមាស្របគ្នានៃតម្លៃនៃលក្ខណៈវិនិច្ឆ័យ E. វត្តមាននៃការលោតយ៉ាងខ្លាំងនៃតម្លៃ E អាចត្រូវបានបកស្រាយថាជាលក្ខណៈនៃចំនួនចង្កោមដែលមានគោលបំណងនៅក្នុងចំនួនប្រជាជនដែលកំពុងសិក្សា។

ដូច្នេះ វិធីទីពីរដើម្បីកំណត់ចំនួនចង្កោមល្អបំផុតគឺដើម្បីកំណត់ការលោតដែលបានកំណត់ដោយការផ្លាស់ប្តូរដំណាក់កាលពីគូខ្លាំងទៅស្ថានភាពគូខ្សោយនៃវត្ថុ។

1.6 Dendograms ។

វិធីសាស្រ្តដែលគេស្គាល់ល្អបំផុតក្នុងការតំណាងឱ្យម៉ាទ្រីសចម្ងាយឬភាពស្រដៀងគ្នាគឺផ្អែកលើគំនិតនៃ dendogram ឬដ្យាក្រាមដើមឈើ។ Dendogram អាច​ត្រូវ​បាន​កំណត់​ថា​ជា​តំណាង​ក្រាហ្វិក​នៃ​លទ្ធផល​នៃ​ដំណើរ​ការ​ចង្កោម​បន្តបន្ទាប់​គ្នា​ដែល​ត្រូវ​បាន​អនុវត្ត​ក្នុង​លក្ខខណ្ឌ​នៃ​ម៉ាទ្រីស​ចម្ងាយ។ ដោយមានជំនួយពី dendogram វាអាចធ្វើទៅបានដើម្បីបង្ហាញជាក្រាហ្វិក ឬធរណីមាត្រនៃដំណើរការចង្កោម ដោយផ្តល់ថានីតិវិធីនេះដំណើរការតែជាមួយធាតុនៃម៉ាទ្រីសចម្ងាយ ឬភាពស្រដៀងគ្នាប៉ុណ្ណោះ។

មានវិធីជាច្រើនក្នុងការសាងសង់ dendrography ។ នៅក្នុង dendrogram វត្ថុមានទីតាំងនៅបញ្ឈរនៅខាងឆ្វេង លទ្ធផលចង្កោមនៅខាងស្តាំ។ តម្លៃចម្ងាយ ឬភាពស្រដៀងគ្នាដែលត្រូវគ្នាទៅនឹងរចនាសម្ព័ន្ធនៃចង្កោមថ្មីត្រូវបានបង្ហាញតាមបន្ទាត់ត្រង់ផ្ដេកលើ dendrograms ។

រូបភាពទី 1 បង្ហាញឧទាហរណ៍មួយនៃ dendogram ។ រូបភាពទី 1 ទាក់ទងទៅនឹងករណីនៃវត្ថុប្រាំមួយ (n = 6) និងលក្ខណៈ k (លក្ខណៈ) ។ វត្ថុ A និង C គឺនៅជិតបំផុត ដូច្នេះហើយត្រូវបានបញ្ចូលគ្នាជាចង្កោមតែមួយនៅកម្រិតជិតស្មើ 0.9 ។ វត្ថុ D និង E ត្រូវបានបញ្ចូលគ្នានៅកម្រិត 0.8 ។ ឥឡូវនេះយើងមាន 4 ក្រុម៖

ប្រភេទនៃ dendogram អាស្រ័យលើជម្រើសនៃរង្វាស់ភាពស្រដៀងគ្នា ឬចម្ងាយរវាងវត្ថុ និងចង្កោម និងវិធីសាស្ត្រចង្កោម។ ចំណុចសំខាន់បំផុតគឺការជ្រើសរើសរង្វាស់នៃភាពស្រដៀងគ្នា ឬរង្វាស់ចម្ងាយរវាងវត្ថុមួយ និងចង្កោម។

ចំនួននៃក្បួនដោះស្រាយការវិភាគចង្កោមគឺធំពេក។ ពួកវាទាំងអស់អាចបែងចែកជាឋានានុក្រមនិងមិនឋានានុក្រម។

ក្បួនដោះស្រាយឋានានុក្រមត្រូវបានផ្សារភ្ជាប់ជាមួយនឹងការសាងសង់ dendograms ហើយត្រូវបានបែងចែកទៅជា:

ក) agglomerative កំណត់លក្ខណៈដោយការរួមបញ្ចូលគ្នាស្របគ្នានៃធាតុដំបូង និងការថយចុះដែលត្រូវគ្នានៃចំនួនចង្កោម។

ខ) បែងចែក (បែងចែក) ដែលចំនួននៃចង្កោមកើនឡើង ដោយចាប់ផ្តើមពីមួយ ដែលជាលទ្ធផលនៃលំដាប់នៃក្រុមបំបែកត្រូវបានបង្កើតឡើង។

ក្បួនដោះស្រាយការវិភាគចង្កោមថ្ងៃនេះមានការអនុវត្តកម្មវិធីដ៏ល្អដែលអនុញ្ញាតឱ្យដោះស្រាយបញ្ហានៃវិមាត្រខ្ពស់បំផុត។

1.7 ទិន្នន័យ

ការវិភាគចង្កោមអាចត្រូវបានអនុវត្តចំពោះទិន្នន័យចន្លោះពេល ប្រេកង់ ទិន្នន័យគោលពីរ។ វាមានសារៈសំខាន់ដែលអថេរផ្លាស់ប្តូរនៅលើមាត្រដ្ឋានប្រៀបធៀប។

ភាពខុសប្រក្រតីនៃឯកតារង្វាស់ និងភាពមិនអាចទៅរួចនៃការបញ្ចេញមតិសមហេតុផលនៃតម្លៃនៃសូចនាករផ្សេងៗនៅលើមាត្រដ្ឋានដូចគ្នា នាំឱ្យការពិតដែលថាចម្ងាយរវាងចំណុចដែលឆ្លុះបញ្ចាំងពីទីតាំងរបស់វត្ថុក្នុងលំហនៃលក្ខណៈសម្បត្តិរបស់វា ប្រែថាអាស្រ័យលើមាត្រដ្ឋានដែលបានជ្រើសរើសតាមអំពើចិត្ត។ ដើម្បីលុបបំបាត់ភាពខុសធម្មតានៃការវាស់វែងនៃទិន្នន័យដំបូងតម្លៃទាំងអស់របស់ពួកគេត្រូវបានធ្វើឱ្យមានលក្ខណៈធម្មតាជាមុនពោលគឺឧ។ ត្រូវបានបញ្ជាក់តាមរយៈសមាមាត្រនៃតម្លៃទាំងនេះទៅនឹងតម្លៃជាក់លាក់មួយដែលឆ្លុះបញ្ចាំងពីលក្ខណៈសម្បត្តិជាក់លាក់នៃសូចនាករនេះ។ ការធ្វើឱ្យធម្មតានៃទិន្នន័យដំបូងសម្រាប់ការវិភាគចង្កោម ជួនកាលត្រូវបានអនុវត្តដោយការបែងចែកតម្លៃដំបូងដោយគម្លាតស្តង់ដារនៃសូចនាករដែលត្រូវគ្នា។ វិធីមួយទៀតគឺត្រូវគណនាការរួមចំណែកតាមស្តង់ដារ។ វាត្រូវបានគេហៅផងដែរថាការរួមចំណែក Z ។

ការរួមចំណែក z បង្ហាញពីចំនួនគម្លាតស្តង់ដារដែលការសង្កេតដែលបានផ្តល់ឱ្យដាច់ដោយឡែកពីមធ្យម៖

ដែល xi ជា​តម្លៃ​នៃ​ការ​សង្កេត​នេះ គឺ​ជា​មធ្យម S ជា​គម្លាត​ស្តង់ដារ។

មធ្យមសម្រាប់ការរួមចំណែក Z គឺសូន្យ ហើយគម្លាតស្តង់ដារគឺ 1 ។

ស្តង់ដារអនុញ្ញាតឱ្យមានការប្រៀបធៀបការសង្កេតពីការចែកចាយផ្សេងៗគ្នា។ ប្រសិនបើការចែកចាយអថេរគឺធម្មតា (ឬជិតនឹងធម្មតា) ហើយមធ្យម និងបំរែបំរួលត្រូវបានគេស្គាល់ ឬប៉ាន់ប្រមាណពីគំរូធំៗ នោះការរួមចំណែក Z នៃការសង្កេតផ្តល់ព័ត៌មានជាក់លាក់បន្ថែមទៀតអំពីទីតាំងរបស់វា។

ចំណាំថា វិធីសាស្រ្តធម្មតាមានន័យថាការទទួលស្គាល់លក្ខណៈពិសេសទាំងអស់ដែលស្មើនឹងពីទស្សនៈនៃការបំភ្លឺភាពស្រដៀងគ្នានៃវត្ថុដែលកំពុងពិចារណា។ វាត្រូវបានគេកត់សម្គាល់រួចហើយថាទាក់ទងនឹងសេដ្ឋកិច្ចការទទួលស្គាល់សមមូលនៃសូចនាករផ្សេងៗមិនតែងតែហាក់ដូចជាសមហេតុផលទេ។ វាជាការចង់បាន រួមជាមួយនឹងការធ្វើឱ្យមានលក្ខណៈធម្មតា ដើម្បីផ្តល់ឱ្យសូចនាករនីមួយៗនូវទម្ងន់ដែលឆ្លុះបញ្ចាំងពីសារៈសំខាន់របស់វានៅក្នុងដំណើរការនៃការបង្កើតភាពស្រដៀងគ្នា និងភាពខុសគ្នារវាងវត្ថុ។

ក្នុងស្ថានភាពនេះមនុស្សម្នាក់ត្រូវងាកទៅរកវិធីសាស្រ្តនៃការកំណត់ទម្ងន់នៃសូចនាករបុគ្គល - ការស្ទង់មតិរបស់អ្នកជំនាញ។ ជាឧទាហរណ៍ នៅពេលដោះស្រាយបញ្ហានៃការចាត់ថ្នាក់ប្រទេសតាមកម្រិតនៃការអភិវឌ្ឍន៍សេដ្ឋកិច្ច យើងបានប្រើប្រាស់លទ្ធផលនៃការស្ទង់មតិរបស់អ្នកជំនាញនាំមុខគេនៅទីក្រុងមូស្គូចំនួន 40 លើបញ្ហានៃប្រទេសអភិវឌ្ឍន៍តាមមាត្រដ្ឋានដប់ចំណុច៖

សូចនាករទូទៅនៃការអភិវឌ្ឍន៍សេដ្ឋកិច្ចសង្គម - ៩ ពិន្ទុ;

សូចនាករនៃការបែងចែកតាមវិស័យនៃចំនួនប្រជាជនដែលមានការងារធ្វើ - 7 ពិន្ទុ;

សូចនាករនៃអត្រាប្រេវ៉ាឡង់នៃការងារជួល - 6 ពិន្ទុ;

សូចនាករកំណត់លក្ខណៈរបស់មនុស្សនៃកម្លាំងផលិតភាព - 6 ពិន្ទុ;

សូចនាករនៃការអភិវឌ្ឍនៃកម្លាំងផលិតភាពសម្ភារៈ - 8 ពិន្ទុ;

សូចនាករនៃការចំណាយសាធារណៈ - 4 ពិន្ទុ;

សូចនាករ "សេដ្ឋកិច្ចយោធា" - 3 ពិន្ទុ;

សូចនាករសង្គម - ប្រជាសាស្ត្រ - ៤ ពិន្ទុ។

ការប៉ាន់ស្មានរបស់អ្នកជំនាញមានស្ថេរភាព។

ការវាយតម្លៃរបស់អ្នកជំនាញផ្តល់នូវមូលដ្ឋានដ៏ល្បីមួយសម្រាប់កំណត់សារៈសំខាន់នៃសូចនាករដែលរួមបញ្ចូលនៅក្នុងក្រុមជាក់លាក់នៃសូចនាករ។ ការគុណតម្លៃធម្មតានៃសូចនាករដោយមេគុណដែលត្រូវគ្នានឹងពិន្ទុវាយតម្លៃជាមធ្យមធ្វើឱ្យវាអាចគណនាចម្ងាយរវាងពិន្ទុដែលឆ្លុះបញ្ចាំងពីទីតាំងនៃប្រទេសក្នុងលំហពហុវិមាត្រដោយគិតគូរពីទម្ងន់មិនស្មើគ្នានៃលក្ខណៈពិសេសរបស់ពួកគេ។

ជាញឹកញាប់នៅពេលដោះស្រាយបញ្ហាបែបនេះ មិនមែនមួយទេ ប៉ុន្តែការគណនាពីរត្រូវបានប្រើ៖ ទីមួយ ដែលសញ្ញាទាំងអស់ត្រូវបានចាត់ទុកថាសមមូល ទីពីរ ដែលពួកគេត្រូវបានគេផ្តល់ទម្ងន់ខុសៗគ្នា ស្របតាមតម្លៃមធ្យមនៃការប៉ាន់ស្មានរបស់អ្នកជំនាញ។

១.៨. ការអនុវត្តការវិភាគចង្កោម។

ចូរយើងពិចារណាកម្មវិធីមួយចំនួននៃការវិភាគចង្កោម។

ការបែងចែកប្រទេសជាក្រុមទៅតាមកម្រិតនៃការអភិវឌ្ឍន៍។

ប្រទេសចំនួន 65 ត្រូវបានសិក្សាដោយយោងតាមសូចនាករចំនួន 31 (ប្រាក់ចំណូលជាតិសម្រាប់មនុស្សម្នាក់ៗ ចំណែកនៃចំនួនប្រជាជនដែលធ្វើការក្នុងឧស្សាហកម្មគិតជា% ប្រាក់សន្សំសម្រាប់មនុស្សម្នាក់ៗ ចំណែកនៃចំនួនប្រជាជនដែលធ្វើការក្នុងវិស័យកសិកម្មគិតជា% អាយុកាលជាមធ្យម ចំនួនរថយន្តក្នុងប្រជាជន 1 ពាន់នាក់ ចំនួនកងកម្លាំងប្រដាប់អាវុធក្នុងប្រជាជន 1 លាននាក់ ចំណែកនៃ GDP នៅក្នុងឧស្សាហកម្ម។ ល។ ) ។

ប្រទេសនីមួយៗធ្វើសកម្មភាពក្នុងការពិចារណានេះជាវត្ថុដែលកំណត់ដោយតម្លៃជាក់លាក់នៃ 31 សូចនាករ។ ដូច្នោះហើយ ពួកវាអាចត្រូវបានតំណាងជាចំណុចក្នុងចន្លោះ 31 វិមាត្រ។ លំហបែបនេះជាធម្មតាត្រូវបានគេហៅថាលំហទ្រព្យសម្បត្តិនៃវត្ថុដែលកំពុងសិក្សា។ ការប្រៀបធៀបចម្ងាយរវាងចំណុចទាំងនេះនឹងឆ្លុះបញ្ចាំងពីកម្រិតនៃភាពជិតនៃប្រទេសដែលកំពុងពិចារណា ភាពស្រដៀងគ្នារបស់ពួកគេចំពោះគ្នាទៅវិញទៅមក។ អត្ថន័យសេដ្ឋកិច្ចសង្គមនៃការយល់ដឹងអំពីភាពស្រដៀងគ្នានេះមានន័យថាប្រទេសត្រូវបានចាត់ទុកថាស្រដៀងគ្នាកាន់តែច្រើន ភាពខុសគ្នាកាន់តែតូចរវាងសូចនាករដូចគ្នាដែលពួកគេត្រូវបានពិពណ៌នា។

ជំហានដំបូងនៃការវិភាគបែបនេះគឺដើម្បីកំណត់អត្តសញ្ញាណគូនៃសេដ្ឋកិច្ចជាតិដែលរួមបញ្ចូលក្នុងម៉ាទ្រីសស្រដៀងគ្នា ចម្ងាយរវាងដែលតូចជាងគេ។ ទាំងនេះនឹងច្បាស់ជាសេដ្ឋកិច្ចស្រដៀងគ្នា និងស្រដៀងគ្នាបំផុត។ ក្នុង​ការ​ពិចារណា​ខាង​ក្រោម ប្រទេស​ទាំង​ពីរ​ត្រូវ​បាន​គេ​ចាត់​ទុក​ជា​ក្រុម​តែ​មួយ ចង្កោម​តែ​មួយ។ ដូច្នោះហើយម៉ាទ្រីសដើមត្រូវបានផ្លាស់ប្តូរដូច្នេះធាតុរបស់វាមានចម្ងាយរវាងគូដែលអាចធ្វើបានទាំងអស់មិនមែន 65 ទេប៉ុន្តែវត្ថុ 64 - សេដ្ឋកិច្ច 63 និងចង្កោមដែលបានផ្លាស់ប្តូរថ្មី - សហជីពតាមលក្ខខណ្ឌនៃប្រទេសស្រដៀងគ្នាបំផុតទាំងពីរ។ ជួរដេក និងជួរឈរដែលត្រូវគ្នាទៅនឹងចម្ងាយពីប្រទេសមួយគូដែលរួមបញ្ចូលនៅក្នុងសហជីពទៅប្រទេសផ្សេងទៀតទាំងអស់ត្រូវបានបោះបង់ចោលពីម៉ាទ្រីសស្រដៀងគ្នាដើម ប៉ុន្តែជួរដេក និងជួរឈរត្រូវបានបន្ថែមដែលមានចម្ងាយរវាងចង្កោមដែលទទួលបានដោយសហជីព និងប្រទេសផ្សេងទៀត។

ចម្ងាយរវាងចង្កោមដែលទទួលបានថ្មី និងប្រទេសត្រូវបានសន្មត់ថាស្មើនឹងមធ្យមនៃចម្ងាយរវាងក្រុមចុងក្រោយ និងប្រទេសទាំងពីរដែលបង្កើតបានជាចង្កោមថ្មី។ ម្យ៉ាងវិញទៀត ក្រុមប្រទេសដែលរួមបញ្ចូលគ្នាត្រូវបានចាត់ទុកជារួមជាមួយនឹងលក្ខណៈប្រហែលស្មើនឹងមធ្យមនៃលក្ខណៈនៃប្រទេសដែលមានធាតុផ្សំរបស់ខ្លួន។

ជំហានទីពីរនៃការវិភាគគឺត្រូវពិចារណាម៉ាទ្រីសដែលបានបំប្លែងតាមរបៀបនេះដោយមាន 64 ជួរ និងជួរឈរ។ ជា​ថ្មី​ម្តង​ទៀត សេដ្ឋកិច្ច​គូ​មួយ​ត្រូវ​បាន​កំណត់​អត្តសញ្ញាណ ចម្ងាយ​រវាង​ដែល​មាន​សារៈ​សំខាន់​តិច​ជាង​គេ ហើយ​ក៏​ដូច​ជា​ករណី​ទី​មួយ​ដែរ ត្រូវ​បាន​នាំ​មក​ជាមួយ​គ្នា។ ក្នុងករណីនេះ ចម្ងាយតូចបំផុតអាចជារវាងប្រទេសមួយគូ និងរវាងប្រទេសណាមួយ និងសហភាពនៃប្រទេសដែលទទួលបាននៅដំណាក់កាលមុន។

នីតិវិធីបន្ថែមទៀតគឺស្រដៀងគ្នាទៅនឹងអ្វីដែលបានពិពណ៌នាខាងលើ: នៅដំណាក់កាលនីមួយៗម៉ាទ្រីសត្រូវបានផ្លាស់ប្តូរដូច្នេះជួរឈរពីរនិងជួរពីរដែលមានចម្ងាយទៅវត្ថុ (គូនៃប្រទេសឬសមាគម - ចង្កោម) ដែលនាំមកជាមួយគ្នានៅដំណាក់កាលមុនត្រូវបានដកចេញពីវា; ជួរ​ដេក និង​ជួរ​ឈរ​ដែល​មិន​រាប់​បញ្ចូល​ត្រូវ​បាន​ជំនួស​ដោយ​ជួរ​ឈរ​និង​ជួរ​ដេក​ដែល​មាន​ចម្ងាយ​ពី​ការ​ភ្ជាប់​ថ្មី​ទៅ​លក្ខណៈ​ពិសេស​ដែល​នៅ​សល់។ បន្ថែមទៀត នៅក្នុងម៉ាទ្រីសដែលបានកែប្រែ គូនៃវត្ថុជិតបំផុតត្រូវបានបង្ហាញ។ ការវិភាគបន្តរហូតដល់ការហត់នឿយពេញលេញនៃម៉ាទ្រីស (ពោលគឺរហូតដល់ប្រទេសទាំងអស់ត្រូវបានបញ្ចូលគ្នា)។ លទ្ធផលទូទៅនៃការវិភាគម៉ាទ្រីសអាចត្រូវបានតំណាងក្នុងទម្រង់នៃមែកធាងភាពស្រដៀងគ្នា (dendogram) ស្រដៀងនឹងអ្វីដែលបានពិពណ៌នាខាងលើ ជាមួយនឹងភាពខុសគ្នាតែមួយគត់ដែលមែកធាងភាពស្រដៀងគ្នាដែលឆ្លុះបញ្ចាំងពីភាពជិតគ្នានៃប្រទេសទាំង 65 ដែលយើងកំពុងពិចារណាគឺមានភាពស្មុគស្មាញជាងគ្រោងការណ៍ដែលមានតែសេដ្ឋកិច្ចជាតិចំនួនប្រាំប៉ុណ្ណោះ។ មែកធាងនេះរួមបញ្ចូលទាំង 65 កម្រិតយោងទៅតាមចំនួនវត្ថុដែលត្រូវគ្នា។ កម្រិតទីមួយ (ទាបជាង) មានចំណុចដែលត្រូវគ្នាទៅនឹងប្រទេសនីមួយៗដាច់ដោយឡែកពីគ្នា។ ការតភ្ជាប់នៃចំណុចទាំងពីរនេះនៅកម្រិតទីពីរបង្ហាញពីប្រទេសមួយគូដែលនៅជិតបំផុតក្នុងលក្ខខណ្ឌនៃប្រភេទទូទៅនៃសេដ្ឋកិច្ចជាតិ។ នៅកម្រិតទីបី សមាមាត្រគូនៃប្រទេសស្រដៀងគ្នាបន្ទាប់ទៀតត្រូវបានកត់សម្គាល់ (ដូចដែលបានបញ្ជាក់រួចមកហើយ ទាំងគូនៃប្រទេសថ្មី ឬប្រទេសថ្មី និងគូនៃប្រទេសស្រដៀងគ្នាដែលបានកំណត់រួចហើយអាចស្ថិតនៅក្នុងសមាមាត្រនេះ)។ ដូច្នេះហើយរហូតដល់កម្រិតចុងក្រោយ ដែលប្រទេសដែលបានសិក្សាទាំងអស់ដើរតួជាសំណុំតែមួយ។

ជាលទ្ធផលនៃការអនុវត្តការវិភាគចង្កោម ប្រទេសចំនួនប្រាំខាងក្រោមត្រូវបានទទួល៖

ក្រុម Afro-Asian;

ក្រុម Latino-Asian;

ក្រុមឡាតាំង - មេឌីទែរ៉ាណេ;

ក្រុមប្រទេសមូលធននិយមអភិវឌ្ឍន៍ (ដោយគ្មានសហរដ្ឋអាមេរិក)

ការណែនាំអំពីសូចនាករថ្មីលើសពីសូចនាករទាំង 31 ដែលប្រើនៅទីនេះ ឬការជំនួសដោយអ្នកផ្សេងទៀត នាំទៅរកការផ្លាស់ប្តូរលទ្ធផលនៃចំណាត់ថ្នាក់ប្រទេស។

2. ការបែងចែកប្រទេសតាមលក្ខណៈវិនិច្ឆ័យនៃភាពជិតនៃវប្បធម៌។

ដូចដែលអ្នកបានដឹងហើយថាទីផ្សារត្រូវតែគិតគូរពីវប្បធម៌នៃប្រទេស (ទំនៀមទម្លាប់ប្រពៃណី។ ល។ ) ។

ក្រុមប្រទេសខាងក្រោមត្រូវបានទទួលតាមរយៈការចង្កោម៖

ភាសាអារ៉ាប់;

មជ្ឈិមបូព៌ា;

ស្កាតឌីណាវៀន;

និយាយភាសាអាឡឺម៉ង់;

ការ​និយាយ​ភាសាអង់គ្លេស;

Romanesque អឺរ៉ុប;

អាមេរិកឡាទីន;

ចុងបូព៌ា។

3. ការអភិវឌ្ឍន៍ការព្យាករណ៍ទីផ្សារស័ង្កសី។

ការវិភាគចង្កោមដើរតួនាទីយ៉ាងសំខាន់នៅដំណាក់កាលនៃការកាត់បន្ថយគំរូសេដ្ឋកិច្ច និងគណិតវិទ្យានៃការភ្ជាប់ទំនិញ រួមចំណែកដល់ការសម្របសម្រួល និងភាពងាយស្រួលនៃនីតិវិធីគណនា ធានាការបង្រួមធំនៃលទ្ធផលដែលទទួលបាន ខណៈពេលដែលរក្សាបាននូវភាពត្រឹមត្រូវដែលត្រូវការ។ ការប្រើប្រាស់ការវិភាគចង្កោមធ្វើឱ្យវាអាចបែងចែកសំណុំដំបូងនៃសូចនាករទីផ្សារទៅជាក្រុម (ចង្កោម) យោងទៅតាមលក្ខណៈវិនិច្ឆ័យដែលពាក់ព័ន្ធ ដោយហេតុនេះជួយសម្រួលដល់ការជ្រើសរើសសូចនាករតំណាងច្រើនបំផុត។

ការវិភាគចង្កោមត្រូវបានប្រើយ៉ាងទូលំទូលាយដើម្បីធ្វើគំរូលក្ខខណ្ឌទីផ្សារ។ នៅក្នុងការអនុវត្ត កិច្ចការព្យាករណ៍ភាគច្រើនគឺផ្អែកលើការប្រើប្រាស់ការវិភាគចង្កោម។

ឧទាហរណ៍ភារកិច្ចបង្កើតការព្យាករណ៍នៃទីផ្សារស័ង្កសី។

ដំបូង សូចនាករសំខាន់ៗចំនួន 30 នៃទីផ្សារស័ង្កសីសកលត្រូវបានជ្រើសរើស៖

X1 - ពេលវេលា

តួលេខផលិតកម្ម៖

X2 - នៅលើពិភពលោក

X4 - អឺរ៉ុប

X5 - ប្រទេសកាណាដា

X6 - ប្រទេសជប៉ុន

X7 - អូស្ត្រាលី

សូចនាករនៃការប្រើប្រាស់៖

X8 - នៅលើពិភពលោក

X10 - អឺរ៉ុប

X11 - ប្រទេសកាណាដា

X12 - ប្រទេសជប៉ុន

X13 - អូស្ត្រាលី

ស្តុកស័ង្កសីរបស់អ្នកផលិត៖

X14 - នៅលើពិភពលោក

X16 - អឺរ៉ុប

X17 - ប្រទេសផ្សេងទៀត។

ស្តុកស័ង្កសីសម្រាប់អ្នកប្រើប្រាស់៖

X18 - នៅសហរដ្ឋអាមេរិក

X19 - នៅប្រទេសអង់គ្លេស

X10 - នៅប្រទេសជប៉ុន

ការ​នាំ​ចូល​រ៉ែ​ស័ង្កសី និង​កំហាប់ (ពាន់​តោន)

X21 - នៅសហរដ្ឋអាមេរិក

X22 - នៅប្រទេសជប៉ុន

X23 - នៅប្រទេសអាឡឺម៉ង់

ការនាំចេញរ៉ែស័ង្កសី និងប្រមូលផ្តុំ (រាប់ពាន់តោន)

X24 - មកពីប្រទេសកាណាដា

X25 - ពីប្រទេសអូស្ត្រាលី

ការនាំចូលស័ង្កសី (រាប់ពាន់តោន)

X26 - នៅសហរដ្ឋអាមេរិក

X27 - ទៅប្រទេសអង់គ្លេស

X28 - នៅប្រទេសអាឡឺម៉ង់

ការនាំចេញស័ង្កសី (ពាន់តោន)

X29 - ពីប្រទេសកាណាដា

X30 - ពីប្រទេសអូស្ត្រាលី

ដើម្បីកំណត់ភាពអាស្រ័យជាក់លាក់ ឧបករណ៍នៃការវិភាគទំនាក់ទំនង និងតំរែតំរង់ត្រូវបានប្រើប្រាស់។ ទំនាក់ទំនងត្រូវបានវិភាគលើមូលដ្ឋាននៃម៉ាទ្រីសនៃមេគុណទំនាក់ទំនងជាគូ។ នៅទីនេះសម្មតិកម្មនៃការចែកចាយធម្មតានៃសូចនាករដែលបានវិភាគនៃការភ្ជាប់ត្រូវបានទទួលយក។ វាច្បាស់ណាស់ថា rij មិនមែនជាសូចនាករតែមួយគត់ដែលអាចធ្វើទៅបាននៃទំនាក់ទំនងនៃសូចនាករដែលបានប្រើនោះទេ។ តម្រូវការក្នុងការប្រើប្រាស់ការវិភាគចង្កោមក្នុងបញ្ហានេះគឺដោយសារតែចំនួនសូចនាករដែលប៉ះពាល់ដល់តម្លៃស័ង្កសីមានទំហំធំណាស់។ មានតម្រូវការក្នុងការកាត់បន្ថយពួកគេសម្រាប់ហេតុផលមួយចំនួនដូចខាងក្រោម:

ក) កង្វះទិន្នន័យស្ថិតិពេញលេញសម្រាប់អថេរទាំងអស់;

ខ) ភាពស្មុគស្មាញយ៉ាងមុតស្រួចនៃដំណើរការគណនានៅពេលដែលចំនួនអថេរជាច្រើនត្រូវបានបញ្ចូលទៅក្នុងគំរូ។

គ) ការប្រើប្រាស់ដ៏ល្អប្រសើរនៃវិធីសាស្រ្តវិភាគតំរែតំរង់តម្រូវឱ្យលើសពីចំនួននៃតម្លៃដែលបានសង្កេតលើចំនួនអថេរយ៉ាងហោចណាស់ 6-8 ដង។

ឃ) បំណងប្រាថ្នាដើម្បីប្រើអថេរឯករាជ្យស្ថិតិនៅក្នុងគំរូ។ល។

វាពិបាកណាស់ក្នុងការអនុវត្តការវិភាគបែបនេះដោយផ្ទាល់លើម៉ាទ្រីសសំពីងសំពោងនៃមេគុណទំនាក់ទំនង។ ដោយមានជំនួយពីការវិភាគចង្កោម សំណុំនៃអថេរទីផ្សារទាំងមូលអាចត្រូវបានបែងចែកទៅជាក្រុមតាមរបៀបដែលធាតុនៃចង្កោមនីមួយៗមានទំនាក់ទំនងគ្នាយ៉ាងខ្លាំង ហើយអ្នកតំណាងនៃក្រុមផ្សេងៗគ្នាត្រូវបានកំណត់លក្ខណៈដោយការជាប់ទាក់ទងគ្នាខ្សោយ។

ដើម្បីដោះស្រាយបញ្ហានេះ ក្បួនដោះស្រាយការវិភាគតាមលំដាប់លំដោយ agglomeration មួយត្រូវបានអនុវត្ត។ នៅជំហាននីមួយៗ ចំនួននៃចង្កោមត្រូវបានកាត់បន្ថយមួយ ដោយសារភាពល្អប្រសើរបំផុត ក្នុងន័យជាក់លាក់មួយ សហជីពនៃក្រុមពីរ។ លក្ខណៈវិនិច្ឆ័យសម្រាប់ការចូលរួមគឺការផ្លាស់ប្តូរមុខងារដែលត្រូវគ្នា។ ជា​មុខងារ​នៃ​ការ​នេះ តម្លៃ​នៃ​ផលបូក​នៃ​គម្លាត​ការេ​ដែល​គណនា​ដោយ​រូបមន្ត​ខាងក្រោម​ត្រូវ​បាន​ប្រើ៖

(j = 1, 2, …, m),

ដែល j ជាលេខចង្កោម n គឺជាចំនួនធាតុនៅក្នុងចង្កោម។

rij - មេគុណទំនាក់ទំនងគូ។

ដូច្នេះ ដំណើរការដាក់ជាក្រុមត្រូវតែឆ្លើយតបទៅនឹងការកើនឡើងអប្បរមាជាបន្តបន្ទាប់នៃតម្លៃនៃលក្ខណៈវិនិច្ឆ័យ E ។

នៅដំណាក់កាលដំបូង អារេទិន្នន័យដំបូងត្រូវបានបង្ហាញជាសំណុំដែលមានចង្កោម រួមទាំងធាតុមួយនីមួយៗ។ ដំណើរការដាក់ជាក្រុមចាប់ផ្តើមដោយការរួបរួមនៃចង្កោមមួយគូបែបនេះ ដែលនាំទៅរកការកើនឡើងអប្បបរមានៃផលបូកនៃគម្លាតការេ។ នេះតម្រូវឱ្យមានការប៉ាន់ប្រមាណផលបូកនៃគម្លាតការ៉េសម្រាប់សហជីពចង្កោមនីមួយៗដែលអាចធ្វើទៅបាន។ នៅដំណាក់កាលបន្ទាប់ តម្លៃនៃផលបូកនៃគម្លាតការ៉េត្រូវបានពិចារណារួចហើយសម្រាប់ចង្កោម ហើយដូច្នេះនៅលើ។ ដំណើរការនេះនឹងត្រូវបានបញ្ឈប់នៅជំហានមួយចំនួន។ ដើម្បីធ្វើដូចនេះអ្នកត្រូវតាមដានតម្លៃនៃផលបូកនៃគម្លាតការ៉េ។ ដោយពិចារណាលើលំដាប់នៃការកើនឡើងតម្លៃ មនុស្សម្នាក់អាចចាប់បានការលោតមួយ (មួយ ឬច្រើន) នៅក្នុងសក្ដានុពលរបស់វា ដែលអាចត្រូវបានបកស្រាយថាជាលក្ខណៈនៃចំនួនក្រុម "តាមគោលបំណង" ដែលមាននៅក្នុងចំនួនប្រជាជនដែលបានសិក្សា។ ក្នុងឧទាហរណ៍ខាងលើ ការលោតបានកើតឡើងនៅពេលដែលចំនួនចង្កោមគឺ 7 និង 5។ លើសពីនេះ ចំនួនក្រុមមិនគួរត្រូវបានកាត់បន្ថយទេ ពីព្រោះ នេះនាំឱ្យមានការថយចុះគុណភាពនៃគំរូ។ បន្ទាប់ពីទទួលបានចង្កោម អថេរដែលសំខាន់បំផុតក្នុងន័យសេដ្ឋកិច្ច និងទាក់ទងយ៉ាងជិតស្និទ្ធបំផុតទៅនឹងលក្ខណៈវិនិច្ឆ័យទីផ្សារដែលបានជ្រើសរើសត្រូវបានជ្រើសរើស - ក្នុងករណីនេះជាមួយនឹងសម្រង់ការផ្លាស់ប្តូរលោហៈទីក្រុងឡុងដ៍សម្រាប់ស័ង្កសី។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យអ្នករក្សាទុកផ្នែកសំខាន់នៃព័ត៌មានដែលមាននៅក្នុងសំណុំដើមនៃសូចនាករដំបូងនៃការភ្ជាប់។