ប្រធានបទ Topic

ការកត់ចំណាំទិន្នន័យ

ទិដ្ឋភាពទូទៅ

យោងតាមវិគីភីឌាភាសាអង់គ្លេស ការកត់ចំណាំទិន្នន័យ (Data Annotation) គឺជាដំណើរការនៃការដាក់ស្លាក ឬកំណត់ទិន្នន័យមេតា (metadata) ដែលពាក់ព័ន្ធ ទៅក្នុងសំណុំទិន្នន័យ ដើម្បីឱ្យម៉ាស៊ីនអាចបកស្រាយទិន្នន័យទាំងនោះបានត្រឹមត្រូវ។ សំណុំទិន្នន័យអាចមានទម្រង់ផ្សេងៗគ្នា រួមមាន រូបភាព ឯកសារសំឡេង វីដេអូ និងអត្ថបទ។

ការកត់ចំណាំទិន្នន័យដើរតួនាទីយ៉ាងសំខាន់នៅក្នុងវិស័យបញ្ញាសិប្បនិម្មិត (AI) ជាពិសេសក្នុងការរៀនម៉ាស៊ីនបែបគ្រប់គ្រង (supervised learning) ដែលត្រូវការទិន្នន័យដែលបានកត់ចំណាំយ៉ាងច្រើន ដើម្បីបង្ហាត់ម៉ូដែលឱ្យចេះស្គាល់លំនាំ និងធ្វើការសម្រេចចិត្ត។ ឧទាហរណ៍ នៅក្នុងការបង្ហាត់ម៉ូដែលឱ្យចេះស្គាល់វត្ថុក្នុងរូបភាព ទិន្នន័យត្រូវតែមានស្លាកបញ្ជាក់ថា «នេះជាឡាន» «នេះជាមនុស្ស» ឬ «នេះជាដើមឈើ» ជាដើម។

ភូមិសាស្ត្រ និងប្រជាជន

ការងារកត់ចំណាំទិន្នន័យភាគច្រើនត្រូវបានអនុវត្តដោយកម្មករមនុស្ស ដែលធ្វើការពីចម្ងាយតាមរយៈវេទិកាអនឡាញ។ យោងតាមវិគីភីឌា វេទិកា Amazon Mechanical Turk ដែលបានបង្កើតឡើងនៅឆ្នាំ ២០០៥ គឺជាឧទាហរណ៍ដំបូងមួយនៃការប្រើប្រាស់កម្លាំងពលកម្មសហគមន៍ (crowdsourcing) សម្រាប់កិច្ចការកត់ចំណាំទិន្នន័យ។ កម្មករទាំងនេះមានវត្តមាននៅទូទាំងពិភពលោក ប៉ុន្តែភាគច្រើនស្ថិតនៅក្នុងប្រទេសកំពុងអភិវឌ្ឍ ដែលផ្តល់ឱកាសការងារដែលមានភាពបត់បែន តែជារឿយៗទទួលបានប្រាក់ឈ្នួលទាប។

ក្រៅពីកម្មករឯករាជ្យ ក៏មានក្រុមហ៊ុនឯកទេសជាច្រើនដែលផ្តល់សេវាកម្មកត់ចំណាំទិន្នន័យដល់អង្គភាពបច្ចេកវិទ្យាធំៗ ដូចជា Google, Microsoft និង Tesla ជាដើម។ ក្រុមហ៊ុនទាំងនេះច្រើនតែមានមូលដ្ឋាននៅក្នុងប្រទេសដូចជា ឥណ្ឌា ហ្វីលីពីន និងកេនយ៉ា ដែលជាប្រភពកម្លាំងពលកម្មដ៏សំខាន់។ ចំណុចនេះបង្ហាញពីភូមិសាស្ត្រសេដ្ឋកិច្ចនៃឧស្សាហកម្មនេះ ដែលផ្សារភ្ជាប់ប្រទេសអភិវឌ្ឍជាមួយប្រទេសកំពុងអភិវឌ្ឍ។

ប្រវត្តិសាស្ត្រ

ចំណាប់ផ្តើមនៃការកត់ចំណាំទិន្នន័យអាចតាមដានទៅដល់ការស្រាវជ្រាវបញ្ញាសិប្បនិម្មិតដំបូងៗ នៅពាក់កណ្តាលសតវត្សទី ២០។ យ៉ាងណាក្តី វាមិនទាន់រីកចម្រើនរហូតដល់ការមកដល់នៃអ៊ីនធើណិត និងការប្រើប្រាស់បច្ចេកទេសសហគមន៍ទេ។ យោងតាមវិគីភីឌា គម្រោងមួយដែលល្បីឈ្មោះគឺ reCAPTCHA ដែលត្រូវបានបង្កើតឡើងក្នុងឆ្នាំ ២០០៧ ដោយក្រុមអ្នកស្រាវជ្រាវនៅសាកលវិទ្យាល័យ Carnegie Mellon។ reCAPTCHA មិនត្រឹមតែជួយការពារគេហទំព័រពីបូត (bot) ប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងបានប្រើប្រាស់អ្នកប្រើអ៊ីនធើណិតឱ្យជួយកត់ចំណាំពាក្យពីសៀវភៅដែលមិនអាចអានបានដោយម៉ាស៊ីន ដែលជាទម្រង់មួយនៃការកត់ចំណាំទិន្នន័យ។

ក្រោយមក នៅឆ្នាំ ២០០៩ គម្រោង ImageNet ដឹកនាំដោយសាស្ត្រាចារ្យ Fei-Fei Li បានបង្កើតសំណុំទិន្នន័យរូបភាពដ៏ធំសម្បើមដែលបានកត់ចំណាំដោយមនុស្សរាប់ពាន់នាក់តាមរយៈ Amazon Mechanical Turk។ សំណុំទិន្នន័យនេះបានក្លាយជាមូលដ្ឋានគ្រឹះសម្រាប់ការជឿនលឿននៃបច្ចេកវិទ្យាស្គាល់រូបភាព (computer vision) និងការរៀនជ្រៅ (deep learning) នាទសវត្សរ៍ ២០១០។

ចាប់តាំងពីពេលនោះមក តម្រូវការទិន្នន័យដែលបានកត់ចំណាំបានកើនឡើងយ៉ាងខ្លាំង ស្របពេលជាមួយនឹងការរីកចម្រើននៃ AI និងការរៀនម៉ាស៊ីន។ បច្ចុប្បន្ននេះ ការកត់ចំណាំទិន្នន័យមិនត្រឹមតែធ្វើឡើងដោយមនុស្សប៉ុណ្ណោះទេ ប៉ុន្តែក៏មានការប្រើប្រាស់បច្ចេកទេសពាក់កណ្តាលស្វ័យប្រវត្តិ និងស្វ័យប្រវត្តិផងដែរ។

សេដ្ឋកិច្ច និងវប្បធម៌

ឧស្សាហកម្មកត់ចំណាំទិន្នន័យបានរីកចម្រើនទៅជាទីផ្សារដ៏ធំមួយ ដែលមានតម្លៃរាប់ពាន់លានដុល្លារ។ យោងតាមវិគីភីឌា ក្រុមហ៊ុនបច្ចេកវិទ្យាធំៗ និងស្ថាប័នស្រាវជ្រាវ បានពង្រីកការវិនិយោគលើការកត់ចំណាំទិន្នន័យ ដើម្បីផ្គត់ផ្គង់ដល់ការអភិវឌ្ឍផលិតផល AI របស់ខ្លួន។ ទន្ទឹមនឹងនេះ ការងារនេះបានបង្កើតឱកាសការងារសម្រាប់មនុស្សរាប់លាននាក់នៅទូទាំងពិភពលោក ប៉ុន្តែក៏បានលើកឡើងនូវសំណួរអំពីគុណភាពការងារ និងក្រមសីលធម៌ផងដែរ។

តាមទស្សនៈវប្បធម៌ ការកត់ចំណាំទិន្នន័យមានឥទ្ធិពលដោយផ្ទាល់ទៅលើភាពលំអៀង (bias) នៅក្នុងម៉ូដែល AI។ ដោយសារអ្នកកត់ចំណាំជាមនុស្ស ទស្សនៈ និងវប្បធម៌របស់ពួកគេអាចជះឥទ្ធិពលទៅលើស្លាកដែលពួកគេផ្តល់ ដែលអាចនាំឱ្យមានការរើសអើង ឬការយល់ច្រឡំនៅក្នុងប្រព័ន្ធ AI។ ផលប៉ះពាល់ផ្លូវចិត្តចំពោះកម្មករដែលធ្វើការលើមាតិការំខាន ដូចជារូបភាពហិង្សា ឬពាក្យសម្តីប្រមាថ ក៏ជាកង្វល់មួយដែលត្រូវបានលើកឡើងជាញឹកញាប់ដែរ។

ការពាក់ព័ន្ធបច្ចុប្បន្ន

យោងតាមវិគីភីឌា ឧស្សាហកម្មកត់ចំណាំទិន្នន័យបានកើនឡើងយ៉ាងឆាប់រហ័សក្នុងប៉ុន្មានឆ្នាំចុងក្រោយនេះ ស្របពេលដែលបញ្ញាសិប្បនិម្មិតត្រូវបានអនុវត្តកាន់តែទូលំទូលាយ។ តម្រូវការទិន្នន័យដែលបានកត់ចំណាំគឺមានសារៈសំខាន់សម្រាប់ការអភិវឌ្ឍបច្ចេកវិទ្យាដូចជា រថយន្តគ្មានអ្នកបើកបរ ប្រព័ន្ធទទួលស្គាល់សំឡេង និងការវិភាគរូបភាពវេជ្ជសាស្ត្រជាដើម។

ក្នុងបរិបទកម្ពុជា ការរីកចម្រើននៃវិស័យបច្ចេកវិទ្យាអាចបើកឱកាសឱ្យប្រជាជនចូលរួមក្នុងខ្សែសង្វាក់ផ្គត់ផ្គង់ជាសកលនេះ។ ទោះជាយ៉ាងណា សំណួរអំពីប្រាក់ឈ្នួលសមរម្យ និងលក្ខខណ្ឌការងារនៅតែត្រូវបានលើកឡើងជាបន្ត។ សម្រាប់អ្នកអាន KhmerPulse ការតាមដានការវិវត្តនៃវិស័យនេះអាចផ្តល់ទស្សនវិស័យអំពីអនាគតការងារ និងសេដ្ឋកិច្ចនៅកម្ពុជា។

ចង្វាក់ខ្មែរ