Advertisment

ஏ.ஐ மொழி பிரச்சனை: செயற்கை நுண்ணறிவு கருவிகள் பல்வேறு மொழிகளில் இல்லை; ஏன்?

ஏ.ஐ கருவிகள் சாட் ஜி.பி.டி முதல் கூகுள் டிரான்ஸ்லேட் வரை உலகில் தெற்கில் உள்ள பில்லியன் கணக்கான மக்களுக்கு பயனற்றதாக உள்ளது.

author-image
WebDesk
புதுப்பிக்கப்பட்டது
New Update
AI language

AI language

ஏ.ஐ கருவிகள் சாட் ஜி.பி.டி முதல் கூகுள் டிரான்ஸ்லேட் வரை உலகில் தெற்கில் உள்ள பில்லியன் கணக்கான மக்களுக்கு பயனற்றதாக உள்ளது. மேற்கத்திய மொழிகளில் இது செயல்பட வில்லை. ஆப்பிரிக்கா மற்றும் உலகின் பிற பகுதிகளைச் சேர்ந்த ஆராய்ச்சியாளர்கள் மற்றும் ஸ்டார் அப் நிறுவனங்கள் இதை மாற்றுகின்றன.

Advertisment

சாட் ஜி.பி.டி போன்ற ஏ.ஐ கருவிகள் அவர்கள் வழங்கும் மொழியை நீங்களும் பேசினால் உங்களுக்கு அற்புதமான வாய்ப்புகளை வழங்குகிறது.

அதே நேரம் மறுபுறம், எத்தியோப்பிய தலைநகர் அடிஸ் அபாபாவில் ஆஷாகரி ஆலோசனை நிறுவனத்தை நிறுவிய மெக்டெஸ் கெப்ரேவோல்டின் கூறுகையில், எங்களுடைய மொழியில் இயந்திர மொழிபெயர்ப்புகள் கூட சாத்தியமற்றது. "கூகுள் டிரான்ஸ்லேட் போன்ற கருவிகள் அம்ஹாரிக்கிற்கு நன்றாகக் கட்டமைக்கப்படவில்லை," என்று அவர் DWயிடம் கூறினார். எனவே நாங்கள் இதற்கு நிபுணர்களுக்கு பணம் செலுத்துகிறோம் என்றார்.

மெக்டெஸ் கெப்ரேவோல்டின் போன்ற பில்லியன் கணக்கான மக்கள் தங்கள் மொழியின் அடிப்படையில் ஏ.ஐ-ல் இயங்கும் கருவிகளைப் பயன்படுத்திக் கொள்ள முடியவில்லை. இது ChatGPT போன்ற உருவாக்கப்படும் AIக்கு அல்லது Google Translate போன்ற மொழிபெயர்ப்புச் சேவைகளுக்கு மட்டுமல்ல, பிற கருவிகளின் வரம்பிற்கும் பொருந்தும் என்கின்றனர். ஆட்டோ கம்பிளிட், டிரான்ஸ்கிரிப்ஷன் சேவைகள், வாய்ஸ் அசிஸ்டண்ட் மற்றும் கன்டெண்ட் உருவாக்கம் உள்பட பலவற்றை சுட்டிக் காட்டுகின்றனர்.

AI கருவிகள் ஏன் பல மொழிகளில் வேலை செய்யவில்லை?

நவீன AI கருவிகள், சாராம்சத்தில், அவர்கள் பெறும் உள்ளீட்டின் அடிப்படையில் பெரும்பாலும் பதிலைக் கணிக்கும் மேம்பட்ட தன்னியக்கக் கருவிகள் ஆகும். இந்த கணிப்புகள் பரந்த அளவிலான "பயிற்சி தரவு" - AI பொறியாளர்கள் தங்கள் மாதிரிகளை உருவாக்க பயன்படுத்தும் உள்ளடக்கத்தின் டிஜிட்டல் சேகரிப்புகளை சார்ந்துள்ளது.

பயிற்சித் தரவின் ஒரு முக்கிய ஆதாரம், காமன் க்ரால் என அழைக்கப்படும், இணையத்தில் இருந்து டிரில்லியன் கணக்கான இணையப் பக்கங்களைக் கொண்ட, வெளிப்படையாகக் கிடைக்கும் தரவுத்தொகுப்பு. ChatGPT இன் பதிப்பு 3.5ஐப் பயிற்றுவிக்கப் பயன்படுத்தப்படும் 60% எடுத்துக்காட்டுகள் இந்தத் தொகுப்பிலிருந்து வந்தவை.

இருப்பினும், இந்தப் பயிற்சித் தரவை நம்பியிருப்பதால், குறிப்பிட்ட மொழியில் தரவு குறைவாக இருக்கும்போது AI கருவிகள் வேலை செய்யாது. இணையத்தில் சில மொழிகள் மட்டுமே ஆதிக்கம் செலுத்துவதால் இது ஒரு பிரச்சினையாக உள்ளது. ஆங்கிலம் மட்டுமே பெரும்பாலும் பயன்படுத்தப்படுகிறது. இது ஜெனரல் க்ராலில் கூட கிட்டத்தட்ட பாதி பக்கங்களைக் கொண்டுள்ளது.

அம்ஹாரிக், மற்ற அனைத்து ஆப்பிரிக்க, அமெரிக்க மற்றும் ஓசியானிய மொழிகளுடன், பொதுவான கிராலில் 0.1% க்கும் குறைவாகவே உள்ளது. இது குறைந்த டிஜிட்டல் தரவுகளுடன் குறைந்த வள மொழியாக அறியப்படுகிறது.

உலகெங்கிலும், பில்லியன் கணக்கான மக்கள் இந்த குறைந்த வள மொழிகளைப் பேசுகிறார்கள், இதில் இந்தி, அரபு மற்றும் பெங்காலி போன்ற முக்கிய மொழிகளும் உள்ளன.

எந்த மொழிகள் பின்தங்கியுள்ளன என்பதைக் காட்டும் தெளிவான முறை உள்ளது. பெரும்பாலான ஆசிய மற்றும் அனைத்து ஆப்பிரிக்க மொழிகளுடன் ஒப்பிடும்போது ஐரோப்பிய மொழிகள் அதிக அளவில் குறிப்பிடப்படுகின்றன.

எடுத்துக்காட்டாக, டச்சு, அம்ஹாரிக் மொழியைப் போலவே 20 மில்லியனுக்கும் அதிகமான மக்களால் முதல் மொழியாகப் பேசப்படுகிறது. இருப்பினும், காமன் க்ரால் தரவுத்தொகுப்பில் டச்சு கிட்டத்தட்ட 700 மடங்கு அதிகமாகத் தோன்றுகிறது, மேலும் 300 மில்லியனுக்கும் அதிகமான மக்கள் தாய்மொழியாகக் கொண்ட ஹிந்தியைக் காட்டிலும் நூற்றுக்கணக்கான மடங்கு அதிகமாக உள்ளது. இருப்பினும் இந்த மொழி பிரச்சனைகளை போக்க ஆராய்ச்சியாளர்கள் முயற்சித்து வருகின்றனர்.

ஏ.ஐ மொழி இடைவெளியைக் குறைப்பது எப்படி?

அஸ்மெலாஷ் டெகா ஹட்கு, எத்தியோப்பியன் மொழிகளான அம்ஹாரிக் மற்றும் டிக்ரின்யாவிற்கான இயந்திர மொழிபெயர்ப்பு மற்றும் பேச்சு தொழில்நுட்பத்தை உருவாக்கும் லெசான் என்ற தொடக்க நிறுவனத்தை நிறுவியவர். பெரிய அளவிலான ஆன்லைன் ஆதாரங்கள் இல்லாமல், அவரது குழு நேரடியாகத் தங்கள் சமூகத்துடன் வேலை செய்கிறது மற்றும் தரவைச் சேகரிப்பதற்கான ஆக்கப்பூர்வமான வழிகளைக் கண்டறிந்துள்ளது.

"நாங்கள் முக்கியமாக தங்கள் மொழியை நேசிக்கும் மாணவர்களுடன் வேலை செய்கிறோம்," என்று அவர் DW இடம் கூறினார். "நாங்கள் இதை உருவாக்குகிறோம் என்று அவர்களிடம் கூறும்போது, ​​​​அவர்கள் ஈர்க்கப்பட்டு பங்களிக்க விரும்புகிறார்கள். எனவே எங்கள் மொழியில் உள்ளடக்கத்தை சேகரிக்க பணிகளை அமைத்துள்ளோம். நாங்கள் அவர்களுக்கு உதவுகிறோம், நிதி ரீதியாக வெகுமதி அளிக்கிறோம்."

இதற்கு அதிகப்படியான மக்கள் தேவைப்படுகிறார்கள். பங்களிப்பாளர்கள் முதலில் நம்பகமான புத்தகங்கள் அல்லது செய்தித்தாள்கள் போன்ற உயர்தர தரவுத்தொகுப்புகளை அடையாளம் கண்டு, பின்னர் அவற்றை இலக்கமாக்கி இலக்கு மொழிகளில் மொழிபெயர்ப்பார்கள். இறுதியாக, அவை இயந்திர கற்றல் செயல்முறைக்கு வழிகாட்டும் அசல் மற்றும் மொழிபெயர்க்கப்பட்ட பதிப்புகளை வாக்கியத்தின் அடிப்படையில் சீரமைக்கின்றன.

"சிறிய, கவனமாகத் தொகுக்கப்பட்ட தரவுத் தொகுப்புகளைப் பயன்படுத்தி பயனுள்ள மாதிரிகளை உருவாக்க முடியும் என்பதை நாங்கள் காட்டியுள்ளோம்" என்று அஸ்மெலாஷ் டெகா ஹட்கு கூறினார். "அதன் வரம்புகள் மற்றும் திறன்களை நாங்கள் புரிந்துகொள்கிறோம். இதற்கிடையில், மைக்ரோசாப்ட் அல்லது கூகுள் பொதுவாக அனைத்து மொழிகளுக்கும் ஒரே ஒரு பிரம்மாண்டமான மாதிரியை உருவாக்குகின்றன, எனவே தணிக்கை செய்வது கிட்டத்தட்ட சாத்தியமற்றது" என்றார்.

பல்வேறு மொழிகளுக்கு டிஜிட்டல் ஆதரவு தேவை

லேசனின் அணுகுமுறை தனித்துவமானது அல்ல. இதே போன்ற திட்டங்கள் உலகம் முழுவதும் வெற்றிகரமாக செயல்படுத்தப்பட்டு வருகின்றன, சிறிய டிஜிட்டல் தடயங்களைக் கொண்ட மொழிகளுக்கும் கூட.

எத்னோலாக், கிறிஸ்டியன் என்ஜிஓ எஸ்ஐஎல் இன்டர்நேஷனல் நடத்தும் மொழிகளின் உலகளாவிய தரவுத்தளமானது, "முக்கிய" மொழி ஆதரவுடன் அம்ஹாரிக் மொழியை பட்டியலிடுகிறது. இதன் பொருள் குறைந்தபட்சம் சில இயந்திர மொழிபெயர்ப்பு கருவிகள், எழுத்துப்பிழை சரிபார்ப்பு மற்றும் பேச்சு செயலாக்கம் ஆகியவை உள்ளன.

உலகெங்கிலும் உள்ள ஆயிரக்கணக்கான மொழிகளில், ஒரு மில்லியனுக்கும் அதிகமான பயனர்களைக் கொண்ட பல மொழிகள், இன்னும் குறைவான உள்ளடக்கத்தையும் குறைவான டிஜிட்டல் கருவிகளையும் வழங்குகின்றன.

“தமிழ் இந்தியன் எக்ஸ்பிரஸின் அனைத்து செய்திகளையும் உடனுக்குடன் டெலிகிராம் ஆப்பில் பெற https://t.me/ietamil

Artificial Intelligence
Advertisment

Stay updated with the latest news headlines and all the latest Lifestyle news. Download Indian Express Tamil App - Android or iOS.

Follow us:
Advertisment