scorecardresearch

குழந்தைகளுக்கு வயதுக்கு பொருத்தமற்ற வார்த்தைகள் வழங்கும் AI டிரான்ஸ்கிரிப்ட்… ஆய்வில் அதிர்ச்சி

மொத்த வீடியோக்களில் பத்து சதவீத வீடியோக்களில் வயது வந்தோருக்கான வார்த்தைகள் குழந்தைகள் வீடியோவில் இடம்பெற்றிருப்பதாக ரோசெஸ்டர் இன்ஸ்டிடியூட் ஆப் டெக்னாலஜியின் மென்பொருள் பொறியியல் துறையின் உதவிப் பேராசிரியரான அமெரிக்காவைச் சேர்ந்த ஆஷிக் குதாபுக்ஷ் கூறுகிறார்.

beach எப்படி bitch ஆகவும், buster எப்படி bastard ஆகவும், combo எப்படி condom ஆகவும் மாறுகிறது?

இது இரண்டு பிரபலமான செயற்கை நுண்ணறிவு தளங்களான கூகுள் ஸ்பீச்-டு-டெக்ஸ்ட் மற்றும் அமேசான் டிரான்ஸ்கிர் மூலம், யூடியூப்பில் குழந்தைகளுக்கான வீடியோவில் மாறுவது தெரியவந்துள்ளது.

இதன் உண்மையை அறிய ‘பீச் டு பிச் என்ற தலைப்பில் ஆய்வு நடத்தப்பட்டுள்ளது. சுமார்
24 யூடியூப் சேனல்களில் இருந்து 7,013 வீடியோக்களை சோதித்ததில், யூடியூப்பில் குழந்தைகளுக்கான உள்ளடக்கத்தில் பாதுகாப்பற்ற டிரான்ஸ்கிரிப்ஷனில் இத்தகைய வார்த்தைகள் இடம்பெறுவது உறுதியாகியுள்ளது.

ஹைதராபாத்தில் உள்ள இந்தியன் ஸ்கூல் ஆஃப் பிசினஸின் உதவிப் பேராசிரியர் சுமீத் குமாரும், ஆய்வை நடத்திய மணிப்பால் பல்கலைக்கழகத்தைச் சேர்ந்த கிருத்திகா ரமேஷூம், இந்த நிகழ்வை inappropriate content hallucination எனக் குறிப்பிட்டுள்ளனர்.

மேற்கு வங்கத்தில் மெஷின் லேர்னிங்கில் முனைவர் பட்டம் பெற்ற குதாபுக்ஷ் தி சண்டே எக்ஸ்பிரஸ்ஸூக்கு அளித்த பேட்டியில், “இந்த சேனல்களை மில்லியன் கணக்கான குழந்தைகள் பார்க்கிறார்கள் என்பதை அறிந்தபோது, கஷ்டப்பட்டோம். இது ஒரு முக்கியமான பிரச்சனை. ஏனெனில், இவை வீடியோ அப்லோட் செய்பவரால் ஏற்படும் பிரச்சினை அல்ல. கம்பூயிட்டரில் இயங்கும் செயற்கை நுண்ணறிவால் ஏற்படுகிறது. நாம் வீடியோவின் தரத்தை பொதுவாக செக் செய்வோம். இப்போது, செயற்கை நுண்ணறிவில் வரும் தரவுகளையும் சோதிக்க வேண்டும் என்பதில் விழிப்புடன் இருக்க வேண்டும். செயற்கை நுண்ணறிவு கவனக்குறைவால், பொருத்தமற்ற உள்ளடக்கம் வீடியோவில் தோன்றலாம்” என்றார்.

ஆய்வின்படி, Sesame Street, Ryan’s World, Barbie, Moonbug Kid மற்றும் Fun Kids Planet உள்ளிட்ட மில்லியன் கணக்கான பார்வைகள் மற்றும் சந்தாதாரர்களைக் கொண்ட சேனல்களில் பொருத்தமற்ற உள்ளடக்கம் தென்பட்டது கண்டறியப்பட்டுள்ளது.

YouTube வீடியோக்களில் கேப்ஷன்கள் கூகுள் ஸ்பீச்-டு-டெக்ஸ்ட் மூலம் உருவாக்கப்படுகின்றன. அதேசமயம், Amazon Transcribe ஒரு சிறந்த வணிக செயற்கை நுண்ணறிவு அமைப்பாகும். கிரியேட்டர்கள் தங்கள் வீடியோக்களில் கேப்ஷன்களை வரவழைக்க Amazon Transcribeஐ பயன்படுத்துகின்றனர். யூடியூப்பில் வீடியோவை அப்லோட் செய்கையில், அதனை இம்போர்ட் செய்துகொள்கின்றனர்.

இந்த ஆய்வு பிப்ரவரி மாதம் வான்கூவரில் நடந்த செயற்கை நுண்ணறிவு முன்னேற்றத்திற்கான சங்கத்தின் 36வது ஆண்டு மாநாட்டில் சமர்ப்பிக்கப்பட்டு ஏற்றுக்கொள்ளப்பட்டது.

யூடியூப் கிட்ஸ் செயலியில் பெரும்பாலான ஆங்கில மொழி வசன வரிகள் முடக்கப்பட்டுள்ளன. ஆனால் அதே வீடியோக்களை யூடியூப்பில் சப்டைட்டில்களுடன் பார்க்கலாம் என்று ஆய்வு சுட்டிக்காட்டுகிறது.

ஆய்வு கூற்றுப்படி, வீடியோக்களைப் YouTube கிட்ஸ் ஆப்ஸில் மட்டுமே குழந்தைகள் பார்க்க அனுமதிக்கப்படுகிறதா அல்லது , பொது YouTube இலிருந்து குழந்தைகளின் உள்ளடக்கத்தைப் பார்க்க பெற்றோர்கள் அடிக்கடி அனுமதிக்கிறார்களா என்பதும் தெளிவாக தெரியவில்லை. குழந்தைகளின் பாதுகாப்பு குறித்து அதிக விழிப்புடன் இருக்க, YouTube பொது மற்றும் YouTube குழந்தைகள் இடையே இறுக்கமான ஒருங்கிணைப்பு தேவை என்பதை ஆய்வு சுட்டிக்காட்டுவதாக குறிப்பிட்டிருந்தனர்.

இதுகுறித்து YouTube செய்தித் தொடர்பாளர் வெளியிட்ட அறிக்கையில், “YouTube Kids செயலி குழந்தைகளுக்கு பொருத்தமான பொழுதுபோக்கும் உள்ளடக்கத்தை வழங்குகிறது. அதை, 13 வயதுக்குட்பட்ட குழந்தைகளுக்கு பரிந்துரைக்ககிறோம். YouTube Kids இல் தானியங்கு கேப்ஷன் அம்சம் கிடையாது. ஆனால், யூடியூப் பரந்த அளவிலான பயனர்களை சென்றடைவதால் தானியங்கு கேப்ஷன் வசதி இணைக்கப்பட்டுள்ளது. அதில் வரும் தவறுகளை சரிசெய்யும் பணியிலும் உள்ளோம் என்றார்.

பிரபலமான வீடியோ ஒன்றில் You should also find porn என்கிற கேப்ஷன் இடம்பெற்றது. ஆனால், வீடியேவில் வந்த ஆடியோவானது, You should also find corn என்பது தான்.

இதுகுறித்து பேசிய குதாபுக்ஷ் , பயிற்சியின் போது ASR அமைப்புகளுக்கு அளிக்கப்பட்ட தரவு காரணமாக இந்த பிழைகள் ஏற்படக்கூடும். இரண்டு பெரியவர்கள் உரையாடும் போது, ​​’ஐ லவ் கார்ன்’ என்பதை விட, ‘ஐ லவ் பார்ன்’ என்பதற்கான வாக்கியம் இடம்பெற அதிக வாய்ப்புள்ளது. இது, வயது வந்தோருக்கான வார்த்தைகள் கிட்ஸ் வீடியோவில் வர முக்கிய காரணமாகும். பெரியவர்களிடமிருந்து வரும் பேச்சு எடுத்துக்காட்டுகளில் ASR அதிக பயிற்சி பெற்றிருக்கலாம்.

டிரான்ஸ்கிரிப்ஷன் பிழைகளைச் சரிபார்க்க, தனியாக ஒருவரை நியமிக்க வேண்டும்.வீடியோவில் உள்ளதா இல்லையா என்பதை அவர் பார்த்து உறுதிசெய்திட வேண்டும். இதன் மூலமே, குழந்தைகளுக்கான வீடியோவில் ஏற்படும் இந்த தவறை தடுத்திட முடியும்” என்றார்.

AI அமைப்புகளின் தவறை KhudaBuksh கூறுவது முதல்முறை அல்ல. கடந்தாண்டு, அவரும் ஒரு மாணவரும் ஆறு வாரம் ஆய்வு மேற்கொண்டனர். அதாவது, சதுரங்க விளையாட்டை பற்றி பேசுகையில், ‘black’, ‘white’ and ‘attack’போன்ற வார்த்தைகள் உபயோகிப்பது வழக்கம். ஆனால், இவற்றை இனவெறி என்ற கண்ணொட்டத்திலும யூடியூப் தானியங்கி அமைப்பு பார்க்க நேர்ந்ததது குறித்து ஆய்வு செய்தனர். இந்த தானியங்கி கணிப்பு தவறு காரணாக ஒரு மில்லியனுக்கும் அதிகமான சந்தாதாரர்களைக் கொண்ட பிரபலமான யூடியூப் செஸ் சேனலான அகட்மேட்டர், சதுரங்க ஒளிபரப்பின் போது ‘சமூக வழிகாட்டுதல்களை’ கடைப்பிடிக்கவில்லை என குற்றச்சாட்டப்பட்டு பிளாக் செய்யப்பட்டது குறிப்பிடத்தக்கது.

Pittsburgh’s Carnegie Mellon University இல் இந்த ஆராய்ச்சியை மேற்கொண்ட KhudaBukshsh, இந்த கண்டுபிடிப்புகள், வெறுப்புப் பேச்சுக்கான ஆதாரங்களைக் கண்டறிய AI-ஐ மட்டுமே சார்ந்து இருக்கும் சமூக ஊடக நிறுவனங்களின் கண்களை திறப்பதற்கான வழியாகும் என்றார்.

தமிழ் இந்தியன் எக்ஸ்பிரஸின் அனைத்து செய்திகளையும் உடனுக்குடன் டெலிகிராம் ஆப்பில் பெற https://t.me/ietamil

Stay updated with the latest news headlines and all the latest Technology news download Indian Express Tamil App.

Web Title: Adult words creep into youtube children videos