Advertisment

இனி புகைப்படங்கள் பேசும், பாடும்: மைக்ரோசாப்ட் அசத்தல் ஏ.ஐ அறிமுகம்

புதிய ஏ.ஐ தொழில்நுட்பம் VASA-1 பயன்படுத்தி ஸ்டில் படங்களை ( still images) பேசவும், பாடவும் அதற்கு ஏற்ப துல்லியமான முகபாவனைகளை செய்யும் வகையில் புதிய அம்சம் அறிமுகம் செய்யப்பட்டுள்ளது.

author-image
WebDesk
New Update
VASA-1.jpg
Listen to this article
0.75x 1x 1.5x
00:00 / 00:00

சில நாட்கள் முன் சில செயலிகள் GIF அனிமேஷன் பயன்படுத்தி  புகைப்படங்களை உயிர்ப்பித்தனர். அந்தவகையில், இப்போது ​​புகைப்படங்களை ஆடவும் பாடவும் செய்யும் AI அமைப்பு வந்துள்ளது. மைக்ரோசாஃப்ட் ரிசர்ச் ஏசியாவின் AI ஆராய்ச்சியாளர்கள் குழு, AI செயலியை உருவாக்கியுள்ளது, இது மனிதர்களின் ஸ்டில் படங்கள் மற்றும் ஆடியோ டிராக்குகளை அனிமேஷனாக மாற்றும். 

Advertisment

ஆராய்ச்சியாளர்கள் கூறுகையில்,  “எங்கள் முறை யதார்த்தமான முக மற்றும் தலை இயக்கவியலுடன் உயர் வீடியோ தரத்தை வழங்குவது மட்டுமல்லாமல், 40 FPS வரை 512×512 வீடியோக்களின் ஆன்லைன் தலைமுறையை மிகக் குறைவான தொடக்க தாமதத்துடன் ஆதரிக்கிறது. மனித உரையாடல் நடத்தைகளைப் பின்பற்றும் உயிரோட்டமான அவதாரங்களுடன் நிகழ்நேர ஈடுபாடுகளுக்கு இது வழி வகுக்கிறது" என்றனர். 

VASA-1 என்றால் என்ன? 

மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் தங்கள் புதிய முறை லிப்-ஆடியோ ஒத்திசைவை உருவாக்கும் திறன் கொண்டது மட்டுமல்லாமல், வெளிப்படையான முக நுணுக்கங்கள் மற்றும் இயற்கையான தலை அசைவுகளின் ஒரு பெரிய நிறமாலையை உருவாக்க முடியும் என்று கூறுகிறார்கள். "இது தன்னிச்சையான நீளமான ஆடியோவைக் கையாளும் மற்றும் தடையற்ற பேசும் முக வீடியோக்களை நிலையான முறையில் வெளியிடும்."

VASA-1-ல் பணிபுரியும் ஆராய்ச்சியாளர்கள் நிலையான படங்களை உயிர்ப்பித்து, அவற்றைப் பேசவும், பாடவும், உணர்ச்சிகளை எந்த ஆடியோ டிராக்குடனும் சரியான ஒத்திசைவில் வெளிப்படுத்தும் லட்சியப் பணியை மேற்கொண்டனர். VASA-1 என்பது அவர்களின் முயற்சியின் விளைவாகும், ஏனெனில் AI அமைப்பு அசைவற்ற காட்சிகளை, அவை புகைப்படங்கள், வரைபடங்கள் அல்லது ஓவியங்கள், ஒத்திசைக்கப்பட்ட அனிமேஷன்களாக மாற்றுகிறது. கட்டுப்பாட்டிற்கு வரும்போது, ​​​​ஆராய்ச்சியாளர்கள் தங்கள் பரவல் மாதிரியானது விருப்பமான சிக்னல்களை முக்கிய கண் பார்வை திசை மற்றும் தலை தூரம், உணர்ச்சி ஆஃப்செட் போன்ற நிபந்தனைகளாக ஏற்றுக் கொள்ள முடியும் என்று கூறினர்.

ஆய்வுக் கட்டுரையின் அடிப்படையில், குழு VASA-1 அமைப்பின் திறன்களை வீடியோ கிளிப்புகள் மூலம் காட்சிப்படுத்தியுள்ளது. மோனாலிசாவின் கார்ட்டூன் பதிப்பு ஒன்றில் உயிர்பெற்று ராப் பாடலாக உடைகிறது. இந்த எடுத்துக்காட்டில், மோனாலிசாவின் வெளிப்பாடுகள் மற்றும் உதடு அசைவுகள் பாடல் வரிகளுடன் சரியாக ஒத்துப்போகின்றன.

VASA-1 எவ்வாறு உருவாக்கப்பட்டது?

ஆய்வறிக்கையின் படி, VASA-1 இன் முன்னேற்றம் ஒரு விரிவான பயிற்சி செயல்முறை மூலம் நடந்தது. இது AI அமைப்புகள் பரந்த அளவிலான முகபாவனைகளை சித்தரிக்கும் ஆயிரக்கணக்கான படங்களை வெளிப்படுத்தியது. இந்த பரந்த தரவுத் தொகுப்பு, பேச்சு முறைகளுடன் மனித உணர்ச்சிகளின் நுணுக்கங்களைக் கற்றுக் கொள்ளவும் துல்லியமாக மீண்டும் உருவாக்கவும் கணினியை அனுமதித்ததாகக் கூறப்படுகிறது.

VASA-1 இன் தற்போதைய மறு செய்கையானது 45fps பிரேம் வீதத்துடன் 512X512 பிக்சல்களில் உயர் தெளிவுத்திறன் கொண்ட காட்சிகளை உருவாக்குகிறது. இந்த அனிமேஷன்கள் காட்சிகள் மற்றும் ஆடியோவைத் தடையின்றி ஒருங்கிணைத்து, உயிரோட்டமான அழகைக் கொடுத்தாலும், நுணுக்கமாக ஆராய்ந்தால், AI-உருவாக்கிய உள்ளடக்கத்தின் பொதுவான சில நுட்பமான குறைபாடுகள் மற்றும் சொல்லும் அறிகுறிகளை ஒருவர் கவனிக்க முடியும் என்று ஆராய்ச்சியாளர்கள் கூறியுள்ளனர். இருப்பினும், பகிரப்பட்ட எடுத்துக்காட்டுகள் VASA-1 இல் பணிபுரியும் குழுவின் தொழில்நுட்ப சிறப்பை வெளிப்படுத்துகின்றன.

“தமிழ் இந்தியன் எக்ஸ்பிரஸின் அனைத்து செய்திகளையும் உடனுக்குடன் டெலிகிராம் ஆப்பில் பெற  https://t.me/ietamil“ 

     

     

    Microsoft
    Advertisment

    Stay updated with the latest news headlines and all the latest Lifestyle news. Download Indian Express Tamil App - Android or iOS.

    Follow us:
    Advertisment