சில நாட்கள் முன் சில செயலிகள் GIF அனிமேஷன் பயன்படுத்தி புகைப்படங்களை உயிர்ப்பித்தனர். அந்தவகையில், இப்போது புகைப்படங்களை ஆடவும் பாடவும் செய்யும் AI அமைப்பு வந்துள்ளது. மைக்ரோசாஃப்ட் ரிசர்ச் ஏசியாவின் AI ஆராய்ச்சியாளர்கள் குழு, AI செயலியை உருவாக்கியுள்ளது, இது மனிதர்களின் ஸ்டில் படங்கள் மற்றும் ஆடியோ டிராக்குகளை அனிமேஷனாக மாற்றும்.
ஆராய்ச்சியாளர்கள் கூறுகையில், “எங்கள் முறை யதார்த்தமான முக மற்றும் தலை இயக்கவியலுடன் உயர் வீடியோ தரத்தை வழங்குவது மட்டுமல்லாமல், 40 FPS வரை 512×512 வீடியோக்களின் ஆன்லைன் தலைமுறையை மிகக் குறைவான தொடக்க தாமதத்துடன் ஆதரிக்கிறது. மனித உரையாடல் நடத்தைகளைப் பின்பற்றும் உயிரோட்டமான அவதாரங்களுடன் நிகழ்நேர ஈடுபாடுகளுக்கு இது வழி வகுக்கிறது" என்றனர்.
VASA-1 என்றால் என்ன?
மைக்ரோசாப்ட் ஆராய்ச்சியாளர்கள் தங்கள் புதிய முறை லிப்-ஆடியோ ஒத்திசைவை உருவாக்கும் திறன் கொண்டது மட்டுமல்லாமல், வெளிப்படையான முக நுணுக்கங்கள் மற்றும் இயற்கையான தலை அசைவுகளின் ஒரு பெரிய நிறமாலையை உருவாக்க முடியும் என்று கூறுகிறார்கள். "இது தன்னிச்சையான நீளமான ஆடியோவைக் கையாளும் மற்றும் தடையற்ற பேசும் முக வீடியோக்களை நிலையான முறையில் வெளியிடும்."
VASA-1-ல் பணிபுரியும் ஆராய்ச்சியாளர்கள் நிலையான படங்களை உயிர்ப்பித்து, அவற்றைப் பேசவும், பாடவும், உணர்ச்சிகளை எந்த ஆடியோ டிராக்குடனும் சரியான ஒத்திசைவில் வெளிப்படுத்தும் லட்சியப் பணியை மேற்கொண்டனர். VASA-1 என்பது அவர்களின் முயற்சியின் விளைவாகும், ஏனெனில் AI அமைப்பு அசைவற்ற காட்சிகளை, அவை புகைப்படங்கள், வரைபடங்கள் அல்லது ஓவியங்கள், ஒத்திசைக்கப்பட்ட அனிமேஷன்களாக மாற்றுகிறது. கட்டுப்பாட்டிற்கு வரும்போது, ஆராய்ச்சியாளர்கள் தங்கள் பரவல் மாதிரியானது விருப்பமான சிக்னல்களை முக்கிய கண் பார்வை திசை மற்றும் தலை தூரம், உணர்ச்சி ஆஃப்செட் போன்ற நிபந்தனைகளாக ஏற்றுக் கொள்ள முடியும் என்று கூறினர்.
ஆய்வுக் கட்டுரையின் அடிப்படையில், குழு VASA-1 அமைப்பின் திறன்களை வீடியோ கிளிப்புகள் மூலம் காட்சிப்படுத்தியுள்ளது. மோனாலிசாவின் கார்ட்டூன் பதிப்பு ஒன்றில் உயிர்பெற்று ராப் பாடலாக உடைகிறது. இந்த எடுத்துக்காட்டில், மோனாலிசாவின் வெளிப்பாடுகள் மற்றும் உதடு அசைவுகள் பாடல் வரிகளுடன் சரியாக ஒத்துப்போகின்றன.
VASA-1 எவ்வாறு உருவாக்கப்பட்டது?
ஆய்வறிக்கையின் படி, VASA-1 இன் முன்னேற்றம் ஒரு விரிவான பயிற்சி செயல்முறை மூலம் நடந்தது. இது AI அமைப்புகள் பரந்த அளவிலான முகபாவனைகளை சித்தரிக்கும் ஆயிரக்கணக்கான படங்களை வெளிப்படுத்தியது. இந்த பரந்த தரவுத் தொகுப்பு, பேச்சு முறைகளுடன் மனித உணர்ச்சிகளின் நுணுக்கங்களைக் கற்றுக் கொள்ளவும் துல்லியமாக மீண்டும் உருவாக்கவும் கணினியை அனுமதித்ததாகக் கூறப்படுகிறது.
VASA-1 இன் தற்போதைய மறு செய்கையானது 45fps பிரேம் வீதத்துடன் 512X512 பிக்சல்களில் உயர் தெளிவுத்திறன் கொண்ட காட்சிகளை உருவாக்குகிறது. இந்த அனிமேஷன்கள் காட்சிகள் மற்றும் ஆடியோவைத் தடையின்றி ஒருங்கிணைத்து, உயிரோட்டமான அழகைக் கொடுத்தாலும், நுணுக்கமாக ஆராய்ந்தால், AI-உருவாக்கிய உள்ளடக்கத்தின் பொதுவான சில நுட்பமான குறைபாடுகள் மற்றும் சொல்லும் அறிகுறிகளை ஒருவர் கவனிக்க முடியும் என்று ஆராய்ச்சியாளர்கள் கூறியுள்ளனர். இருப்பினும், பகிரப்பட்ட எடுத்துக்காட்டுகள் VASA-1 இல் பணிபுரியும் குழுவின் தொழில்நுட்ப சிறப்பை வெளிப்படுத்துகின்றன.
“தமிழ் இந்தியன் எக்ஸ்பிரஸின் அனைத்து செய்திகளையும் உடனுக்குடன் டெலிகிராம் ஆப்பில் பெற https://t.me/ietamil“