Επιστήμη & Τεχνολογία Τεχνητή Νοημοσύνη - AI Animation Τεχνολογία

OmniHuman-1: Το ΑΙ video εργαλείο της μητρικής εταιρείας του TikTok είναι πολύ καλό και όμως αληθινό

Το νέο εργαλείο της ByteDance δημιουργεί εξαιρετικά ρεαλιστικά βίντεο με μία μόνο φωτογραφία και ένα ηχητικό.

Η ByteDance, η μητρική εταιρεία του TikTok, παρουσίασε το OmniHuman-1, ένα προηγμένο μοντέλο τεχνητής νοημοσύνης που μπορεί να δημιουργήσει εξαιρετικά ρεαλιστικά βίντεο. Με την εισαγωγή μιας φωτογραφίας και ενός ηχητικού αποσπάσματος, το OmniHuman-1 παράγει ένα βίντεο όπου το άτομο στην εικόνα κινείται, κάνει χειρονομίες και συγχρονίζει τα χείλη του με τον ήχο με εξαιρετική ακρίβεια.

Όχι άλλο deepfake

Σε αντίθεση με τις παραδοσιακές τεχνικές "deepfake", που δημιουργούν βίντεο αντικαθιστώντας τα πρόσωπα στα υπάρχοντα πλάνα, το OmniHuman-1 δημιουργεί ολόκληρη την ανθρώπινη φιγούρα, από το κεφάλι μέχρι τα πόδια. Αυτό επιτρέπει τη δημιουργία animation όπου το άτομο τραγουδά ή εκτελεί διάφορες κινήσεις, προσφέροντας νέες δυνατότητες στη δημιουργία περιεχομένου.

Τι είναι το Diffusion Transformer

Το OmniHuman-1 χρησιμοποιεί την αρχιτεκτονική Diffusion Transformer (DiT) και μια τεχνολογία εκπαίδευσης με κίνηση, που του επιτρέπει να συνδυάζει διάφορους τύπους περιεχομένου –ήχο, βίντεο και πόζες– για να δημιουργεί φυσικές κινήσεις και εκφράσεις. Στα βίντεο του OmniHuman-1, τα άτομα φαίνεται να μιλούν, να κινούνται και να εκτελούν ενέργειες σε απόλυτο συγχρονισμό με τον ήχο του αποσπάσματος.

Animations με εξαιρετική φυσικότητα

Αυτό που εντυπωσιάζει αρχικά είναι η ποιότητα των βίντεο. Η ανάλυση είναι εξαιρετική, ο συγχρονισμός ήχου και εικόνας σχεδόν τέλειος και οι αστοχίες στο τελικό προϊόν είναι ελάχιστες. Παράλληλα, το μοντέλο μπορεί να δημιουργήσει καρτούν και ζώα σε πολύ δύσκολες και απαιτητικές πόζες.

Αξίζει να σημειωθεί ότι, πρόσφατα, η ByteDance απέρριψε την εξαγορά του Goku, ενός ΑΙ εργαλείου που προσφέρει υπηρεσίες "text to video". Ο λόγος είναι ότι το μοντέλο του Goku διαθέτει μόλις 8 δισεκατομμύρια παραμέτρους, αριθμός που θεωρείται εξαιρετικά χαμηλός για το επίπεδο ποιότητας που επιδιώκει η κινεζική εταιρεία.

Ο στόχος της ByteDance

Είναι προφανές ότι, με αυτές τις κινήσεις, η ByteDance εισέρχεται στην ίδια κατηγορία τεχνητής νοημοσύνης με το DeepSeek και την Alibaba, στοχεύοντας στη διαφημιστική αγορά που διεκδικεί το Facebook. Σε αυτόν τον τομέα δραστηριοποιείται επίσης η Kling AI, η οποία διαθέτει τεχνολογία αντίστοιχου επιπέδου. Ωστόσο, η ByteDance έχει το πλεονέκτημα ενός τεράστιου καταλόγου βίντεο και ενός ήδη εδραιωμένου κοινωνικού δικτύου, μέσω του οποίου μπορεί να διανέμει το περιεχόμενό της απευθείας στους χρήστες.

Αυτά τα ΑΙ εργαλεία δεν προορίζονται μόνο για την πώληση προϊόντων. Είναι φανερό ότι, μετά τη διαφήμιση, ο επόμενος στόχος είναι η τέχνη του animation σε όλες τις μορφές της. Αν και δεν αναμένεται άμεσα η δημιουργία βίντεο μεγάλης διάρκειας, δεν υπάρχει αμφιβολία ότι αυτό θα γίνει πραγματικότητα τα επόμενα χρόνια. Οι τεχνικές απαιτήσεις είναι τεράστιες, αλλά αυτού του είδους η τεχνητή νοημοσύνη εξελίσσεται ραγδαία. Μπορεί το OmniHuman-1 και το Goku να βρίσκονται ακόμη σε πειραματικό στάδιο, αλλά το περιεχόμενο που παράγουν ήδη είναι εντυπωσιακό.

Και το Hollywood στο παιχνίδι

Και δεν είναι μόνο τα social media. Ήδη στο Χόλιγουντ, όλα τα στούντιο χρησιμοποιούν AI, με αποτέλεσμα, όπως φαίνεται, να αντικατασταθεί η δουλειά του ανειδίκευτου εργάτη από την τεχνητή νοημοσύνη. Η διαδικασία έχει ήδη ξεκινήσει και οι ειδικοί εκτιμούν ότι οι παραγωγές θα χρησιμοποιούν ηθοποιούς μόνο για τους βασικούς και υποστηρικτικούς ρόλους, ενώ οι μικρότεροι ρόλοι και τα σκηνικά θα δημιουργούνται ψηφιακά.

Αν και το OmniHuman-1 δεν είναι ακόμη ευρέως διαθέσιμο, δείγματα βίντεο που δημιουργήθηκαν με αυτό έχουν ήδη κυκλοφορήσει στο διαδίκτυο, αποκαλύπτοντας τις δυνατότητές του στη δημιουργία ρεαλιστικών ανθρώπινων βίντεο με ελάχιστα δεδομένα εισόδου.