10.1 C
Athens
Κυριακή, 22 Δεκεμβρίου 2024

Είμαστε πιο κοντά από ποτέ στην «αθανασία» μέσω AI χάρη στη νέα τεχνολογία φωνής της Meta

Οι ραγδαίες εξελίξεις στο χώρο της τεχνητής νοημοσύνης συνεχίζονται και τώρα η Meta έκανε ένα σημαντικό βήμα προς την «αθανασία» μέσω AI, με την παρουσίαση του Voicebox, ενός εξελιγμένου μοντέλου παραγωγής φωνής από κείμενο. Αυτή η νέα τεχνητή νοημοσύνη φιλοδοξεί να κάνει ότι κατάφερε το ChatGPT για το κείμενο και το Dall-E για τη δημιουργία εικόνων, παράγοντας τρομερά ρεαλιστικά ηχητικά αποσπάσματα από κείμενο. Θεωρητικά, με το Voicebox, η φωνή οποιοδήποτε διάσημου και όχι μόνο θα μπορούσε να συνεχίσει να χρησιμοποιείται ακόμη και μετά το θάνατό του.
Σύμφωνα με τη Meta, το Voicebox λειτουργεί ως ένα “non-autoregressive flow-matching” μοντέλο που έχει εκπαιδευτεί για να συμπληρώνει την ομιλία, δεδομένου του ηχητικού πλαισίου και του κειμένου. Η τεχνητή νοημοσύνη εκπαιδεύτηκε με περισσότερες από 50.000 ώρες δεδομένων ήχου από δημόσια προσβάσιμα audiobooks σε διάφορες γλώσσες, συμπεριλαμβανομένων των αγγλικών, γαλλικών, ισπανικών, γερμανικών, πολωνικών και πορτογαλικών. Αυτό το πλούσιο και ποικιλόμορφο σύνολο δεδομένων επιτρέπει στο Voicebox να δημιουργεί ομιλία που ακούγεται σαν πραγματική, ανεξάρτητα από τη γλώσσα. Μάλιστα, το εντυπωσιακό είναι ότι η συνθετική ομιλία που παράγεται από το Voicebox είχε ποσοστό σφάλματος μόνο 1%, μια σημαντική βελτίωση σε σύγκριση με την κατά 45 έως 70% εξασθένιση που παρατηρείται στα υπάρχοντα μοντέλα μετατροπής κειμένου σε ομιλία (TTS).Είμαστε πιο κοντά από ποτέ στην «αθανασία» μέσω AI χάρη στη νέα τεχνολογία φωνής της MetaΗ καινοτόμος διαδικασία εκπαίδευσης περιλάμβανε μεταξύ άλλων τη δυνατότητα του μοντέλου να προβλέπει τμήματα ομιλίας με βάση το περιβάλλον και το σχετικό κείμενο. Όπως περιγράφουν οι ερευνητές της Meta, αυτό επιτρέπει στο μοντέλο να παράγει συγκεκριμένα τμήματα μιας ηχογράφησης, χωρίς να αναδημιουργεί ολόκληρη την είσοδο. Επιπλέον, το Voicebox μπορεί και να επεξεργάζεται κλιπ ήχου, να φιλτράρει το θόρυβο και να διορθώνει ακόμη και λανθασμένες εκφωνήσεις, όπως κάνει δηλαδή η χρήση λογισμικού επεξεργασίας εικόνας για τη βελτίωση φωτογραφιών. Συνολικά, η τεχνητή νοημοσύνη της Meta φέρεται να ξεπερνά κατά πολύ τα Text-to-Speech μοντέλα τελευταίας τεχνολογίας όσον αφορά την ευκρίνεια και την “ηχητική ομοιότητα” και λειτουργεί έως και 20 φορές ταχύτερα.
Ωστόσο, η Meta αποφάσισε να μη διαθέσει προς το παρόν κάποια εφαρμογή ή τον πηγαίο της κώδικα στο κοινό, επικαλούμενη πιθανούς κινδύνους κατάχρησης. Μπορείτε να ακούσετε παραδείγματα και να μάθετε περισσότερα πατώντας εδώ.

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Leave a reply

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

ΠΡΟΣΦΑΤΑ ΑΡΘΡΑ

ΤΕΛΕΥΤΑΙΕΣ ΠΡΟΣΦΟΡΕΣ

Μετάβαση στο περιεχόμενο