Η εταιρεία πίσω από το ChatGPT, η OpenAI εγκαινίασε σήμερα το Whisper API, μία νέα έκδοση του προγράμματος ανοιχτού κώδικα Whisper που μετατρέπει την ομιλία σε κείμενο.
Με χρέωση 0,006 δολάρια το λεπτό, το Whisper είναι ένα σύστημα αυτόματης αναγνώρισης ομιλίας που επιτρέπει την απομαγνητοφώνηση από πολλές γλώσσες, καθώς και τη μετάφραση από άλλες γλώσσες στα αγγλικά. Δέχεται αρχεία σε διάφορες μορφές, όπως M4A, MP3, MP4, MPEG, MPGA, WAV και WEBM.
Πολλές εταιρείες έχουν αναπτύξει πολύ ικανά συστήματα αναγνώρισης ομιλίας, τα οποία βρίσκονται στον πυρήνα του λογισμικού και των υπηρεσιών τεχνολογικών κολοσσών όπως η Google, η Amazon και η Meta. «Αυτό όμως που κάνει το Whisper να διαφέρει» είναι ότι εκπαιδεύτηκε σε 680.000 ώρες δεδομένων σε διάφορες γλώσσες, που συλλέχθηκαν από το διαδίκτυο, λέει ο πρόεδρος της OpenAI Γκρεγκ Μπρόκμαν. Κατά τον ίδιο, η διαδικασία της εκμάθησης βελτίωσε την αναγνώριση «ιδιαίτερων προφορών» καθώς και την διάκριση τεχνικών όρων και θορύβων στο παρασκήνιο.
Ο Μπρόκμαν λέει πως η εταιρεία του βελτιστοποίησε το μοντέλο του Whisper φτάνοντας στα όριά του. «Είναι πολύ, πολύ πιο γρήγορο και εξαιρετικά βολικό».
Ωστόσο, το Whisper έχει τους περιορισμούς του – ιδιαίτερα σε ότι αφορά την πρόβλεψη της «επόμενης λέξης». Επειδή το σύστημα εκπαιδεύτηκε σε μεγάλο όγκο δεδομένων με θόρυβο, η OpenAI προειδοποιεί ότι το Whisper ενδέχεται να συμπεριλάβει στις μεταγραφές του λέξεις που δεν έχουν ειπωθεί – πιθανώς επειδή προσπαθεί να προβλέψει την επόμενη λέξη ενώ απομαγνητοφωνεί την ομιλία.
Προς το παρόν το Whisper δεν έχει την ίδια απόδοση σε όλες τις γλώσσες, και το ποσοστό σφαλμάτων είναι υψηλότερο σε γλώσσες για τις οποίες τα δεδομένα της εκμάθησής του ήταν σχετικά λιγότερα.
Η OpenAI θεωρεί πως οι δυνατότητες απομαγνητοφώνησης του Whisper θα βελτιώσουν υφιστάμενες εφαρμογές, προϊόντα και εργαλεία. Ήδη, η εφαρμογή εκμάθησης γλωσσών Speak που υποστηρίζεται από σύστημα τεχνητής νοημοσύνης, χρησιμοποιεί το νέο μοντέλο του Whisper για συζητήσεις με εικονικό συνομιλητή εντός του app.
Εάν η OpenAI καταφέρει να εισέλθει στην αγορά “speech-to-text” (μεταγραφή ομιλίας σε κείμενο), θα μπορούσε να εξασφαλίσει σημαντικά κέρδη. Σύμφωνα με μια έκθεση, η αγορά ενδέχεται να αγγίξει τα 5,4 δισεκατομμύρια δολάρια μέχρι το 2026, από 2,2 δισεκατομμύρια δολάρια που άξιζε το 2021.
«Θέλουμε πραγματικά να γίνουμε αυτή η καθολική νοημοσύνη», δήλωσε ο Μπρόκμαν. «Με μεγάλη ευελιξία, να είμαστε σε θέση να δεχτούμε οποιοδήποτε είδος δεδομένων σας – οποιοδήποτε είδος εργασίας θέλετε να επιτελέσετε – και να λειτουργήσουμε πολλαπλασιαστικά».