Το Whisper API εγκαινίασε η OpenAI – Γράφει όσα λέμε και μεταφράζει στα αγγλικά

Η εταιρεία πίσω από το ChatGPT, η OpenAI εγκαινίασε σήμερα το Whisper API, μία νέα έκδοση του προγράμματος ανοιχτού κώδικα Whisper που μετατρέπει την ομιλία σε κείμενο.

Με χρέωση 0,006 δολάρια το λεπτό, το Whisper είναι ένα σύστημα αυτόματης αναγνώρισης ομιλίας που επιτρέπει την απομαγνητοφώνηση από πολλές γλώσσες, καθώς και τη μετάφραση από άλλες γλώσσες στα αγγλικά. Δέχεται αρχεία σε διάφορες μορφές, όπως M4A, MP3, MP4, MPEG, MPGA, WAV και WEBM.

Η OpenAI εγκαινίασε το Whisper API  – Γράφει όσα λέμε και μεταφράζει στα αγγλικά

Πολλές εταιρείες έχουν αναπτύξει πολύ ικανά συστήματα αναγνώρισης ομιλίας, τα οποία βρίσκονται στον πυρήνα του λογισμικού και των υπηρεσιών τεχνολογικών κολοσσών όπως η Google, η Amazon και η Meta. «Αυτό όμως που κάνει το Whisper να διαφέρει» είναι ότι εκπαιδεύτηκε σε 680.000 ώρες δεδομένων σε διάφορες γλώσσες, που συλλέχθηκαν από το διαδίκτυο, λέει ο πρόεδρος της OpenAI Γκρεγκ Μπρόκμαν. Κατά τον ίδιο, η διαδικασία της εκμάθησης βελτίωσε την αναγνώριση «ιδιαίτερων προφορών» καθώς και την διάκριση τεχνικών όρων και θορύβων στο παρασκήνιο.

Ο Μπρόκμαν λέει πως η εταιρεία του βελτιστοποίησε το μοντέλο του Whisper φτάνοντας στα όριά του. «Είναι πολύ, πολύ πιο γρήγορο και εξαιρετικά βολικό».

Ωστόσο, το Whisper έχει τους περιορισμούς του – ιδιαίτερα σε ότι αφορά την πρόβλεψη της «επόμενης λέξης». Επειδή το σύστημα εκπαιδεύτηκε σε μεγάλο όγκο δεδομένων με θόρυβο, η OpenAI προειδοποιεί ότι το Whisper ενδέχεται να συμπεριλάβει στις μεταγραφές του λέξεις που δεν έχουν ειπωθεί – πιθανώς επειδή προσπαθεί να προβλέψει την επόμενη λέξη ενώ απομαγνητοφωνεί την ομιλία.

Προς το παρόν το Whisper δεν έχει την ίδια απόδοση σε όλες τις γλώσσες, και το ποσοστό σφαλμάτων είναι υψηλότερο σε γλώσσες για τις οποίες τα δεδομένα της εκμάθησής του ήταν σχετικά λιγότερα.

Η OpenAI θεωρεί πως οι δυνατότητες απομαγνητοφώνησης του Whisper θα βελτιώσουν υφιστάμενες εφαρμογές, προϊόντα και εργαλεία. Ήδη, η εφαρμογή εκμάθησης γλωσσών Speak που υποστηρίζεται από σύστημα τεχνητής νοημοσύνης, χρησιμοποιεί το νέο μοντέλο του Whisper για συζητήσεις με εικονικό συνομιλητή εντός του app.

Εάν η OpenAI καταφέρει να εισέλθει στην αγορά “speech-to-text” (μεταγραφή ομιλίας σε κείμενο), θα μπορούσε να εξασφαλίσει σημαντικά κέρδη. Σύμφωνα με μια έκθεση, η αγορά ενδέχεται να αγγίξει τα 5,4 δισεκατομμύρια δολάρια μέχρι το 2026, από 2,2 δισεκατομμύρια δολάρια που άξιζε το 2021.

«Θέλουμε πραγματικά να γίνουμε αυτή η καθολική νοημοσύνη», δήλωσε ο Μπρόκμαν. «Με μεγάλη ευελιξία, να είμαστε σε θέση να δεχτούμε οποιοδήποτε είδος δεδομένων σας – οποιοδήποτε είδος εργασίας θέλετε να επιτελέσετε – και να λειτουργήσουμε πολλαπλασιαστικά».

ΠΗΓΗ

ΣΧΕΤΙΚΑ ΑΡΘΡΑ

Leave a reply

εισάγετε το σχόλιό σας!
παρακαλώ εισάγετε το όνομά σας εδώ

ΠΡΟΣΦΑΤΑ ΑΡΘΡΑ

Ανοίγω το Νέο μου Super Tablet 13″ 2,5K με Windows 11, Ai επεξεργαστή Intel Core Ultra 5 115U, 16GB DDR5, 1TB nVme & Επισκευάζω...

Με αφορμή το το Νέο μου Super Tablet 13" 2,5K με Windows 11, Ai επεξεργαστή Intel Core Ultra 5 115U και τα σχόλια πολλών έξυπνων...

Είσαι Camper ή Outdoor τύπος; ΤΕΡΑΣΤΙΑ “Τσάμπα” Σκηνή… Αυτοκινήτου! Xmund car tailgate rear tent στα 71€ ΚΟΜΠΛΕ!!! (βίντεο)

ΠΡΟΣΟΧΗ ΠΟΛΥ ΠΕΡΙΟΡΙΣΜΕΝΗ ΔΙΑΘΕΣΙΜΟΤΗΤΑ Είναι τεράστια, με βολικό factor που θα σε κάνει να εκμεταλλευτείς στο έπακρο τόσο την σκηνή σου όσο και τον χώρο που...

OnePlus 16: Θα έρθει με αναβαθμισμένη οθόνη και τρομερά δυνατό chipset

Μπορεί να απέχουμε μερικούς μήνες από την ανακοίνωση του OnePlus 16 και με τα προβλήματα της εταιρείας και τις περικοπές, δεν γνωρίζουμε ακόμα αν...

Redmi Note 17 Pro Max: Ίσως έρθει με μπαταρία 10.000mAh! Διέρρευσαν τα χαρακτηριστικά του

Η Xiaomi λογικά θα ακολουθήσει την ονοματολογία των ναυαρχίδων τους και έτσι πιθανότατα δε θα δούμε τα Redmi Note 16. Έτσι, η επόμενη σειρά...

Windows Terminal: Έρχεται νέο μενού ρυθμίσεων με ριζική αλλαγή

Η Microsoft παρουσίασε τα πρώτα σχέδια για την πλήρη ανασχεδίαση του μενού ρυθμίσεων στο Windows Terminal, με τον μηχανικό λογισμικού Carlos Zamora να δημοσιεύει...

ΤΕΛΕΥΤΑΙΕΣ ΠΡΟΣΦΟΡΕΣ

Ανοίγω το Νέο μου Super Tablet 13″ 2,5K με Windows 11, Ai επεξεργαστή Intel Core Ultra 5 115U, 16GB DDR5, 1TB nVme & Επισκευάζω...

Με αφορμή το το Νέο μου Super Tablet 13" 2,5K με Windows 11, Ai επεξεργαστή Intel Core Ultra 5 115U και τα σχόλια πολλών έξυπνων...

Είσαι Camper ή Outdoor τύπος; ΤΕΡΑΣΤΙΑ “Τσάμπα” Σκηνή… Αυτοκινήτου! Xmund car tailgate rear tent στα 71€ ΚΟΜΠΛΕ!!! (βίντεο)

ΠΡΟΣΟΧΗ ΠΟΛΥ ΠΕΡΙΟΡΙΣΜΕΝΗ ΔΙΑΘΕΣΙΜΟΤΗΤΑ Είναι τεράστια, με βολικό factor που θα σε κάνει να εκμεταλλευτείς στο έπακρο τόσο την σκηνή σου όσο και τον χώρο που...

Από Ελλάδα με 25€!!! Το “ΚΑΛΥΤΕΡΟ” Επώνυμο Smart Watch που μπορείς να πάρεις… QCY Active GX (Βίντεο & Giveaway)

Είναι από Ελλάδα σε ΤΙΜΗ "Κίνας"... δεν έχει πραγματικά να ζηλέψει τίποτα από ακριβότερα αδέρφια του... και το χτυπάς "Θέλεις δε Θέλεις" Έχει οθονάρα Amoled...

Τα Πράγματα είναι “ΣΟΒΑΡΑ” Part 2… To “ΑΠΟΛΥΤΟ” Power Station Για το “Σακίδιο ΤΩΝ 72 ΩΡΩΝ”!!! Allpwers S200 V2 στα 98€ ΚΟΠΛΕ. (Βίντεο)

Μικρό, ελαφρύ, δυνατό, ποιοτικό, βολικό Είναι To "ΑΠΟΛΥΤΟ" Power Station Για το "Σακίδιο ΤΩΝ 72 ΩΡΩΝ"!!! Δεν μιλάω για "ψεκ", "prepers" και θεωρίες συνομωσίας... αλλά για...

To “Elgato του Φτωχού”?! Με 78€ Γίνε ο Βασιλιάς του Multitasking και απογειώσε την αποδοτικότητα σου… (βίντεο)

Ο τίτλος πραγματικά τα λέει όλα και σε μια τιμή που είναι 3 φορές πιο κάτω από κάτι αντίστοιχο... Με τρελή παραμετροποίηση και δυνατότητες πραγματικά...