Η Google παρουσίασε το Gemini Omni — ένα νέο AI μοντέλο που συνδυάζει για πρώτη φορά τις ικανότητες συλλογισμού του Gemini με δημιουργία βίντεο. Το πρώτο μέλος της οικογένειας, το Gemini Omni Flash, είναι ήδη διαθέσιμο μέσω της εφαρμογής Gemini, του Google Flow και του YouTube Shorts.
Τι κάνει το Gemini Omni που δεν έκανε τίποτα άλλο πριν
Το Gemini Omni δέχεται ως είσοδο οποιδήποτε συνδυασμό εικόνας, ήχου, βίντεο και κειμένου, και παράγει βίντεο υψηλής ποιότητας που λαμβάνουν υπόψη νόμους φυσικής, ιστορικό πλαίσιο και αφηγηματική συνέχεια. Στην πράξη, αυτό σημαίνει ότι μπορεί κανείς να ανεβάσει ένα βίντεο που έχει τραβήξει ο ίδιος και να του δώσει εντολές με φυσική γλώσσα — «άλλαξε το φωτισμό», «πρόσθεσε έναν χαρακτήρα», «κάνε τα φύλλα bioluminescent» — και το μοντέλο εφαρμόζει κάθε αλλαγή διατηρώντας τη συνέχεια της σκηνής.
Το Gemini Omni επεξεργάζεται βίντεο μέσω συνομιλίας, όπου κάθε νέα οδηγία χτίζεται πάνω στην προηγούμενη. Αυτό διαφέρει από τα υπάρχοντα εργαλεία AI video, που συνήθως επανεκκινούν τη δημιουργία από μηδέν με κάθε αίτημα.
Φυσική, χαρακτήρες και πολυτροπική κατανόηση
Ένα από τα βασικά χαρακτηριστικά του Omni είναι η βελτιωμένη κατανόηση φυσικών νόμων — βαρύτητα, κινητική ενέργεια, ρευστοδυναμική — που επιτρέπει πιο ρεαλιστικές σκηνές. Παράλληλα, οι χαρακτήρες παραμένουν οπτικά συνεπείς ακόμα και αν αλλάξει το περιβάλλον ή το στιλ βίντεο.
Το μοντέλο μπορεί επίσης να χρησιμοποιεί ταυτόχρονα εικόνα χαρακτήρα, βίντεο αναφοράς κίνησης και ηχητικό αρχείο για να παράγει ένα ενιαίο αποτέλεσμα. Η υποστήριξη για περισσότερους τύπους ήχου ως είσοδο προγραμματίζεται σε επόμενο στάδιο.
Avatar, SynthID και ζητήματα διαφάνειας
Το Gemini Omni περιλαμβάνει λειτουργία Avatar που επιτρέπει στον χρήστη να δημιουργεί βίντεο με τη δική του φωνή και εικόνα. Η Google τονίζει ότι η επεξεργασία φωνής τρίτων ατόμων βρίσκεται ακόμα σε φάση αξιολόγησης. Όλα τα βίντεο που παράγονται από το Omni φέρουν αόρατο ψηφιακό υδατογράφημα SynthID, που μπορεί να επαληθευτεί μέσω της εφαρμογής Gemini, του Gemini στο Chrome και της Google Αναζήτησης.
Διαθεσιμότητα
Το Gemini Omni Flash είναι ήδη διαθέσιμο για συνδρομητές Google AI Plus, Pro και Ultra παγκοσμίως. Στο YouTube Shorts και το YouTube Create App θα είναι διαθέσιμο δωρεάν από αυτή την εβδομάδα. Πρόσβαση μέσω API για developers και εταιρικούς πελάτες αναμένεται τις επόμενες εβδομάδες.
Το Gemini Omni είναι η πρώτη φορά που ένα μεγάλο AI μοντέλο δεν απλώς «δημιουργεί» βίντεο, αλλά το «συνεχίζει» νοητά βάσει αυτού που ήδη συμβαίνει στη σκηνή. Αν αυτό λειτουργεί όπως υπόσχεται, η επεξεργασία βίντεο πάει να αλλάξει ριζικά — ακόμα και για τον κοινό χρήστη που θέλει απλώς να κάνει ένα βίντεο από κινητό λίγο πιο ενδιαφέρον. Το πόσο καλά αντέχει στην καθημερινή χρήση θα φανεί σύντομα, μιάς και η πρόσβαση ανοίγει για όλους μέσω YouTube Shorts.
