O άνθρωπος εκ φύσεως έχει την πολύ καλή ικανότητα να διαχωρίζει σε κάθε περιβάλλον από πού προέρχεται μια φωνή και να στρέφει την προσοχή τους στην εκάστοτε πηγή, είναι κάτι που πραγματικά “ζηλεύουν” οι υπολογιστές και η μέθοδος αυτή ονομάζεται “cocktail party effect”. Ωστόσο η Google επειδή δεν θέλει να υπάρχουν ελλείψεις στους υπολογιστές και γενικότερα στις ψηφιακής συσκευές, έχει ασχοληθεί με το όλο θέμα και έτσι ανέπτυξε το δικό του οπτικοακουστικό μοντέλο για το διαχωρισμό ομιλίας ανάμεσα σε πολλές στον ίδιο χώρο. Η δικιά της μέθοδος εφαρμόστε παντού και στην ουσία έχει παράγει ένα βίντεο στο οποίο βλέπουμε ότι λαμβάνονται οι κινήσεις του στόματος ενός ατόμου και συσχετίζονται με ήχους που παράγονται καθώς ο άνθρωπος αυτός μιλάει και έτσι επιτρέπεται σε αυτό το όλο μοντέλο να καταλάβεις ποιο μέρος του ήχου προέρχεται από αυτό το άτομο. Αυτό επιτρέπει την διαχωρισμό των ξεχωριστών καθαρών ομιλιών ομιλίας μέσα στο βίντεο.
Τα δεδομένα αυτά επέτρεψαν στην Google να εκπαιδεύσει ένα μοντέλο βασισμένο σε νευρωνικά δίκτυα πολλαπλών ρευμάτων για να διαιρέσει το μίγμα συνθετικών κοκτέιλ σε ξεχωριστές ροές ήχου για κάθε ηχείο του βίντεο.
Σύμφωνα με την Google είναι εφικτό αυτή η μέθοδος να έχει εφαρμογές σε τηλεδιασκέψεις, στη βελτίωση ανθρώπων με προβλήματα ακοής αλλά και σε περιπτώσεις όπου μιλάνε πολλοί άνθρωποι ταυτόχρονα και πρέπει κάποιος να ακούγεται πιο δυνατά και άλλος πιο χαμηλά.
Ουσιαστικά αυτό που έκανε η Google ήταν να χρησιμοποιήσει 100.000 υψηλής ποιότητας video με ομιλίες και διαλέξεις από το YouTube και κατάφερε να κάνει “εξαγωγή” καθαρής ομιλίας χωρίς να ακούγεται μουσική και ήχοι από το κοινό που παρακολουθούσε, έτσι ώστε να “εκπαιδεύσει” ένα μοντέλο συνελικτικών νευρωνικών δικτύων για να ξεχωρίσει την ομιλία του καθενός σε ξεχωριστά “κανάλια” ήχου. Αυτά στη συνέχεια πολλαπλασιάζονται με το θορυβώδες φάσμα εισόδου και μετατρέπονται πίσω σε μια κυματομορφή τομέα χρόνου για να αποκτήσουν το επιθυμητό απομονωμένο καθαρό σήμα ομιλίας.
[via]