Как мы обучаем искусственный интеллект понимать и воспроизводить украинский язык?
Для того чтобы машина свободно «общалась» с Вами при помощи голосовых или текстовых сообщений, необходимо, чтобы она имела возможности для обработки естественного языка (NLP). Хотя процесс обработки естественного языка не является новой наукой, технология быстро развивается благодаря повышению интереса к коммуникациям между людьми, а также наличия больших данных, мощных вычислений и расширенных алгоритмов.
Общие подходы NLP основаны на алгоритмах, которые трансформируют текст в слова и определенным образом обозначают их на основе позиций и функций слов в предложении. Интеллектуальные решения компании Inlimited для поиска и анализа Big Data, предоставляют возможность выполнять более 500 функций на основе NLP, которые позволят легко и всесторонне взаимодействовать с информацией.
Приведем в пример несколько из них:
— Распознавание именованных сущностей (NER) — поиск и классификация элементов в тексте по заранее определенным категориям, таким как: имена людей, названия компаний, местоположение, номера телефонов. Более того, интеллектуальная платформа позволяет находить скрытые связи между сущностями.
— Возможность поиска по корню слова (stemming) — выделение корня слова и последующий поиск по содержанию. Например, запрос «бег» будет автоматически подтягивать информацию про «беговую обувь», про «бегунов», про «места для бега». Такая функция обеспечивает более глубокий поиск информации по заданной теме.
— Распознавание речи. Разговорный язык существенно отличается от письменной речи – как в грамматике, так и в синтаксисе. NLP «понимает» язык через лингвистику, это позволяет выделять основные понятия из аудио и видео файлов и проводить контент-анализ.
— Анализ настроений (sentiment analysis) — определение отношения автора к написанному и классификация сообщений как положительных, отрицательных и нейтральных.
Что касается процесса обучения искусственного интеллекта, то, для того, чтобы компьютер распознавал и воспроизводил украинский язык, необходимо приложить много усилий. Это связано с тем, что украинский язык имеет общеупотребляемые слова, диалектные, специальные, устаревшие, авторские неологизмы и суржик. Несмотря на такую сложность, научить искусственный интеллект украинскому языку можно!
Предлагаем Вам ознакомиться с алгоритмом действий, который использует наша компания:
1. Составить список фонем. Фонемы должны охватывать все возможное произношение. Для украинского языка существует 48 фонем.
2. Создать словарь. С помощью слов в тексте, необходимо воспроизводить фонетическуое произношение, пока слова не будут признаны интеллектуальной платформой. Этот этап непосредственно для того, чтобы платформа могла изучить возможные взаимосвязи между буквой (последовательностью букв) и фонемами и создать генератор речи для украинского языка.
3. Создать специализированный словарь. На этом этапе набираются любые слова с онлайн-СМИ, блогов, сайтов, специальных ресурсов и тому подобное. Этот этап помогает создать языковую модель и список частоты использования определенных слов.
4. Научить систему «нормализовать текст». На этом этапе применяется сценарная поддержка для текста, пригодного для распознавания. Например, на украинском языке «1 июля. 2018» должно быть сопоставлено со словами «первого июля две тысячи восемнадцатого года».
5. Собрать аудиоданные. Для тренировки нужен звук вместе с соответствующей транскрипцией, которая должна быть свободна от музыки, шума и звуковых эффектов.
6. Обновить программный компонент Speech и в дальнейшем использовать украинский язык.
Что касается применения разработки компании Inlimited — решения, основанного на технологиях последнего поколения, оно позволит в автоматическом режиме одновременно проводить мониторинг и анализ потоков вещания как украиноязычных источников, так и информации на 32 языках мира, для мгновенного обнаружения новостей, программ, кадров, логотипов компаний, личностей, рекламных блоков, интересующих заказчика.
Обращайтесь к нам, если Вы заинтересованы в решении, которое позволяет в автоматическом режиме производить поиск, интеллектуальную обработку и анализ аудио-видео информации. Будем рады создать для Вас индивидуальное решение.