uk

Як ми навчаємо штучний інтелект розуміти і відтворювати українську мову?

calendar27 Серпня 2018

Для того, щоб машина вільно «спілкувалася» з Вами за допомогою голосових або текстових повідомлень, необхідно, щоб вона володіла можливостями обробки природної мови (NLP). Хоча процес обробки природної мови не є новою наукою, технологія швидко розвивається завдяки підвищенню інтересу до комунікацій між людьми, а також наявності великих даних, потужних обчислень та розширених алгоритмів.

Загальні підходи NLP ґрунтуються на алгоритмах, які трансформують текст у слова та певним чином позначають їх, на основі позиції та функції слів у реченні. Інтелектуальні рішення компанії Inlimited для пошуку та аналізу Big Data, надають можливість виконувати понад 500 функцій на основі NLP, які дозволять легко та всебічно взаємодіяти з інформацією.
Наведемо декілька з них:
– Розпізнавання іменованих сутностей (NER) – пошук та класифікація елементів у тексті за заздалегідь визначеними категоріями, такими як: імена людей, назви компаній, місця розташування, номери телефонів. Більше того, інтелектуальна платформа дозволяє знаходити приховані зв’язки між іменованими сутностями.
– Можливість пошуку за коренем слова (stemming) – виділення кореня слова і подальший пошук за змістом. Наприклад, запит “біг” буде автоматично підтягувати інформацію про “бігове взуття”, про “бігунів”, про “місця для бігу”. Така функція забезпечує більш глибокий пошук інформації за заданою темою.
– Розпізнавання мови. Розмовна мова істотно відрізняється від письмової – як в граматиці, так і в синтаксисі. NLP «розуміє» мову через лінгвістику, це дозволяє виокремлювати основні поняття з аудіо та відео файлів та проводити контент-аналіз.
– Аналіз настроїв (sentiment analysis) – визначення ставлення автора до написаного та класифікація повідомлень як позитивних, негативних чи нейтральних.

Щодо процесу навчання штучного інтелекту, то, за для того, щоб комп’ютер розпізнавав та відтворював українську мову, необхідно докласти багато зусиль. Це пов’язано з тим, що українська мова має загальновживанi слова, дiалектнi, спецiальнi, застарiлi, авторськi неологiзми та суржик. Не дивлячись на таку складність, навчити штучний інтелект українській мові можна!

Наведемо Вам алгоритм дій, який використовує наша компанія:
1. Скласти список фонем. Фонеми повинні охоплювати усю можливу вимову. Для української мови існує 48 фонем.
2. Створити словник. За допомогою слів з тексту, необхідно відтворювати фонетичну вимову, поки слова не будуть визнані інтелектуальною платформою. Цей етап безпосередньо для того, щоб платформа могла вивчити можливі взаємозв’язки між буквою (послідовністю букв) та фонемами і створити генератор мовлення для української мови.
3. Cтворити спеціалізований словник. На цьому етапі збираються будь-які слова з онлайн-ЗМІ, блогів, сайтів, спеціальних ресурсів тощо. Цей етап допомагає створити мовну модель та список частоти використання слів.
4. Навчити систему «нормалізовувати текст». На цьому етапі застосовується сценарна підтримка для тексту, придатного для розпізнавання. Наприклад, на українській мові “1 лип. 2018″ повинно бути зіставлено зі словами ” Перше липня дві тисячі вісімнадцятого року” або «Під-во «Україна»» зіставлятися з «Підприємство «Україна»».
5. Зібрати аудіодані. Для тренування потрібен звук разом із відповідною транскрипцією, яка має бути вільна від музики, шуму та звукових ефектів.
6. Оновити програмний компонент Speech, щоб визнати і в подальшому використовувати українську мову.

Що стосується застосування розробки компанії Inlimited – рішення, заснованого на технологіях останнього покоління, воно дозволить в автоматичному режимі одночасно проводити моніторинг та аналіз потоків мовлення як україномовних джерел, так і інформації на 32 мовах світу, для миттєвого виявлення новин, програм, кадрів, логотипів компаній, особистостей, рекламних блоків, що цікавлять замовника.
Звертайтеся до нас, якщо Ви зацікавлені у рішенні, яке дозволяє в автоматичному режимі виконувати пошук, інтелектуальну обробку та аналіз аудіо-відео інформації. Будемо раді створити для Вас індивідуальне рішення.