Полное описание
>
Toleu, A. Character-Based Deep Learning Models for Token and Sentence Segmentation = Символьные модели глубинного обучения для графематического анализа / A. Toleu, G. Tolegen, A. Makazhanov. - Текст : непосредственный // V Международная конференция по компьютерной обработке тюркских языков "TurkLang 2017" : труды конференции, Россия,Татарстан, Казань, 18-21 октября 2017 : [в 2-х томах] / научные редакторы: Д. Ш. Сулейманов, А. Р. Гатиатуллин. - Казань : Академия наук Республики Татарстан, 2017. - Т 1. - С. 99-112. - на англ. яз. - Библиогр. в конце ст. - ISBN 978-5-9690-0406-1.
(Шифр в БД М/74552/1)
ГРНТИ | УДК | |
16.31.21 | 81'32 | |
28.23.37 | 004.032.26 |
РУБ ИИ | |
04.01 | |
04.06 Рубрики: Компьютерная лингвистика Искусственный интеллект -- Нейронные сети Нейронные сети -- Применение Кл.слова (ненормированные): графематический анализ -- глубинное обучение -- искусственные нейронные сети -- нейронные сети -- нейросеть Аннотация: В настоящей работе рассматривается задача графематического анализа, а именно проблемы сегментации текста на предложения и токены. Сегментация текста по предложениям рассматривается как задача нахождения отрывков текста, удовлетворяющих одному или нескольким определениям предложения. Сегментация на токены (токенизация) - задача разбиения текста на операционные единицы, т.е. слова, цифры, знаки препинания и пр. Токенизация является базовой задачей обработки естественного языка (ОЕЯ). Большинство прикладных задач ОЕЯ, отличающихся относительной сложностью, например, машинный перевод, нуждаются в сегментации входного текста по предложениям. Авторы разработали символьные модели глубинного обучения, которые не нуждаются в определении правил или признаков. Единственное в чем есть необходимость - это обучающая выборка, в которой каждый символ помечен IOB меткой. Подобные обучающие выборки легко получить из имеющихся сегментированных и токенизированных корпусов. В случае отсутствия последних обучающую выборку придется создавать вручную, как в прочем, и словари, и правила для других методов. Использование IOB разметки позволяет решать обе задачи одновременно, как одну задачу разметки последовательности, цель которой присвоить каждому символу одну из четырех меток: начало предложения (S), начало токена (T), тело токена (I), или пробел (O). Для решения данной задачи мы разработали три модели, основанные на искусственных нейронных сетях: (1) поступательная сеть; (2) LSTM сеть; (3) двунаправленная LSTM сеть. Разработанные модели используют символьные вложения, т.е. представления символов в виде векторов в многомерном пространстве. Авторы оценивают подход на трех типологически отдаленных языках: английском, итальянском и казахском, используя стандартные метрики точности, покрытия, F-меры и процента ошибки. Доп. точки доступа: Сулейманов, Д.Ш.\ред.\ Гатиатуллин, А.Р.\ред.\ Tolegen, G. Makazhanov, A. "TurkLang 2017", международная конференция по компьютерной обработке тюркских языков(5 ; Казань) > Имеются экземпляры в отделах: всего 1 : ХРЦ (1) Свободны: ХРЦ (1) Заказ фрагмента документа ₽ |