• ВХОД
  •  

    Полное описание


    Toleu, A. Character-Based Deep Learning Models for Token and Sentence Segmentation = Символьные модели глубинного обучения для графематического анализа / A. Toleu, G. Tolegen, A. Makazhanov. - Текст : непосредственный // V Международная конференция по компьютерной обработке тюркских языков "TurkLang 2017" : труды конференции, Россия,Татарстан, Казань, 18-21 октября 2017 : [в 2-х томах] / научные редакторы: Д. Ш. Сулейманов, А. Р. Гатиатуллин. - Казань : Академия наук Республики Татарстан, 2017. - Т 1. - С. 99-112. - на англ. яз. - Библиогр. в конце ст. - ISBN 978-5-9690-0406-1.
    (Шифр в БД М/74552/1)
    ГРНТИ УДК
    16.31.2181'32
    28.23.37004.032.26
    РУБ ИИ
    04.01
    04.06

    Рубрики:
    Компьютерная лингвистика
    Искусственный интеллект -- Нейронные сети
    Нейронные сети -- Применение

    Кл.слова (ненормированные): графематический анализ -- глубинное обучение -- искусственные нейронные сети -- нейронные сети -- нейросеть
    Аннотация: В настоящей работе рассматривается задача графематического анализа, а именно проблемы сегментации текста на предложения и токены. Сегментация текста по предложениям рассматривается как задача нахождения отрывков текста, удовлетворяющих одному или нескольким определениям предложения. Сегментация на токены (токенизация) - задача разбиения текста на операционные единицы, т.е. слова, цифры, знаки препинания и пр. Токенизация является базовой задачей обработки естественного языка (ОЕЯ). Большинство прикладных задач ОЕЯ, отличающихся относительной сложностью, например, машинный перевод, нуждаются в сегментации входного текста по предложениям. Авторы разработали символьные модели глубинного обучения, которые не нуждаются в определении правил или признаков. Единственное в чем есть необходимость - это обучающая выборка, в которой каждый символ помечен IOB меткой. Подобные обучающие выборки легко получить из имеющихся сегментированных и токенизированных корпусов. В случае отсутствия последних обучающую выборку придется создавать вручную, как в прочем, и словари, и правила для других методов. Использование IOB разметки позволяет решать обе задачи одновременно, как одну задачу разметки последовательности, цель которой присвоить каждому символу одну из четырех меток: начало предложения (S), начало токена (T), тело токена (I), или пробел (O). Для решения данной задачи мы разработали три модели, основанные на искусственных нейронных сетях: (1) поступательная сеть; (2) LSTM сеть; (3) двунаправленная LSTM сеть. Разработанные модели используют символьные вложения, т.е. представления символов в виде векторов в многомерном пространстве. Авторы оценивают подход на трех типологически отдаленных языках: английском, итальянском и казахском, используя стандартные метрики точности, покрытия, F-меры и процента ошибки.
    Доп. точки доступа:
    Сулейманов, Д.Ш.\ред.\
    Гатиатуллин, А.Р.\ред.\
    Tolegen, G.
    Makazhanov, A.
    "TurkLang 2017", международная конференция по компьютерной обработке тюркских языков(5 ; Казань)

    Экз-ры полностью М/74552/1
    Имеются экземпляры в отделах: всего 1 : ХРЦ (1)
    Свободны: ХРЦ (1)



    Заказ фрагмента документа ₽