Генерация учебных задач при помощи генеративных моделей: различия между версиями

Материал из Поле цифровой дидактики
Строка 6: Строка 6:
|Website=Красноярск
|Website=Красноярск
}}
}}
== Генерация учебных задач при помощи генеративных моделей ==
= Генерация учебных задач при помощи генеративных моделей =


== Аннотация ==
В работе представлены современные подходы к генерации учебных задач и вопросов при помощи искусственного интеллекта. Проведено картирование библиометрических материалов из крупнейших открытых для России баз научной информации Lense, Dimension и Digital Library ACM. Выделены работы, представляющее два ведущих взаимосвязанных направления - краудсорсинговую и автоматическую генерацию вопросов. Предложена общая схема обучающей системы на основе генеративных языковых моделей.
В работе представлены современные подходы к генерации учебных задач и вопросов при помощи искусственного интеллекта. Проведено картирование библиометрических материалов из крупнейших открытых для России баз научной информации Lense, Dimension и Digital Library ACM. Выделены работы, представляющее два ведущих взаимосвязанных направления - краудсорсинговую и автоматическую генерацию вопросов. Предложена общая схема обучающей системы на основе генеративных языковых моделей.


Строка 17: Строка 18:
; Keywords: artificial intelligence-generated content (AIGC)  
; Keywords: artificial intelligence-generated content (AIGC)  


Актуальность тематики автоматической генерации учебных задач значительно возросла в последние годы благодаря появлению новых мощных генеративных моделей. Для того, чтобы выбрать наиболее перспективное направление разработки мы провели картирование библиометрического поля по данной тематике. Для картирования библиометрической информации по теме генерации учебных заданий и вопросов мы использовали три крупнейшие и доступные в настоящее время в России библиографические базы данных Lens, Dimensions и Digital Library ACM. Lens - https://www.lens.org/ - бесплатная библиографическая база данных, которая предостляет доступ к научной информации, с акцентом на патенты и цитирование патентов. Dimensions - https://app.dimensions.ai/discover/publication - научная база данных, которая охватывает различные типы научных публикаций, гранты, патенты. DL ACM  - https://dl.acm.org/  платформа, на которой размещаются различные статьи и доклады, связанные с информатикой и технологиями. К каждой из этих баз мы сформулировали одинаковые вопросы с просьбой собрать публикации на тему автоматической генерации учебных заданий. Общая схема запроса выглядит следующим образом:
 
== Картирование библиометрического поля ==
Актуальность тематики автоматической генерации учебных задач значительно возросла в последние годы благодаря появлению новых мощных генеративных моделей. Для того, чтобы выбрать наиболее перспективное направление разработки мы провели картирование библиометрического поля по данной тематике. Для картирования библиометрической информации по теме генерации учебных заданий и вопросов мы использовали три крупнейшие и доступные в настоящее время в России библиографические базы данных Lens, Dimensions и Digital Library ACM. Lens - https://www.lens.org/ - бесплатная библиографическая база данных, которая предоставляет доступ к научной информации, с акцентом на патенты и цитирование патентов. Dimensions - https://app.dimensions.ai/discover/publication - научная база данных, которая охватывает различные типы научных публикаций, гранты, патенты. DL ACM  - https://dl.acm.org/  платформа, на которой размещаются различные статьи и доклады, связанные с информатикой и технологиями. К каждой из этих баз мы сформулировали одинаковые вопросы с просьбой собрать публикации на тему автоматической генерации учебных заданий. Общая схема запроса выглядит следующим образом:


  [All: "automatic question generation"] AND [E-Publication Date: (01/01/2010 TO 12/31/2023)]
  [All: "automatic question generation"] AND [E-Publication Date: (01/01/2010 TO 12/31/2023)]
Строка 46: Строка 49:
[[Файл:Scheme01 GenAI.png]]
[[Файл:Scheme01 GenAI.png]]
; Рисунок 2 Обобщенная схема обучающей системы
; Рисунок 2 Обобщенная схема обучающей системы
== Эксперименты с моделями ==


== Список литературы ==
== Список литературы ==

Версия 06:05, 20 сентября 2023


Описание события Доклад на конференции, Д.В. Сошников Высшая Школа Экономики, В.В.Буров, Высшая Школа Экономики, МГПУ Е.Д. Патаракин, МГПУ, Высшая Школа Экономики,
Тип события
Начало 2023-09-20T12:10:38.000Z
Окончание 2023-09-20T12:30:38.000Z
color orange
Адрес события Красноярск
Видео запись события
Среды и средства, которые использовались в рамках события
Формируемые в рамках события компетенции
Область знаний
Местоположение
Карта
Идёт загрузка карты…


Генерация учебных задач при помощи генеративных моделей

Аннотация

В работе представлены современные подходы к генерации учебных задач и вопросов при помощи искусственного интеллекта. Проведено картирование библиометрических материалов из крупнейших открытых для России баз научной информации Lense, Dimension и Digital Library ACM. Выделены работы, представляющее два ведущих взаимосвязанных направления - краудсорсинговую и автоматическую генерацию вопросов. Предложена общая схема обучающей системы на основе генеративных языковых моделей.

Ключевые слова
artificial intelligence-generated content (AIGC)


The paper presents modern approaches to the generation of educational tasks and questions using artificial intelligence. A mapping of bibliometric materials from the largest open databases of scientific information - Lense, Dimension, Digital Library ACM, has been conducted. Works representing two leading interconnected directions - crowdsourcing and automatic question generation - have been highlighted. A general scheme of a training system based on generative language models is proposed.

Keywords
artificial intelligence-generated content (AIGC)


Картирование библиометрического поля

Актуальность тематики автоматической генерации учебных задач значительно возросла в последние годы благодаря появлению новых мощных генеративных моделей. Для того, чтобы выбрать наиболее перспективное направление разработки мы провели картирование библиометрического поля по данной тематике. Для картирования библиометрической информации по теме генерации учебных заданий и вопросов мы использовали три крупнейшие и доступные в настоящее время в России библиографические базы данных Lens, Dimensions и Digital Library ACM. Lens - https://www.lens.org/ - бесплатная библиографическая база данных, которая предоставляет доступ к научной информации, с акцентом на патенты и цитирование патентов. Dimensions - https://app.dimensions.ai/discover/publication - научная база данных, которая охватывает различные типы научных публикаций, гранты, патенты. DL ACM - https://dl.acm.org/ платформа, на которой размещаются различные статьи и доклады, связанные с информатикой и технологиями. К каждой из этих баз мы сформулировали одинаковые вопросы с просьбой собрать публикации на тему автоматической генерации учебных заданий. Общая схема запроса выглядит следующим образом:

[All: "automatic question generation"] AND [E-Publication Date: (01/01/2010 TO 12/31/2023)]

В результате мы получили выборку из 60 статей DL ACM, выборку из 152 статей в Lens, и выборку из 342 статей Dimension. Все записи были сохранены и проверены в библиографическом менеджере Zotero, а затем представлены в виде карт в среде VOSviewer. Наиболее показательно картирование материалов из DL ACM, поскольку внутри библиотеки материалы подробно структурированы при помощи ключевых слов. Разбиение слов по кластерам представлено на рисунке. Более подробная информация с возможностью навигации и подобного рассмотрения отдельных групп доступна по ссылке https://tinyurl.com/y3rt7nrj


Рисунок 1 Кластеры ключевых слов DL ACM по тематике генерации задач


На рисунке 1 в левой части хорошо различим кластер краудсорсингового создания вопросов и проверки (ответы на вопросы, генерация текстов из данных, краудсорсинг), а в правой части кластер автоматической генерации (искусственный интеллект, автоматическая генерация, вовлечение учащихся). При дальнейшем анализе публикаций мы обратили особое внимание именно на связь автоматической генерации вопросов и дальнейшей краудсоринговой проверки их качества. Так в обзорах систем генерации контента[1,2] представлены варианты генерации контента либо при поддержке ИИ (AI-assisted writing AIAW) либо генерация контента полностью силами ИИ (AI-generated writing - AIGW). Авторы подчеркивают, что программы генерации контента могут быть настроены таким образом, чтобы соответствовать формальным правилам создания учебного и проверочного материала, и их мощь связана с возможностями перевода из текстового формата в другие. Практический интерес представляет обзор систем автоматической генерации вопросов [3], в котором авторы формулируют проблему генерации вопросов, группируют системы создания вопросов, выделяя при этом отдельные системы генерации вопросов, связанные со специальными областями знаний.


Среди работ, посвященных генерации вопросов в цифровой библиотеке ACM, необходимо выделить обзор [4], в котором обсуждаются проблемы создания вопросов для систем обучения и различные уровни текста, которые могут быть использованы для генерации вопросов, статью о краудсорсинговой оценке вопросов с множественным выбором ответов по математике и химии [5], и работу по генерации вопросов на основании анализа изображений [6], что может иметь особое значение при генерации вопросов в таких областях как биология, химия и медицина. Среди публикаций, найденных в базе Dimensions, отметим обзор систем автоматической генерации вопросов с множественным выбором ответов [7], обзоры способов автоматической генерации текстов, вопросов и ответов [8,9], и работу по оцениванию автоматически созданных тестов для медицинского образования [10]. Среди публикаций в базе Lens следует были отмечены описание фреймворка по генерации вопросов с множественным выбором [11], и работу по генерации вопросов с множественным выбором, одним из результатов которой было создание обучающего чат-бота [12].


На основании анализа материалов были предложены следующие варианты создания учебных задач на базе отечественных систем генерации контента:

  1. Формирование заданий по курсу либо через дополнительное обучение большой языковой модели (ruGPT-3) на основе имеющегося датасета заданий, либо путем автоматической генерации заданий диалоговыми языковыми моделями YaGPT и GigaChat по фрагментам учебника с дальнейшей краудсорсинговой проверкой качества полученных заданий.
  2. Проверка заданий с помощью больших диалоговых языковых моделей за счет извлечения признаков с помощью больших языковых моделей и дальнейшей ручной проверки признаков с помощью алгоритмической процедуры, либо путем полного делегирования процесса проверки заданий большой языковой модели.
  3. Создание бата-ассистента, задачей которого будет состоять в том, чтобы отвечать на вопросы ученика, не выходя за пределы заданного предмета.

С учётом основных строительных блоков, описанных выше, общую схему обучающей системы на основе генеративных языковых моделей можно представить следующим образом: (Рисунок 2).

Scheme01 GenAI.png

Рисунок 2 Обобщенная схема обучающей системы

Эксперименты с моделями

Список литературы

  1. Wu J. et al. AI-Generated Content (AIGC): A Survey: arXiv:2304.06632. arXiv, 2023.
  2. Cao Y. et al. A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT: arXiv:2303.04226. arXiv, 2023.
  3. Mulla N., Gharpure P. Automatic question generation: a review of methodologies, datasets, evaluation metrics, and applications // Prog Artif Intell. 2023. Vol. 12, № 1. P. 1–32.
  4. Zhang R. et al. A review on question generation from natural language text // ACM Trans. Inf. Syst. 2021. Vol. 40, № 1.
  5. Moore S. et al. Crowdsourcing the evaluation of multiple-choice questions using item-writing flaws and bloom’s taxonomy // Proceedings of the tenth ACM conference on learning @ scale. New York, NY, USA: Association for Computing Machinery, 2023. P. 25–34.
  6. Patil C., Patwardhan M. Visual question generation: The state of the art // ACM Comput. Surv. 2020. Vol. 53, № 3.
  7. Madri V.R., Meruva S. A comprehensive review on MCQ generation from text // Multimedia Tools and Applications. 2023. P. 1–20.
  8. Goyal R., Kumar P., Singh V.P. Automated question and answer generation from texts using text-to-text transformers // Arabian Journal for Science and Engineering. 2023. P. 1–15.
  9. Goyal R., Kumar P., Singh V.P. A Systematic survey on automated text generation tools and techniques: application, evaluation, and challenges // Multimedia Tools and Applications. 2023. P. 1–56.
  10. Falcão F. et al. A suggestive approach for assessing item quality, usability and validity of Automatic Item Generation // Advances in Health Sciences Education. 2023. P. 1–25.
  11. Kumar A.P. et al. A Novel Framework for the Generation of Multiple Choice Question Stems Using Semantic and Machine-Learning Techniques // International Journal of Artificial Intelligence in Education. Netherlands: Springer Science and Business Media LLC, 2023.
  12. Panchal P. et al. Automatic Question Generation and Evaluation // Journal of University of Shanghai for Science and Technology. 2021. Vol. 23, № 05. P. 751–761.