Образовательное взаимодействие

Материал из Поле цифровой дидактики


Описание Образовательное взаимодействие определяется как целенаправленный процесс, в ходе которого два или более участника (педагог, обучающиеся, обучающиеся между собой, обучающиеся и цифровая система) обмениваются вербальными, невербальными и/или цифровыми сигналами с целью передачи, конструирования, совместного осмысления и усвоения знаний, умений, компетенций и опыта.
Область знаний Педагогика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия


Название датасета Краткое описание Язык(и) Размер Ссылка / Доступ
ClassBank (TalkBank) Многоинституциональная коллекция видеозаписей классных дискуссий K-12 и высшего образования с расшифровками и аннотациями для различных схем кодирования. Инструменты для кодирования дискурса (Collaborative Commentary). Английский, французский 200+ часов видео, 1000+ расшифровок https://talkbank.org/ Открытый доступ
CIMA (Corpus of Influential Multimodal Articles) 2,454 оборота (turns) в 177 диалогах наставник-ученик (один-на-одно). Две задачи: распознавание форм (Shape) и предложные фразы (Prepositional Phrases). Каждое высказывание аннотировано типами действий наставника (Hint, Question, Correction, Confirmation) и действиями студента (Guess, Clarification Question, Affirmation). Применимость SDA: Очень высокая. Английский (обучение итальянскому) 2,454 turns в 177 диалогах (182 наставника, 90 студентов на Shape; 255 на Prepositional Phrase) https://github.com/kstats/CIMA (GitHub)
DIALLS Multilingual Corpus Датасет классных дискуссий из 7 европейских стран (UK, Португалия, Германия, Литва, Испания, Кипр, Израиль). 201 расшифрованный урок по программе культурной грамотности (CLLP) для студентов 5-15 лет. 122 урока переведены на английский. Фокус на диалог, аргументацию, культурную грамотность. Применимость SDA: Высокая (многоязычные дискуссии). Английский, португальский, немецкий, литовский, каталанский, греческий, иврит 201 расшифровка (202 после обновления), ~3500 высказываний https://zenodo.org/records/4742176 Открытый доступ (Zenodo, CC-BY 4.0) https://dialls2020.eu/corpus/ Описание проекта
Education Dialogue Dataset (Google Research) 40,000 синтетических диалогов между учителем и студентом, сгенерированные Gemini Ultra с метаданными о теме, предпочтениях студента/учителя, стиле обучения и реакциях на несоответствия. Каждый диалог ~10-15 оборотов. Применимость SDA: Средняя-высокая (структурировано, но синтетически). Английский 40,000 диалогов (training) + 7,234 (testing) https://github.com/google-research-datasets/Education-Dialogue-Dataset п (GitHub, CC-BY 4.0)
CANDOR Corpus (Common Analysis Dataset on Organizational Routines) Большой мультимодальный корпус с 1,656 разговорами (850+ часов говорения, 7+ млн слов). Включает видеозаписи с расшифровками, анализ жестов и поз. Аутентичные высокозвучные беседы. Хотя не специализирован именно на образовании, содержит данные организационного взаимодействия, применимые к групповым дискуссиям. Применимость SDA: Средняя. Английский 1,656 разговоров (850+ часов видео) https://github.com/oppresivoicomputerserver/candor-corpus Открытый доступ (GitHub)
PECC (Primary English Classroom Corpus) Корпус из 30 расшифровок уроков английского языка как иностранного (EFL) в начальных школах Германии (5-8 классы). 86,346 говоримых слов, 21+ часов видео. Записи реальных уроков без внешнего влияния, 2013-2015. Детальная лингвистическая разметка. Применимость SDA: Высокая (аутентичные уроки). Немецкий (обучение английскому) 30 уроков, 86,346 слов, 21+ часов видео https://www.uni-flensburg.de/pecc/corpus (Europa-Universität Flensburg)
TalkMoves Dataset Датасет классных взаимодействий K-12 с расшифровками и аннотациями по типам говорения учителя (types of teacher talk moves). Используется для анализа качества педагогического диалога. Применимость SDA: Высокая. Английский Несколько сотен расшифровок Доступен через Edu-ConvoKit: https://github.com/ewchu/Edu-ConvoKit Открытый доступ
NCTE (New Classroom Talk Corpus) 1,095 расшифровок классных дискуссий по математике в начальной школе. Содержит аннотации по различным параметрам. Используется для анализа качества обучающего диалога. Применимость SDA: Высокая. Английский 1,095 расшифровок, тысячи высказываний Доступен через Edu-ConvoKit: https://github.com/ewchu/Edu-ConvoKit Открытый доступ
Wikipedia Deletion Debates Corpus Датасет из 402,440 обсуждений о удалении статей в английской Википедии. Каждое обсуждение содержит аргументы, голосования, комментарии, результат решения. Аннотированы типы аргументов. Высоко структурирован. Применимость SDA: Высокая (групповые дискуссии с аргументацией). Английский 402,440 обсуждений https://github.com/elleawhite/wiki_deletions Открытый доступ (GitHub)
RuTOC (Russian Tutoring Online Corpus) РУССКИЙ ДАТАСЕТ Первый систематический корпус онлайн-уроков русского языка как иностранного (RFL). Аннотирован по параметрам интерактивности (conversational turns per 1000 words, TTT/STT — Teacher Talking Time vs Student Talking Time). Важный ресурс для анализа дискурса на русском языке. Применимость SDA: Высокая. Русский (обучение иностранцев) Точный размер неуточнён, но описывается как первый систематический корпус Требуется запрос у авторов (M.Y. Lebedeva и др.) или поиск на ResearchGate Публикация: "RuTOC: A Corpus of Online Lessons in Russian" (2022)
Corpus of Russian Teachers' Speech РУССКИЙ ДАТАСЕТ (В РАЗРАБОТКЕ) Систематический анализ речи учителей в российских школах (5-8 классы). Записи реальных уроков. Аннотация включает 19 уровней разметки: ортографическая транскрипция, морфология, этапы урока, паузы, фонетика, ошибки, эмоционально-оценочная лексика, discourse markers. Применимость SDA: Средняя-высокая (высокодетальная разметка, но больше сосредоточен на речи учителя). Русский Растущий датасет, точный размер неуточнён (в стадии разработки 2024) Контакт с авторами: E. Riehakaynen и др. Публикации в "Вопросы образования" / Educational Studies Moscow
Fora Corpus Датасет многопартийных фасилитируемых диалогов из 262 расшифровок. Участники обсуждают социально значимые темы (образование, выборы, здравоохранение), делятся личным опытом. 1,776 уникальных участников. Аннотированы параметры спикеров. Применимость SDA: Высокая (многопартийные дискуссии). Английский 262 расшифровки, 1,776 участников Требуется запрос у авторов исследования (Cornell)
Edu-ConvoKit Открытая библиотека Python для обработки и анализа образовательных диалогов. Включает встроенные датасеты (NCTE, TalkMoves и др.), модули для предварительной обработки, аннотирования, количественного анализа, анализа временных последовательностей, анализа с LLM. Не датасет сам по себе, но платформа для анализа. Английский (поддержка многоязычности) Встроенные датасеты: 1,095 NCTE + TalkMoves https://github.com/ewchu/Edu-ConvoKit ✓ Открытый доступ (GitHub, Python пакет)