<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE rdf:RDF[
	<!ENTITY rdf 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>
	<!ENTITY rdfs 'http://www.w3.org/2000/01/rdf-schema#'>
	<!ENTITY owl 'http://www.w3.org/2002/07/owl#'>
	<!ENTITY swivt 'http://semantic-mediawiki.org/swivt/1.0#'>
	<!ENTITY wiki 'digida.mgpu.ru'>
	<!ENTITY category 'digida.mgpu.ruCategory-3A'>
	<!ENTITY property 'digida.mgpu.ruProperty-3A'>
	<!ENTITY wikiurl 'http://digida.mgpu.ru/index.php/'>
]>

<rdf:RDF
	xmlns:rdf="&rdf;"
	xmlns:rdfs="&rdfs;"
	xmlns:owl ="&owl;"
	xmlns:swivt="&swivt;"
	xmlns:wiki="&wiki;"
	xmlns:category="&category;"
	xmlns:property="&property;">

	<owl:Ontology rdf:about="http://digida.mgpu.ru/index.php/Special:ExportRDF/Токенизация_текста">
		<swivt:creationDate rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2026-04-10T16:17:47+03:00</swivt:creationDate>
		<owl:imports rdf:resource="http://semantic-mediawiki.org/swivt/1.0"/>
	</owl:Ontology>
	<swivt:Subject rdf:about="digida.mgpu.ruТокенизация_текста">
		<rdf:type rdf:resource="digida.mgpu.ruCategory-3AПонятие"/>
		<rdfs:label>Токенизация текста</rdfs:label>
		<rdfs:isDefinedBy rdf:resource="http://digida.mgpu.ru/index.php/Special:ExportRDF/Токенизация_текста"/>
		<swivt:page rdf:resource="http://digida.mgpu.ru/index.php/Токенизация_текста"/>
		<swivt:wikiNamespace rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">0</swivt:wikiNamespace>
		<swivt:wikiPageContentLanguage rdf:datatype="http://www.w3.org/2001/XMLSchema#string">ru</swivt:wikiPageContentLanguage>
		<property:Description rdf:datatype="http://www.w3.org/2001/XMLSchema#string">· Что это? Первый и обязательный этап обработки текста, его разбиение на минимальные значимые единицы — токены (чаще всего слова, но могут быть и предложения, n-граммы).
· Зачем нужно?
  · Стандартизация для дальнейшей компьютерной обработки.
  · Основа для частотного анализа, классификации, анализа тональности.
· Основные методы:
  1. Простая лексическая: Разделение по пробелам и знакам препинания. Быстро, но неточно (проблемы со словами в кавычках, числами).
  2. На основе регулярных выражений (Regex): Гибкое выделение по заданным паттернам (e-mail, хештеги). Для специфичных задач.
  3.С помощью NLP-библиотек (NLTK, spaCy): Учитывают морфологию и контекст языка (различают точку в сокращении и в конце предложения). Наиболее распространённый и точный метод.
  4. Subword-токенизация (WordPiece, BPE): Используется в нейросетях (BERT, GPT). Разбивает редкие слова на части («самокат» → «сам», «око», «ат»). Работает с незнакомыми словами.
· Токенизация в R (пример): С использованием пакета tidytext и функции unnest_tokens().</property:Description>
		<swivt:wikiPageModificationDate rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2026-01-22T18:40:37Z</swivt:wikiPageModificationDate>
		<property:Modification_date-23aux rdf:datatype="http://www.w3.org/2001/XMLSchema#double">2461063.278206</property:Modification_date-23aux>
		<swivt:wikiPageSortKey rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Токенизация текста</swivt:wikiPageSortKey>
	</swivt:Subject>
	<owl:DatatypeProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#creationDate" />
	<owl:Class rdf:about="digida.mgpu.ruCategory-3AПонятие" />
	<owl:ObjectProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#page" />
	<owl:DatatypeProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#wikiNamespace" />
	<owl:DatatypeProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#wikiPageContentLanguage" />
	<owl:DatatypeProperty rdf:about="digida.mgpu.ruProperty-3ADescription" />
	<owl:DatatypeProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#wikiPageModificationDate" />
	<owl:DatatypeProperty rdf:about="digida.mgpu.ruProperty-3AModification_date-23aux" />
	<owl:DatatypeProperty rdf:about="http://semantic-mediawiki.org/swivt/1.0#wikiPageSortKey" />
	<!-- Created by Semantic MediaWiki, https://www.semantic-mediawiki.org/ -->
</rdf:RDF>