Шингл це невеликий фрагмент тексту, який складається з кількох слів у певній послідовності. Найчастіше це 2-5 слів, які система бере як єдиний блок для аналізу. Якщо простіше, текст розбивається на такі блоки, і вже вони порівнюються між собою. Тобто, коли працюєш із текстами, алгоритм шинглів не читає зміст так, як це робить людина. Він не “розуміє” сенс, а фіксує повторювані частини. Саме тому навіть невеликі збіги можуть впливати на результат перевірки.
Щоб було простіше уявити, як це виглядає, можна розглянути типові елементи, які система виділяє як шингли:
- послідовності з 2-3 слів, які повторюються у різних текстах;
- стандартні фрази, що часто використовуються у статтях;
- сталі конструкції без змін структури речення;
- фрагменти, які зберігають однаковий порядок слів.
Саме ці невеликі блоки формують основу оцінки тексту. І коли їх багато співпадає з іншими джерелами, унікальність автоматично знижується. Варто зазначити, що шингли використовуються не тільки для перевірки копій. Вони також допомагають системам визначати, наскільки текст повторює вже існуючі матеріали навіть у перефразованому вигляді. Тому іноді здається, що текст написаний по-новому, але система бачить знайому структуру.
Вплив шинглів на текст напряму залежить від того, як побудовані речення. Якщо структура повторюється, навіть інші слова не завжди рятують ситуацію. І тут виникає логічне запитання: якщо шингли настільки прості, чому вони дають такий точний результат? Відповідь у наступному розділі, де розглядається принцип роботи антиплагіат-систем.