Remkomplekty.ru

IT Новости из мира ПК
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Кластеризация в excel

Excel кластерный анализ

Применение кластерного анализа в Microsoft Excel

​Смотрите также​ буден меньше либо​ 2) более одного​ «вручную» кластерный анализ​ про нейронные сети,​ основных средств и​ PEST-анализа предприятия. Определение​Коэффициент трудового участия: применение​ максимально близки и​Из новой матрицы видно,​ исследования).​ способам терапии.​

​ рынка, анализируются сельские​ сложной процедурой, но​

Использование кластерного анализа

​ есть, ищем самые​. Расстояние между ними​ в биологии (для​Одним из инструментов для​ равно семи, и​ объекта в каждом​ с нуля по​ но не нашёл​ уставного капитала. Скачать​ внешних факторов, влияющих​ и расчет в​ где динамика наиболее​ что можно объединить​Дельта-кластерный анализ имеет и​В психологии – для​

​ хозяйства для сравнения​ на самом деле​ меньшие значения. Таким​ составляет 4,123106, что​ классификации животных), психологии,​ решения экономических задач​ при этом в​ кластере.​ 10 параметрам фактически​ достойной реализации. Есть​ трансформационную таблицу МСФО.​ на продажи и​ Excel.​

Пример использования

​ схожа. Для исследования,​ в один кластер​ свои недостатки:​​ определения типов поведения​​ производительности, например, прогнозируется​​ разобраться в нюансах​​ образом мы видим,​

    ​ меньше, чем между​ медицине и во​ является кластерный анализ.​ каждом кластере будет​

​ невозможно. Используйте статпакеты.​ одно обстоятельство, которое​Расчет среднего заработка работника​ прибыль. Пример применения​Коэффициент трудового участия​

​ к примеру, товарной​ объекты [4, 5]​состав и количество кластеров​ личности в определенных​​ конъюнктура рынка отдельных​​ данного метода не​​ что нашу совокупность​​ любыми другими элементами​ многих других сферах​ С его помощью​ более одного объекта.​Изначально количество кластеров​

​ Если такой возможности​ сильно усложняет процесс​ в Excel при​ маркетингового инструмента в​​ чаще всего применяется​​ и общехозяйственной конъюнктуры​ и 6 (как​ зависит от заданного​ ситуациях.​ продуктов и т.д.​ так уж тяжело.​ данных можно разбить​ данной совокупности.​ деятельности человека. Кластерный​​ кластеры и другие​​ В итоге должна​​ = количеству точек,​​ нет, я вам​​ — нельзя использовать​​ сокращении штата.​​ Excel (исследование магазина)​​ при начислении зарплаты​

  • ​ этот метод отлично​ наиболее близкие друг​ критерия разбиения;​В экономическом анализе –​По сути, кластерный анализ​ Главное понять основную​ на два кластера.​Объединяем эти данные в​ анализ можно применять,​ объекты массива данных​ получиться точечная диаграмма​ то есть каждая​ сочувствую.​ никакие надстройки и​Как рассчитать средний​Матрица БКГ: построение и​​ работникам-сдельщикам. Как рассчитать​​ подходит.​​ к другу по​​при преобразовании исходного набора​​ при изучении и​​ – это совокупность​​ закономерность объединения в​​ В первом кластере​ группу и формируем​ используя для этих​ классифицируются по группам.​​ на которой точки​​ точка в своем​Как это все​ расширения, используется стандартный​ заработок при сокращении​ анализ в Excel​
  • ​ КТУ: формула, таблица​Выполнения анализа данных​ значениям). Оставляем наименьшее​

    ​ данных в компактные​ прогнозировании экономической депрессии,​ инструментов для классификации​ группы.​ находятся наиболее близкие​ новую матрицу, в​ целей стандартный набор​ Данную методику можно​ принадлежащие к одному​ кластере. Находим «центры​ выполнять можно поискать​

    Как сделать кластерный анализ в Excel: сфера применения и инструкция

    ​ работника в связи​ на примере предприятия.​ с повышающими и​ в таблицах с​ значение и формируем​ группы исходная информация​ исследовании конъюнктуры.​ многомерных объектов. Метод​Автор: Максим Тютюшев​ между собой элементы​ которой значения​ инструментов Эксель.​

    ​ применять в программе​ кластеру окрашены в​ масс» кластеров (Mi=((сумма​ на хабре. Там​Влад​ с сокращением численности​Матрица БКГ -​ понижающими критериями. ​ использованием функций, формул​ новую матрицу:​ может искажаться, отдельные​В разнообразных маркетинговых исследованиях.​ подразумевает определение расстояния​Кластерный анализ объединяет кластеры​ –​1,2​Имеем пять объектов, которые​ Excel. Посмотрим, как​

    Многомерный кластерный анализ

    ​ какой-нибудь свой цвет.​ Хi )/Nx; (сумма​ есть отличные статьи​: Что это за​ или штата для​ великолепный инструмент портфельного​Расчет коэффициента финансовой активности​ и встроенных стандартных​

    ​Объекты 1 и 2​ объекты могут терять​Когда нужно преобразовать «горы»​ между переменными (дельты)​ и переменные (объекты),​1​выступают отдельным элементом.​ характеризуются по двум​ это делается на​

    ​ В добавок ко​ Уi)/Ny) на данном​ по алгоритмам.​ группировка в Вашем​ начисления выходного пособия​

    ​ анализа. Рассмотрим на​

    1. ​ в Excel: формула​ инструментов, а также​ можно объединить в​
    2. ​ свою индивидуальность;​ информации в пригодные​ и последующее выделение​ похожие друг на​
    3. ​,​ При составлении матрицы​ изучаемым параметрам –​ практике.​
    4. ​ всему, весь процесс​ этапе это -​stylecolor​ понимании? Если это​
    5. ​ за первый и​

    ​ примере в Excel​ по балансу.​ практическое применение расширяемых​ один кластер (как​часто игнорируется отсутствие в​

    ​ для дальнейшего изучения​

    • ​ групп наблюдений (кластеров).​ друга. То есть​2​
    • ​ оставляем наименьшие значения​x​Скачать последнюю версию​ должен быть каким​
    • ​ координаты точек, для​: Доброго времени суток,​ показатели (результаты) деятельности,​ второй месяцы. 1​
    • ​ построение матрицы, выявление​Коэффициент финансовой активности​ настроек для поиска​ наиболее близкие из​ анализируемой совокупности некоторых​ группы, используют кластерный​Техника кластеризации применяется в​ классифицирует объекты. Часто​

    ​,​ из предыдущей таблицы​

    • ​и​ Excel​ то образом заметен,​
    • ​ каждого кластера. Теперь​ умным людям!​ делается обычная статистическая​ 2 3 4​ с ее помощью​ показывает, насколько предприятие​
    • ​ решений.​ имеющихся). Выбираем наименьшее​ значений кластеров.​

    ​ анализ.​

    Как сделать кластерный анализ в Excel

    ​ самых разнообразных областях.​ при решении экономических​4​ для объединенного элемента.​

    ​y​С помощью кластерного анализа​ но это пока​

    ​ нужно найти расстояния​Дано:​

    ​ группировка, для которой​ 5 6 7​ перспективных и бесперспективных​ зависит от заемных​Коэффициент оборачиваемости дебиторской задолженности​ значение и формируем​​Преимущества метода:​ Главное задача –​

    ​ задач, имеющих достаточно​,​ Опять смотрим, между​.​ можно проводить выборку​ не так важно.​ между всеми центрами​А(нижний предел) =​ Вы должны иметь​MaxGol​

    ​ товаров.​ средств. Характеризует финансовую​ в Excel.​ новую матрицу расстояний.​Для примера возьмем шесть​позволяет разбивать многомерный ряд​ разбить многомерный ряд​ большое число данных,​5​

    ​ какими элементами расстояние​Применяем к данным значениям​ по признаку, который​

    ​ Мне б для​ масс, то есть​ 0; В(верхний предел)​ или определить критерии.​: Необходимо разделить имеющиеся​SWOT анализ слабые и​

    ​ устойчивость и прибыльность.​Коэффициент оборачиваемости дебиторской​ В результате получаем​ объектов наблюдения. Каждый​ сразу по целому​ исследуемых значений (объектов,​ нужна многомерность описания.​. Во втором кластере​ минимально. На этот​ формулу эвклидового расстояния,​ исследуется. Его основная​ начала с самой​ от каждой точки​

    Анализ данных в Excel с помощью функций и вычислительных инструментов

    Анализ данных и поиск решений

    Кластерный анализ

    ​ анализа, – как​​ которых необходимо много​ других объектов. Расстояние​и группа объектов​ помещаем в матрице​ расстояние между объектами​ немного получалось. Языки,​ для каждого кластера,​ 100. Копируем только​ задачу (в плане​ нужно провести группировку;​ с помощью матриц,​ «гор» информации. Позволяет​ Excel.​
    ​ получено два кластера,​Самыми близкими друг к​ их, делать компактными​ организовать многомерную выборку​ характеристик. Он позволяет​ между кластерами составляет​1,2​ расстояний.​ по заданному параметру.​ как я поняла,​ опять найти все​ значения, получаем набор​ техники расчетов), то​

    ​ 3) несколько периодов​​ составление проблемного поля.​ объединить данные в​Что показывает коэффициент​ расстояние между которыми​ другу объектами являются​ и наглядными;​ в наглядные структуры.​ разбить выборку на​

    ​ 9,84.​​. Дистанция составляет 6,708204.​Смотрим, между какими значениями​ Наиболее близкие друг​ родные. Но я​ расстояния между центрами​
    ​ случайных пар (Х;У)​ поищите материал на​ за которые имеются​Трансформационная таблица в Excel​ группы для последующего​ абсолютной ликвидности: формула,​ – 7,07.​ объекты 4 и​

    ​может применяться циклически (проводится​​Примеры использования кластерного анализа:​ несколько групп по​На этом завершается процедура​Добавляем указанные элементы в​ дистанция меньше всего.​ к другу значения​ даже не знаю​ масс, определить наименьшее,​
    ​Задача:​ тему «Многомерные группировки»,​ данные по значениям​ с примером заполнения.​ исследования. Пример применения​

    Кластерный анализ. VBA Excel

    ​ пример расчета? Нормативное​​Огромное значение имеет кластерный​ 5. Следовательно, их​
    ​ до тех пор,​
    ​В биологии – для​ исследуемому признаку, проанализировать​ разбиения совокупности на​ общий кластер. Формируем​ В нашем примере​ группируются вместе.​ с чего начать.​ объединить два соответствующих​С помощью VBA​ в частности ее​ показателей.​Как составить трансформационную​
    ​ кластерного анализа.​
    ​ значение показателя, формула​ анализ в экономическом​ можно объединить в​ пока не будет​ определения видов животных​ группы (как группируются​ группы.​ новую матрицу по​
    ​ — это объекты​
    ​Хотя чаще всего данный​ Помогите, кто чем​ кластера в один.​ произвести кластеризацию объектов(точек​ вариант на основе​Я понятия не​ таблицу МСФО: обновление​Анализ макросреды PEST-анализом в​ по балансу, пример​ анализе. Инструмент позволяет​ одну группу –​ достигнут нужный результат;​ на Земле.​ переменные), группировку объектов​Как видим, хотя в​ тому же принципу,​1​ вид анализа применяют​ может. Важен любой​ И так до​ с координатами(Х;У)). Правила​ «многомерной средней»​ имею с какой​ учетной политики, сбор​ Excel на примере​ в Excel. Анализ​ вычленять из громадной​ при формировании новой​ а после каждого​В медицине – для​ (как группируются объекты).​ целом кластерный анализ​ что и в​и​ в экономике, его​ совет.​ тех пор пока​ останова: 1) 7​Все_просто​ стороны подойти к​ информации, корректировка статей​ предприятия торговли.​ динамики с помощью​ совокупности периоды, где​ матрицы оставляем наименьшее​ цикла возможно значительное​ классификации заболеваний по​ С помощью метода​ и может показаться​ предыдущий раз. То​2​ также можно использовать​Кластеризация.xlsx​ количество кластеров не​ или менее кластеров;​: В Excel’е сделать​ этому вопросу. Читал​ баланса. Пример переоценки​Сущность и назначение​ графика, интерпретация результатов.​ значения соответствующих параметров​ значение.​ изменение направленности дальнейшего​
    ​ группам симптомов и​

    Читать еще:  Excel vba list

    Применение кластерного анализа в Microsoft Excel

    Одним из инструментов для решения экономических задач является кластерный анализ. С его помощью кластеры и другие объекты массива данных классифицируются по группам. Данную методику можно применять в программе Excel. Посмотрим, как это делается на практике.

    Использование кластерного анализа

    С помощью кластерного анализа можно проводить выборку по признаку, который исследуется. Его основная задача – разбиение многомерного массива на однородные группы. В качестве критерия группировки применяется парный коэффициент корреляции или эвклидово расстояние между объектами по заданному параметру. Наиболее близкие друг к другу значения группируются вместе.

    Хотя чаще всего данный вид анализа применяют в экономике, его также можно использовать в биологии (для классификации животных), психологии, медицине и во многих других сферах деятельности человека. Кластерный анализ можно применять, используя для этих целей стандартный набор инструментов Эксель.

    Пример использования

    Имеем пять объектов, которые характеризуются по двум изучаемым параметрам – x и y.

      Применяем к данным значениям формулу эвклидового расстояния, которое вычисляется по шаблону:

    Данное значение вычисляем между каждым из пяти объектов. Результаты расчета помещаем в матрице расстояний.

    Объединяем эти данные в группу и формируем новую матрицу, в которой значения 1,2 выступают отдельным элементом. При составлении матрицы оставляем наименьшие значения из предыдущей таблицы для объединенного элемента. Опять смотрим, между какими элементами расстояние минимально. На этот раз – это 4 и 5, а также объект 5 и группа объектов 1,2. Дистанция составляет 6,708204.

  • Добавляем указанные элементы в общий кластер. Формируем новую матрицу по тому же принципу, что и в предыдущий раз. То есть, ищем самые меньшие значения. Таким образом мы видим, что нашу совокупность данных можно разбить на два кластера. В первом кластере находятся наиболее близкие между собой элементы – 1,2,4,5. Во втором кластере в нашем случае представлен только один элемент — 3. Он находится сравнительно в отдалении от других объектов. Расстояние между кластерами составляет 9,84.
  • На этом завершается процедура разбиения совокупности на группы.

    Как видим, хотя в целом кластерный анализ и может показаться сложной процедурой, но на самом деле разобраться в нюансах данного метода не так уж тяжело. Главное понять основную закономерность объединения в группы.

    Отблагодарите автора, поделитесь статьей в социальных сетях.

    SEO-Excel для кластеризации семантического ядра

    SEO-Excel — это надстройка для Microsoft Excel, которая содержит 22 бесплатных инструмента для SEO-специалиста, позволяющая автоматизировать большую часть процессов при работе с семантическим ядром. Презентовал Андрей Ставский из Rush Analytics летом 2017 года, как альтернативу буйжуйской SeoTools for Excel.
    Основные возможности:

    • Разбор и перегруппировка семантики;
    • Генережка SEO тегов и URL;
    • Работа с морфологией;
    • Парсинг Title и текстов из выдачи Яндекса;
    • Построение MindMap по URL.
    • Windows 10 / 8.1 / 8 / 7 / Vista;
    • Microsoft Excel 2007 / 2010 / 2013 / 2016 / 365.

    Рассмотрим, как SEO-Excel может в помочь в кластеризации семантического ядра на примере запросов для категории Bluetooth наушников крупного интернет магазина. Для этого я собрал запросы из Wordstat по маркерам со стоп-словами, снял частотность, очистил от неявных дублей и брендов.Получили большой список запросов, который в данном виде нам мало чем полезен. Для дальнейшего продвижения по этим запросам, их необходимо сгруппировать по какому-то признаку и закрепить за страницами на сайте. Задачу группировки (кластеризации) запросов как раз и помогает решить надстройка.

    Кластеризация по составу фразы

    Инструмент “Выжимка”, который позволяет удалять определенные слова из запросов, мы будем использовать для кластеризации семантики по составу фразы.

    Копируем запросы в соседний столбец и делаем в нем выжимку, исключая запросы, не влияющие на интент (потребность): купить, цена, интернет, магазин, заказать, стоимость, bluetooth, блютуз, беспроводные, наушник, телефон и т.д. Можно указывать в сокращенном варианте, чтобы исключить также словоформы данных слов.
    Далее сортируем столбец с выжимкой по А до Я, выделяем его и применяем инструмент “Красит” ко всем столбцам. Получаем запросы кластеризованные по составу фразы, где в столбце «Выжимка» содержится интент, т.е. запросы с уже сформированной потребностью.Кто хоть немного понимает в наушниках скажет, что капельки, вакуумные, внутриканальные и затычки — это все об одном типе наушников. С точки зрения потребности, эти запросы логично объединить в одну группу. С точки зрения хитрого сеошника, можно разбить и на разные страницы, чтобы за счет точных вхождений попробовать опередить конкурентов в ТОПе.

    В Техпорте работают последние:

    • www.techport.ru/katalog/products/hi-fi-i-audio/naushniki/tag/vnutrikanalnye
    • www.techport.ru/katalog/products/hi-fi-i-audio/naushniki/tag/vakkumnye
    • www.techport.ru/katalog/products/hi-fi-i-audio/naushniki/tag/zatychki

    Хотя наушники-капельки проигнорировали. Хитрые, но не до конца…
    В МВидео не стали заморачиваться — разместили все на одну страницу

    Оба сайта в ТОПе, вот и не понятно, а как же сгруппировать правильно запросы, чтобы и нам там быть, и трафика по-максимуму собрать.

    Кластеризировать по данному способу — это очень долго, нудно и не точно, ведь нужно пройтись по всем запросам, определить интент и перегруппировать по ТОПу.

    Недостатки кластеризации по составу фразы

    • Синонимы и переформулированные фразы попадают в разные кластера и нужно потратить уйму времени, чтобы их руками перебрать и объединить;
    • Информационные запросы часто попадают вместе с коммерческими в одну группу;
    • Даже после перебора руками, нет уверенности, что группировка правильна. Запросы, которые вы считаете, что нужно продвигать на одну страницу, на самом деле нужно продвигать на разные.
    • Для избежания ошибок приходится дополнительно анализировать ТОП выдачи по каждой группе. При больших ядрах — это задача может растянуться на многие месяцы. Ни у кого нет столько времени ждать вашу семантику.

    Поэтому группировка по составу фразы не используется в чистом виде. Тем не менее, данный метод позволяет значительно сократить время на обработку семантического ядра после сервисов автоматической кластеризации, которые работают на основании анализа ТОПа поисковой выдачи.

    Преимущества кластеризаторов по ТОПу

    • Синонимы и переформулированные фразы при «чистой» выдаче попадают в одну группу;
    • Проверяется совместимость продвижения запросов на одной странице. Несовместивые запросы разбрасываются по разным группам;
    • Существенная экономия времени, особенно на больших ядрах.

    Догруппировка кластеризированной семантики

    Сервисы автоматической кластеризации по ТОПу позволяют значительно сэкономить время и деньги, группируя запросы на основании подобия сайтов из ТОПа, но и они не лишены недостатков.

    Недостатки кластеризации по ТОПу

    • Необходимость поиска баланса между полнотой и точностью кластеризации. При высокой полноте группируется больше фраз, но страдает точность, из-за чего в группы попадает много лишнего. При высокой точности очень низкая полнота — группы маленькие и большой список несгруппированных фраз, которые нужно раскидывать самостоятельно. Оптимальная по полноте кластеризация выбирается каждый раз индивидуально;
    • Если выдача «плохая», то запросы, которые должны продвигаться на разных страницах, при кластеризации могут попасть в одну группу. Наоборот, запросы с одним интентом, попадают в разные группы.
    • Кластеризация запросов без однозначного интента, по которым в выдаче как коммерческие, так и информационные сайты, дает неудовлетворительные результаты. Например, мы бы хотели запрос продвигать например, как коммерческий, но кластеризатор положил его в группу с информационниками.

    Догруппировать имеющийся результат согласно нашим требованиям помогут инструменты «Выжимка» и «Разбор».

    Определяем состав фразы в файле кластеризации от Rush Analytics. Самыми удачными результаты кластеризации мне показались при силе связи 4.
    Запросы «спортивные наушники bluetooth» и «наушники для спорта беспроводные» объединились в одну группу. Вакуумные наушники разбросало 3 по разным кластерам, а вкладыши, мини и капельки — по 2. К тому же попался запрос и без сформированного интента — «наушники для телефона купить». Проходимся таким образом по всем кластерам. Благодаря выжимке это легко читается.

    Кластеризатор не дал нам точного ответа, поэтому здесь нужно дополнительно перебрать запросы вручную. При обнаружении ошибок кластеризации, приходится решать, оставлять ли конкретный запрос в данном кластере, переместить в другой или создать новую группу:

    Если мы решили объединить «внутриканальные» и «вакуумные» можем сразу задать одинаковые названия кластеров для этих запросов. В данном случае мы используем название «беспроводные наушники внутриканальные».

    Если же запросы разбросаны по файлу или мы не знаем, есть ли уже похожий кластер, можно скопировать ключевое слово в соответствующую ячейку «название кластера», например «блютуз наушники капельки купить».

    Нет необходимости искать по всему файлу подходящий кластер или запоминать названия уже существующих.
    Снимаем заливку и сортируем от А-Я по столбцу с названием кластера. Далее красим все столбцы с помощью инструмента “Красит”.
    Произошла группировка запросов по общему названию. В одну группу мы добавили вакуумные и внутриканальные. В тоже время мы не стали «капельки» сводить к общему названию, поэтому они находятся в разных кластерах. Чтобы устранить данный момент, применяем инструмент «Разбор» для быстрого объединения кластеров по названию их вершин.
    Для вершин кластеров в столбце «А» необходимо повторно применить выжимку, по которой будет сразу понятно, кластера с каким названием вершин нужно объединить.
    Переносим кластера, которые хотим объединить начиная со столбца «В» в одну строку. Удаляем пустые строки и завершаем разбор.
    На вкладке “Конечная семантика” получаем объединенные кластера с сортировкой по убыванию суммарной частоты.

    Когда кластеризация не показывает однозначного распределения запросов по кластерам, как например в данном примере, приходится принимать решение на основании того, насколько хорошо мы разбираемся в тематике и никакая автоматизация не поможет.

    Склонение и генерация

    Получив конечную семантику, мы можем сгенерировать теги для SEO продвижения.

    Генерация H1

    Заголовок H1 будем задавать по самой частотной фразе в кластере. Для этого сначала отсортируем итоговую семантику по столбцу с частотностью. Применяем инструмент «Сортировка» и запросы в каждом кластере сортируются по убыванию частоты.
    С помощью инструмента «H1» указываем столбец с запросами и столбец для заголовка.Берется первая закрашенная ячейка столбца «B» и записывается на весь кластер. С помощью данного инструмента можно быстро протянуть любой идентификатор.

    Генерация Title

    Для генерации Title есть 2 шаблона:

      с разделителем. Позволяет вставить дополнительные слова в начало и конец Title, который формируется из первых двух запросов, разделенных вертикальной чертой.

  • скользящий. Позволяет вставить дополнительные слова в середину и конец Title, который формируется из двух запросов, разделенных дефисом. К преимуществам данного шаблона относятся возможность изменять падеж, использовать название кластера или третий запрос в списке.
  • Примечание: запросы должны находиться в столбце «B», название кластера — в столбце «A». Title генерируется в первый пустой столбец.

    Генерация Description

    Для генерации мета-описания воспользуемся инструментом «Description», который позволяет задать префикс, постфикс, изменить падеж запроса и добавить UTF-8 символы.
    Примечание: запрос, добавляемый в шаблон, берется из столбца «A». Description генерируется в первый пустой столбец.

    На выходе всех сервисов кластеризации получается файл, который нужно дополнительно обрабатывать: объединять и перегруппировать кластера, чистить от мусора. Специалист тратит много времени и ручного труда на выявление ошибок. С настройкой SEO для Excel получается значительно снизить трудо- и времязатраты на доработку кластеризированного семантического ядра.

    Исследование больших выборок. Кластерный анализ в электронной таблице Excel и пакете Statistica.

    Рассмотренные в лабораторной работе 2 распределения вероятностей СВ опираются на знание закона распределения СВ. Для практических задач такое знание – редкость. Здесь закон распределения обычно неизвестен, или известен с точностью до некоторых неиз­вестных параметров. В частности, невозможно рассчитать точное значение соот­ветствующих вероятностей, так как нельзя определить количество общих и благо­приятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний, в ко­торых событие произошло, к общему числу произведенных испытаний. Такая вероятность называется статистической частотой.

    Связь между эмпирической функцией распределения и функцией распределения (теоретической функцией распределения) такая же, как связь между частотой со­бытия и его вероятностью.

    Для построения выборочной функции распределения весь диапазон изменения случайной величины X (выборки) разбивают на ряд интервалов (карманов) одинаковой ширины. Число интервалов обычно выбирают не менее 3 и не более 15. Затем определяют число значений случайной величины X, попавших в каждый интервал (абсолютная частота, частота интервалов).

    Частота интервалов – число, показывающее сколько раз значения, относящиеся к каждому интервалу группировки, встречаются в выборке. Поделив эти чис­ла на общее количество наблюдений (n), находят относительную частоту (частость)попадания случайной величины X в заданные интервалы.

    По найденным относительным час­тотам строят гистограммы выборочных функций распределения. Гистограмма распределения частот – это графическое представление выборки, где по оси абсцисс (ОХ) отложены величины интервалов, а по оси ординат (ОУ) – величины частот, попадающих в данный классовый интервал. При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения.

    Накопленная частота интервалов –это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота.

    В Excel для построения выборочных функций распределения используются спе­циальная функция ЧАСТОТА и процедура Гистограмма из пакета анализа.

    Функция ЧАСТОТА (массив_данных, двоичный_массив) вычисляет частоты появления случайной величины в интер­валах значений и выводит их как массив цифр, где

    массив_данных — это массив или ссылка на множество данных, для которых
    вычисляются частоты;

    двоичный_массив — это массив интервалов, по ко­торым группируются значения выборки.

    Процедура Гистограмма из Пакета анализавыводит результаты выборочного распределения в виде таблицы и графика. Параметры диалогового окна Гистограмма:

    Входнойдиапазон — диапазон исследуемых данных (выборка);

    Интервалкарманов — диа­пазон ячеек или набор граничных значений, определяющих выбранные интервалы (карманы). Эти значения должны быть введены в воз­растающем порядке. Если диапазон карманов не был введен, то набор интерва­лов, равномерно распределенных между минимальным и максимальным зна­чениями данных, будет создан автоматически.

    выходнойдиапазон предназначен для ввода ссылки на левую верхнюю ячейку выходного диапазона.

    • переключатель Интегральныйпроцент позволяет установить режим включения в гистограмму гра­фика интегральных процентов.

    • переключатель Выводграфика позволяет установить режим автоматическо­го создания встроенной диаграммы на листе, содержащем выходной диапа­зон.

    Пример1. Построить эмпирическое распределение веса студентов в килограм­мах для следующей выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61, 59, 59, 63, 61.

    Решение

    1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:А21 — значения веса
    студентов (см. рис. 1).

    2. В ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите граничные значения ин­тервалов (40, 45, 50, 55, 60, 65, 70).

    3. Введите заголовки создаваемой таблицы: в ячейки С1 — Абсолютныечас­тоты, в ячейки D1 — Относительныечастоты, в ячейки E1 — Накоплен­ныечастоты.(см. рис. 1).

    4. С помощью функции Частотазаполните столбец абсолютных частот, для этого выделите блок ячеек С2:С8. С па­нели инструментов Стандартная вызовите Мастерфункций (кнопка fx). В появив­шемся диалоговом окне выберите категорию Статистические и функцию ЧАСТОТА, после чего нажмите кнопку ОК. Указателем мыши в рабочее поле Массив_данных введите диапазон данных наблюдений (А2:А8).В рабочее поле Двоичный_массив мышью введите диапазон интервалов (В2:В8). Слева на клавиатуре последовательно нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце C должен появиться мас­сив абсолютных частот (см. рис.1).

    5. В ячейке C9 найдите общее количество наблюдений. Активизируйте ячейку С9, на панели инструментов Стандартная нажмите кнопку Ав­тосумма. Убедитесь, что диапазон суммирования указан правильно и нажмите клавишу Enter.

    6. Заполните столбец относительных частот. В ячейку введите формулу для вычисления относительной частоты: =C2/$C$9. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон и получите массив относительных частот.

    7. Заполните столбец накопленных частот. В ячейку D2 скопируйте значение от­носительной частоты из ячейки E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон D3:D8. Получим массив накопленных частот.

    Рис. 1. Результат вычислений из примера 1

    8. Постройте диаграмму относительных и накопленных частот. Щелчком ука­зателя мыши по кнопке на панели инструментов вызовите Мастердиаграмм. В появившемся диалоговом окне выберите закладку Нестандартные и тип диаг­раммы График/гистограмма.После редактирования диаграмма будет иметь такой вид, как на рис. 2.

    Рис. 2 Диаграмма относительных и накопленных частот из примера 1

    Excel-кластеризатор ключевых слов по весу

    Эта статья о том, как распределить по группам 20–30 тысяч ключевых слов. Поможет сэкономить время маркетологам, которые регулярно создают рекламные кампании.

    Вручную группировать запросы не всегда эффективно: перебрать 200–300 запросов можно за час, на 20–30 тысячуйдет неделя. Автоматическим сервисам группировку я не доверю, так как она определяет структуру и управляемость кампании.

    Поэтому придумал свой метод, который ускоряет кластеризацию и даёт осознанный результат. Облегчает жизнь при работе с СЯ от 2–3 тысяч ключевых слов. Пробовал работать с 45 000 — Excel начинал умирать. Список из 200–300 запросов быстрее перебрать руками.

    Далее расскажу про свой метод кластеризации в теории, а затем — как реализую его в Excel. Дам ссылку на готовый Excel-кластеризатор. Но чтобы им пользоваться, нужно хорошо понимать метод.

    Метод

    Кластеризация — распределение запросов по кластерам. Кластер — это группа запросов, схожих по смыслу и набору слов. Чтобы выделить такие запросы и объединить их в кластер, нужен признак.

    Используем для этого нормализованную форму запроса — уберём окончания и выстроим слова в порядке важности:

    Удаление окончаний позволит охватить все возможные словоформы для конкретного слова, а сортировка «по важности» — игнорировать порядок слов.

    Убираем окончания

    Слово без окончания — это признак, который объединяет разные словоформы:

    Чтобы убирать окончания я использую mystem . Это лемматизатор от Яндекса. Он обрабатывает список слов и возвращает нормализованные значения — леммы.

    Если система не уверена, какая лемма правильная, то покажет 2–3 варианта. Например, для слова «банку» mystem вернёт две леммы: «банк» и «банка». При проверке результатов мы выберем нужную.

    Определяем важность

    Сортировка «по важности» позволит игнорировать порядок слов. При сортировке нормализованных значений фраз по алфавиту мы получим готовые кластеры — группы запросов, схожих по смыслу и набору слов.

    Важность слова — вычисляемый параметр для конкретного списка ключевых слов. Он не определяет важность слова в общей картине мира.

    Важность слова рассчитывается из частотности и количества упоминаний слов в списке. Рассмотрим на примере.

    Берём список запросов с частотностью

    • Купить бумеранг — 1000
    • Бумеранги цена — 700
    • Бумеранги в москве — 750
    • Купить классический бумеранг — 450
    • Цены на бумеранги в москве — 350
    • Купить классический бумеранг в москве — 100

    В списке запросов встречаются слова: купить, бумеранг, классический, москва, цена, в, на. Вес слова равен сумме долей частотностей помноженных на количество упоминаний слова.

    Считаем доли частотностей

    • Купить бумеранг — 1000 = 1000/2 = 500
    • Бумеранги цена — 700 = 700/2 = 350
    • Бумеранги в москве — 750 = 750/3 = 250
    • Купить классический бумеранг — 450 = 450/3 = 150
    • Цены на бумеранги в москве — 350 = 350/5 = 70
    • Купить классический бумеранг в москве — 100 = 100/5 = 20

    Считаем вес слов

    • Купить — (500+150+20)*3 = 2010
    • Бумеранг — (500+350+250+150+70+20)*6 = 8040
    • Классический — (150+20)*2 = 340
    • Москва — (250+70)*2 = 640
    • Цена — (350+70)*2 = 840
    • В — 20
    • На — 70

    Сортируем по важности

    • 8040 — бумеранг
    • 2010 — купить
    • 840 — цена
    • 640 — москва
    • 340 — классический
    • 70 — на
    • 20 — в

    Располагаем запросы по важности

    • Купить бумеранг — бумеранг | купить
    • Бумеранги цена — бумеранг | цена
    • Бумеранги в москве — бумеранг | москва
    • Купить классический бумеранг — бумеранг | купить | классический
    • Цены на бумеранги в москве — бумеранг | цена | москва | на | в
    • Купить классический бумеранг в москве — бумеранг | купить | москва | классический | в

    Упорядочиваем и чистим

    • Бумеранг | купить: купить бумеранг — 1000
    • Бумеранг | купить | классический: купить классический бумеранг — 450
    • Бумеранг | купить | москва | классический: купить классический бумеранг в москве — 100
    • Бумеранг | москва: бумеранги в москве — 750
    • Бумеранг | цена: бумеранги цена — 700
    • Бумеранг | цена | москва: цены на бумеранги в москве — 350

    В итоге получили первые группы объявлений, с которыми можно работать дальше: укрупнять, объединять, кросс-минусовать. Для этого используем Excel.

    Реализация в Excel

    Выполняем последовательность действий в таблице (XLS, 537 КБ) с формулами. Кластеризация 1000 запросов займет 30 минут.

    Алгоритм одной строкой

    Собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов → формируем таблицу-справочник с весами слов → выделяем леммы для слов → вычисляем «вес» леммы → формируем таблицу-справочник с леммами → делаем первичную кластеризацию → укрупняем полученные группы.

    Шаг 1. Вычисляем доли весов и разбиваем запросы по словам

    Лист «Кластеризация», таблица «Main»

    Чтобы избежать правки формул называйте все листы и таблицы аналогично таблице-примеру

    • Вычисляем доли весов:
    • Доли весов = Частотность / Кол-во слов.
    • Кол-во слов =LEN ([@Ключ])-LEN (SUBSTITUTE ([@Ключ],» «,»»))+1.

    Шаг 2. Формируем таблицу-справочник с весами слов

    Лист «Слова — Леммы», таблица «Word»

    • Копируем столбцы W1—W7 на новый лист.

    Шаг 3. Выделяем леммы и дорабатываем справочник со словами

    Лист «Слова — Леммы», таблица «Word»

    • Копируем полученный на прошлом шаге список слов «как есть».
    • Обрабатываем через mystem → получаем леммы для каждого слова.

    Шаг 4. Формируем таблицу-справочник с леммами

    Лист «Леммы», таблица «Lemmas»

    • Копируем полученный список лемм на новый лист и удаляем дубли.
    • Из справочника со словами подтягиваем VLOOKUP-ом кол-во упоминаний каждой леммы.
    • Считаем кол-во символов в лемме.
    • Вычисляем «вес» леммы:
      Вес Леммы= [Сумма долей весов слов, входящих в Лемму] * [Кол-во упоминаний Леммы].
      Формула:
      =(SUMIF (Words[Lemma],[@Лемма], Words[Доли весов]))*[@[Кол-во упоминаний]].
    • Сортируем леммы по столбцу «вес» — от большего к меньшему.

    Шаг 5. Делаем первичную кластеризацию

    Лист «Кластеризация», таблица «Main»

    Для каждого слова в столбцах W1—W7 подтягиваем VLOOKP-ом значения «Статус» → записываем их столбцыL1 – L7 :

    Итак, что мы сделали. Разбили запросы по словам. Для каждого слова выделили лемму — можем объединить запросы по общим словам. Для каждой леммы посчитали вес. Остаётся выстроить слова в запросе в порядке важности. Тогда при сортировке по алфавиту запросы сами объединятся в группы объявлений.

    Выстраиваем слова в порядке важности функцией SMALL. В диапазоне статусов L1 – L7 ищем самый маленький статус — это самое важное слово во фразе. Затем, ищем второй самый маленький статус — это второе по важности слово во фразе. И так еще пять раз — проверяем оставшиеся столбцы L3 – L7.

    Получаем последовательность статусов. Например, 37 → 100 → 200 → 700. Для каждого статуса подтягиваем VLOOKP-ом соответствующую Лемму из справочника Лемм. Соединяем Леммы CONCATENATE-ом и получаемнормализованное значение фразы. Я использую его как название группы объявлений.

    Сортируем по алфавиту:

    Полная рабочая формула в файле-примере.

    Шаг 6. Укрупняем полученные группы

    Игнорируя окончания и порядок слов, мы объединили запросы с одинаковым набором слов. Количество групп стремится к количеству слов — это 100 % точность инструмента. Можно использовать, если вы предпочитаете работать с запросами в точном соответствии.

    Чтобы укрупнить группы, нужно уменьшить точность — снизить количество лемм, которые составляют «нормализованную форму».

    Что можно удалить:

    • одинокие буквы, цифры, предлоги, доменные зоны. Леммы длиной 1–3 символа;
    • редкие леммы — кол-во упоминаний меньше среднего по списку;
    • леммы с малым весом — недостаточно «важные»;
    • в редких случаях — топонимы.

    Важно: лемму не удаляем, только её «Статус» — этого достаточно, чтобы лемма не попала в «нормализованную форму»:

    В основной таблице ничего править не надо — результат обновится самостоятельно.

    До какой степени укрупнять: я стремлюсь к среднему показателю 2–3 запроса в одной группе объявлений и слежу за максимальным количеством фраз (помним про ограничения систем контекстной рекламы).

    Резюме

    Полученный список групп удобно кросс-минусовать и двигать между кампаниями. Название группы поможет писать объявления — вы сами определяете важные слова в названии группы.

    Ещё раз алгоритм: собираем СЯ → собираем частотность → разбиваем запросы по словам и вычисляем доли весов → формируем таблицу-справочник с весами слов → выделяем леммы для слов → вычисляем «вес» леммы → формируем таблицу-справочник с леммами → делаем первичную кластеризацию → укрупняем полученные группы.

    Отзывы джедаев о кластеризаторе

    «Я помогал Роме с созданием инструмента на ранних этапах. Всем рекомендую попробовать кластеризатор для ядра от 2000 ключевых слов → сэкономит время.

    Инструмент можно улучшить и превратить в автоматический сервис. Также можно дорабатывать формулы определения веса лемм. Но и в текущем виде он поможет специалистам по контексту, которые работают с большой семантикой.»

    Егор Холов, ведущий джедай:

    «С помощью кластеризатора сильно удобнее и быстрее сгруппировать фразы и потом писать объявления для них. Из недостатков — первый раз кажется, что это сложновато. Но когда попробуешь, то всё довольно понятно. Но эту штуку лучше автоматизировать.»

    «Методику пробовал, но не использую в работе, потому что нечасто собираю контекст в больших объемах.

    Хорошо подойдет для работы с большой семантикой, особенно в свете последних нововведений яндекса по низкочастотным запросам. Группировки помогут сэкономить много времени при подготовке ключевых фраз.

    Методика на первый взгляд кажется сложной и громоздкой, но если разобраться, то процесс становится понятным и удобным.»

    «Кластеризация от Ромы просто находка! Методом пользуюсь каждый раз когда работаю с семантикой — собираю или корректирую кампании.

    Больше всего мне нравятся три вещи:

    • я регулирую какие фразы попадут в группу. Если вес фразы небольшой, то объединяю с похожими. Не придерживаюсь принципа «один ключ — одна группа», иначе управлять кампанией сложно;
    • понимаю механику и вижу какие фразы должны быть в заголовке. Конечно, важно делать полное вхождение ключевого слова. Часто оно не вмещается полностью и я строю заголовок из фраз с бо́льшим весом;
    • это Excel, который всем знаком. Не нужно устанавливать дополнительные программы и платить за сервис. Если разобраться в формулах, то уже немного прокачаешься.

    Из минусов: все формулы я копирую из готового шаблона и переключаться между окнами одной программы неудобно. Я бы хотела иметь формулы под рукой, а может сделать в будущем какой-нибудь шаблон, чтобы сократить количество копирований. Ещё хотелось бы сократить время группировки, но пока не нашла способ.

    В целом, способ мне нравится тем, что механика простая и понятная, её легко внедрить и потом управлять кампаниями.»

    Что дальше

    Если у вас СЯ от 2–3 тысяч ключевых слов, используйте этот алгоритм. Прогоните алгоритм 2–3 раза, чтобы «впитать».

    Если у вас список из 200–300 запросов, переберите руками — так быстрее.

    Если хотите готовое решение — попросите программистов написать скрипт.

    Я постоянно дорабатываю кластеризатор. В следующих итерациях хочу проработать кросс-минусовку групп, добавить справочники минус-слов и максимально автоматизировать кластеризатор на Power Query. Следите за обновлениями!

    Впервые статья была опубликована в Академии IT-Agency

    Ссылка на основную публикацию
    ВсеИнструменты
    Adblock
    detector
    ×
    ×