Шорткод

Сделали систему, которая чистит «грязные» данные в таблицах


Listen Later

Напачкают, потом убирай за ними.

Проблема: очистка данных в таблицах может занять четверть рабочего времени аналитика. Автоматизировать эту задачу сложно, потому что для разных наборов данных требуются разные типы очистки. Кроме того, часто необходимо рассуждать об объектах, опираясь на кругозор, которого нет у нейросетей.

Решение: PClean — система, которая сочетает знания о предметной области с базовым уровнем практических суждений для автоматической очистки баз данных от миллионов записей. Она автоматически убирает опечатки, повторы, пропущенные значения, орфографические ошибки и несоответствия в данных.

Пользователь предоставляет системе базовые знания о предмете и информацию о возможных ошибках, а PClean объединяет эти знания с помощью вероятностных рассуждений и наводит в данных порядок. Технология упрощает и удешевляет объединение беспорядочных несовместимых баз данных в чистые записи.

Кто: инженеры Массачусетского технологического института.

Читайте наш журнал тут: thecode.media

Подписывайтесь на наши соцсети:

ВКонтакте: https://vk.com/thecode.media

Фейсбук: https://www.facebook.com/thecode.media
Инстаграм: @thecodemedia
Телеграм: @thecodemedia

Связаться: [email protected]

...more
View all episodesView all episodes
Download on the App Store

ШорткодBy Код


More shows like Шорткод

View all
Код by Код

Код

0 Listeners