Помощь в написании диплома по поиску в БД

Заказчик
[no-member:pro]Кирил[/no-member:pro]Кирил
Параметры проекта
Вариант сотрудничестваОдноразовый проект
РазделОбучение и Консультации
Предоплатабез предоплат
Способы оплатыБанковский перевод
Приём заявокзавершён
Описание проекта
Есть база данных в которой есть таблица книг из издательства (ZBook) и таблица книг из библиотеки (Description). Формат представления книги - библиографический + есть isbn и аннотации.
Итак, суть диплома:
Разработать метод идентификации совпадающих и похожих записей в базе данных книг библиотеки и книг из издательства. Разработать критерии оценки эффективности разработанного метода и выполнить его экспериментальную оценку.
Есть несколько вариантов результата поиска:
1) Полное совпадение книги из заказа и библиотеки.
2) Полусовпадение (Другое издание, том, год или место)
3) Несовпадение. Здесь начинается поиск похожих записей о книге.
При несовпадении записей нужно выдавать список похожий записей, опираясь на название и аннотацию книги. Аннотация есть не у всех книг, поэтому здесь можно игнорировать записи, где нет аннотации. Метод можно сделать очень простой, главное, чтобы был не тривиальной, выдавал релевантные результаты и работал за приемлимое время (не больше 5 секунд). Если будете применять полнотекстовый поиск при несовпадении, то нужно связать его с еще каким-нибудь методом для улучшения поиска или использовать еще метрику сходства записей. Это обязательно.
Для простоты программа на вход может принимать на вход ID книги из таблицы заказанных книг и выдавать на экран список похожих книг из библиотеки.
База данных книг из издательств очень маленькая, так как руки не дошли парсер написать, чтобы извлечь данные с сайта одного из издательств и наполнить ими базу. Таблица книг библиотеки состоит из 400 тыс записей, но на самом деле записей книг там намного меньше, потому что в нее еще пихают диссертации + там куча старых книг.
Аннотации представлены для 60 тыс. Записей.
СУБД Microsoft SQL Server 2014
Нужно написать на Python 3.5.
Вывод похожей литературы можно производить в консоль. Также можно выводить степень похожести. Если будет время, то желательно написать GUI для программы.
Если будут вопросы, пишите.
Цена договорная.
Написать обзоры методов и разработать свой метод. Описать свой метод и согласовать его со мной. Метод должен выдавать релевантные результаты. Разработать критерии оценки эффективности разработанного метода и выполнить его экспериментальную оценку. Предоставить данные о критерии оценки эффективности разработанного метода и данные о выполненных экспериментах. Представить это в виде графиков и таблицы. Сравнивать можно с полнотекстовым поиском ms sql server. Разработать рабочее ПО осуществляющее поиск похожих записей по разработанному методу. Поиск, желательно, должен осуществлять не более 5 секунд. Для ускорения разработки можно написать консольную версию ПО, но если успеете, то можно GUI разработать для ПО. На вход программа может принимать ID книги из таблицы заказанных книг, на выходе программа выводит список совпавших или найденных похожих книг из библиотеки с коэффициентом похожести.
СУБД Microsoft SQL Server 2014
Операционная система Windows 10.
Итак, суть диплома:
Разработать метод идентификации совпадающих и похожих записей в базе данных книг библиотеки и книг из издательства. Разработать критерии оценки эффективности разработанного метода и выполнить его экспериментальную оценку.
Есть несколько вариантов результата поиска:
1) Полное совпадение книги из заказа и библиотеки.
2) Полусовпадение (Другое издание, том, год или место)
3) Несовпадение. Здесь начинается поиск похожих записей о книге.
При несовпадении записей нужно выдавать список похожий записей, опираясь на название и аннотацию книги. Аннотация есть не у всех книг, поэтому здесь можно игнорировать записи, где нет аннотации. Метод можно сделать очень простой, главное, чтобы был не тривиальной, выдавал релевантные результаты и работал за приемлимое время (не больше 5 секунд). Если будете применять полнотекстовый поиск при несовпадении, то нужно связать его с еще каким-нибудь методом для улучшения поиска или использовать еще метрику сходства записей. Это обязательно.
Для простоты программа на вход может принимать на вход ID книги из таблицы заказанных книг и выдавать на экран список похожих книг из библиотеки.
База данных книг из издательств очень маленькая, так как руки не дошли парсер написать, чтобы извлечь данные с сайта одного из издательств и наполнить ими базу. Таблица книг библиотеки состоит из 400 тыс записей, но на самом деле записей книг там намного меньше, потому что в нее еще пихают диссертации + там куча старых книг.
Аннотации представлены для 60 тыс. Записей.
СУБД Microsoft SQL Server 2014
Нужно написать на Python 3.5.
Вывод похожей литературы можно производить в консоль. Также можно выводить степень похожести. Если будет время, то желательно написать GUI для программы.
Если будут вопросы, пишите.
Цена договорная.
Написать обзоры методов и разработать свой метод. Описать свой метод и согласовать его со мной. Метод должен выдавать релевантные результаты. Разработать критерии оценки эффективности разработанного метода и выполнить его экспериментальную оценку. Предоставить данные о критерии оценки эффективности разработанного метода и данные о выполненных экспериментах. Представить это в виде графиков и таблицы. Сравнивать можно с полнотекстовым поиском ms sql server. Разработать рабочее ПО осуществляющее поиск похожих записей по разработанному методу. Поиск, желательно, должен осуществлять не более 5 секунд. Для ускорения разработки можно написать консольную версию ПО, но если успеете, то можно GUI разработать для ПО. На вход программа может принимать ID книги из таблицы заказанных книг, на выходе программа выводит список совпавших или найденных похожих книг из библиотеки с коэффициентом похожести.
СУБД Microsoft SQL Server 2014
Операционная система Windows 10.