top-K из N

☰ Оглавление

Почему я затеял писать про top-K из N? Это довольно смешная история, но давайте сперва решим задачку.

Нахождение top-K из N

Пару слов про кучу

Что за структура данных куча, можно почитать во множестве статей. Вот хорошая, на wiki тоже можно почитать.

Коротко: это бинарное дерево (у каждого узла максимум два потомка), которое отвечает простому условию: все потомки больше родителя (это для min-heap, мы будем использовать именно её). Кучу удобно хранить в одномерном массиве.

Нам понадобятся только два метода работы с кучей: (1) добавление и (2) замена минимального на новый. Я постарался всё прокомментировать в коде, так что, давайте ближе к делу.

Алгоритм нахождения top-K из N с помощью кучи

Я сделал четыре реализации и функцию для тестирования, которая сравнивает результаты работы всех четырёх функций.

Так почему же я решил про это написать

Мне много раз задавали эту задачку на собеседованиях. Я всегда отвечал смело: надо использовать кучу. И этот ответ принимался. Причём, я был уверен, что я знаю, как именно её надо использовать.

Я и сам иногда задавал эту задачку кандидатам. И если человек ответствовал: «кучей», то я оставался полностью удовлетворён.

Прошло больше десяти лет, как меня первый раз спросили эту задачку. И вот, на очередном собеседовании ситуация повторяется: мне задают вопрос, я отвечаю «кучей». Но тут мне оппонент говорит: «а напиши код». Я стал писать, и, конечно, стал путаться. Оппонент увидел правильное начало, и, видимо, решив не ждать, когда я всё допишу, рассказал мне всё, чего я пока не написал. Он сказал: «да-да, я понял, сейчас ты сделаешь так-то и так-то и всё будет готово; ответ засчитан».

Но я после этого призадумался крепко. Уже идя с собеседования, я думал над его решением и понимал, что оно не правильное. (Он использовал max-heap и только одну операцию…) Тогда я решил всё же написать хоть раз в жизни этот алгоритм руками. Что я и сделал.

Надо сказать, если вы это делаете первый раз, даже хорошо представляя алгоритм, то вряд ли уложитесь в полчаса. Для задачки на собеседовании, — это абсолютно неприемлемая скорость. Если вы планируете идти на интервью в хорошую контору, то обязательно поупражняйтесь с подобными алгоритмами.