Проект: Film Complexity 🤯 каталог фильмов, оцененных по сложности для изучающего язык  Публичный пост
10 февраля 2023  592
Film Complexity 🤯 каталог фильмов, оцененных по сложности для изучающего язык

Обо мне

Меня зовут Даниил, я fullstack-разработчик с большим опытом разработки своих личных проектов.

Проблема

Я поставил перед собой цель — подтянуть свой английский. В принципе, понятно зачем: иметь возможность влиться в международную среду — отличное конкурентное преимущество в условиях текущей нестабильности.

Я действовал по всем фронтам: книжки с упражнениями по грамматике, начал пробовать преподов в разных школах, чтобы узнать кто лучше.

Самым важным пунктом было — потреблять как можно больше англоязычного контента.

Но, когда я начал смотреть Youtube на английском, понял, что язык за долгое время без активной практики у меня сильно ухудшился, так что на слух я стал воспринимать всё гораздо хуже. Самое сложное было – сохранять интерес к тому, что ты смотришь.

Английский у меня не прямо чтобы слишком плох. Я понимаю значительный процент, когда смотрю большинство фильмов. Но всё еще есть достаточное количество, где процент понимания заметно снижается. Тогда становится менее интересно их смотреть.

Если ты понимаешь меньший процент речи, то хуже улавливаешь шутки или мелочи в речи, интерес сохранять становится сложнее.

Решение

Я из тех разработчиков, у которых руки чешутся постоянно. Погуглив немного в поисках подходящего фильма, я понял, что могу использовать свои навыки для решения этой проблемы. За пару часов я скачал субтитры нескольких тысяч фильмов, посчитал частотности слов в фильмах, присоединил пару открытых датасетов и сделал метрику сложности, отражающую частоты редких и популярных слов в фильме.

Я измерил фильмы и получил огромную таблицу, в строчках которой был фильм, его рейтинг на imdb, и метрика размера словарного запаса, требующегося для его комфортного просмотра (сложность фильма). Это позволило мне выбирать фильмы, подходящие для моего уровня, но при этом достаточно сложные, чтобы я мог улучшить свои навыки понимания.

Из этой таблички я сделал сайт, который имеет немного более удобный интерфейс для выбора фильма, чем простая табличка.

Расширение

Чтобы еще больше повысить количество потребляемого мною контента, я пошел дальше, создав браузерное расширение для Youtube — если я встречаю незнакомые слова во время просмотра роликов, то, при наведении курсора на слово, оно автоматически останавливает видео и переводит слово под курсором. Это так же уменьшает трение при просмотре контента, поскольку не нужно переключаться на Google Translate.

Планы на будущее

Я хочу добавить подсчёт метрики сложности в Youtube, для того, чтобы определять подходящий для вовлеченного просмотра контент. Так же, я сейчас работаю над второй версией функции подсчета сложности, которая должна лучше отражать сложность фильма, учитывать сленг и скорость речи. Слова, которые захочется добавить в активный словарный запас, расширение позволит добавить для дальнейшего изучения в тренажер. Еще я хочу добавить Netflix и Кинопоиск в расширение для того, чтобы при просмотре фильмов выводить сложность, а так же и в них иметь возможность переводить и изучать слова.

Заключение

После применения этих инструментов на практике, я увидел заметные улучшения в своем понимании языка и потреблении контента. И, хотя всегда есть место для улучшения, одно можно сказать точно: Мое решение работает.

По крайней мере, для меня.

Ссылки:
Расширение с переводом субтитров
Каталог фильмов

17 комментариев 👇

Звучит офигенски!

Я ради интереса пошел искать No country for old men, в котором южная манера речи и характерный акцент, и выяснил, что у него лишь 4/10; лишь потом сообразил, что акцент по субтитрам опознать нельзя. Но может быть стоит подумать о какой-то юзер дженерейтед метрике, потому что даже с хорошим английским хочется включить субтитры почти с самого начала:

  Развернуть 1 комментарий

Спасибо :)

@oneunreadmail, я еще тюню метрику, чтобы учесть скорость речи и сленг. Я думал о юзер-дженерейтед метрике) Но надо много пользователей, наверное, чтобы она была объективна. Хотя, сейчас пришла идея, что я могу просто показывать количество голосов, чтобы пользователь решал объективна оценка или нет. Спасибо)

Но тут надо сказать, что, если смотреть с сабами всё, то метрика будет более объективной)

  Развернуть 1 комментарий
Herman Lyakhovich Программирую финансы 9 февраля в 21:38

Есть версия, что нужен ещё один рейтинг, более важный — рейтинг того, насколько тихо записана/сведена речь в фильме.

  Развернуть 1 комментарий

@herman, звучит отлично) Спасибо)

  Развернуть 1 комментарий

По описанию - отличный проект!
Только сайт почему-то не грузится 🤔

  Развернуть 1 комментарий

@rshestakou, а ты в России?
У меня сервера на DO, видимо под блок попал

  Развернуть 1 комментарий

@danfoxez, нет, я в Литве :)
Вот, специально в инкогнито открыл - ничего кроме куки-баннера (и после аксепта куков тоже ничего, просто пустой экран и остаётся)

  Развернуть 1 комментарий

@danfoxez, у меня тоже не открывается. Вот что в девтулах:

404 на локали en-GB и cors error на check-auth, который отвечает с HTTP 307

  Развернуть 1 комментарий

Большое пожелание - а можно ли добавить в переводчик ютуба еще и инфу о частоте употребляемости слова?
Чтоб решать стоит ли на него делать карточки или нет

Например, если слово попадает в топ3000 - однозначно стоит сделать себе карточку для повторения
Если оно в частотном списке на 100500 месте - скорее всего нет

  Развернуть 1 комментарий

@MaximmV, да, конечно) И датасет у меня есть)

  Развернуть 1 комментарий

Пользуюсь рейтингом на JPDB, оценивающего фильмы и аниме по сложности японского языка. Вообще, если собираешься развивать, глянь на нее, там парень очень круто все развил и много всего прикрутил. Фактически склепал империю для иммерсивного изучения языка.

  Развернуть 1 комментарий

@ganqqwerty, офигенно!

Спасибо за ссылку. Очень похожий сервис, буду тщательно изучать)

  Развернуть 1 комментарий

@ganqqwerty, Ещё learnnatively.com

  Развернуть 1 комментарий

@nakopylov, спасибо за ссылку) Очень интересно изучать похожие проекты)

  Развернуть 1 комментарий
Evgenii Kochanov Анализирую данные 10 февраля в 10:34

никак не ожидал увидеть "токийский дрифт" в топе по сложности лексики :)

а еще кажется, сайт поломался, у меня вместо картинок вот так

  Развернуть 1 комментарий

@kochanoff, я не учитываю пока плотность речи. Возможно автотермины и сленг завышает оценку) Во второй версии поправлю это.

За картинки спасибо) Трафик немного сломал мне их раздачу, сейчас починю)

  Развернуть 1 комментарий
Ilia Gordeev Senior Marketing Manager 13 июня в 16:59

Чет я запутался, это типерь фича для ютуба или все еще отдельный сайт с рейтингом фильмов? меня перекидывает на апп для хрома.

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб