Обо мне
Меня зовут Даниил, я fullstack-разработчик с большим опытом разработки своих личных проектов.
Проблема
Я поставил перед собой цель — подтянуть свой английский. В принципе, понятно зачем: иметь возможность влиться в международную среду — отличное конкурентное преимущество в условиях текущей нестабильности.
Я действовал по всем фронтам: книжки с упражнениями по грамматике, начал пробовать преподов в разных школах, чтобы узнать кто лучше.
Самым важным пунктом было — потреблять как можно больше англоязычного контента.
Но, когда я начал смотреть Youtube на английском, понял, что язык за долгое время без активной практики у меня сильно ухудшился, так что на слух я стал воспринимать всё гораздо хуже. Самое сложное было – сохранять интерес к тому, что ты смотришь.
Английский у меня не прямо чтобы слишком плох. Я понимаю значительный процент, когда смотрю большинство фильмов. Но всё еще есть достаточное количество, где процент понимания заметно снижается. Тогда становится менее интересно их смотреть.
Если ты понимаешь меньший процент речи, то хуже улавливаешь шутки или мелочи в речи, интерес сохранять становится сложнее.
Решение
Я из тех разработчиков, у которых руки чешутся постоянно. Погуглив немного в поисках подходящего фильма, я понял, что могу использовать свои навыки для решения этой проблемы. За пару часов я скачал субтитры нескольких тысяч фильмов, посчитал частотности слов в фильмах, присоединил пару открытых датасетов и сделал метрику сложности, отражающую частоты редких и популярных слов в фильме.
Я измерил фильмы и получил огромную таблицу, в строчках которой был фильм, его рейтинг на imdb, и метрика размера словарного запаса, требующегося для его комфортного просмотра (сложность фильма). Это позволило мне выбирать фильмы, подходящие для моего уровня, но при этом достаточно сложные, чтобы я мог улучшить свои навыки понимания.
Из этой таблички я сделал сайт, который имеет немного более удобный интерфейс для выбора фильма, чем простая табличка.
Расширение
Чтобы еще больше повысить количество потребляемого мною контента, я пошел дальше, создав браузерное расширение для Youtube — если я встречаю незнакомые слова во время просмотра роликов, то, при наведении курсора на слово, оно автоматически останавливает видео и переводит слово под курсором. Это так же уменьшает трение при просмотре контента, поскольку не нужно переключаться на Google Translate.
Планы на будущее
Я хочу добавить подсчёт метрики сложности в Youtube, для того, чтобы определять подходящий для вовлеченного просмотра контент. Так же, я сейчас работаю над второй версией функции подсчета сложности, которая должна лучше отражать сложность фильма, учитывать сленг и скорость речи. Слова, которые захочется добавить в активный словарный запас, расширение позволит добавить для дальнейшего изучения в тренажер. Еще я хочу добавить Netflix и Кинопоиск в расширение для того, чтобы при просмотре фильмов выводить сложность, а так же и в них иметь возможность переводить и изучать слова.
Заключение
После применения этих инструментов на практике, я увидел заметные улучшения в своем понимании языка и потреблении контента. И, хотя всегда есть место для улучшения, одно можно сказать точно: Мое решение работает.
По крайней мере, для меня.
Звучит офигенски!
Я ради интереса пошел искать No country for old men, в котором южная манера речи и характерный акцент, и выяснил, что у него лишь 4/10; лишь потом сообразил, что акцент по субтитрам опознать нельзя. Но может быть стоит подумать о какой-то юзер дженерейтед метрике, потому что даже с хорошим английским хочется включить субтитры почти с самого начала:
Есть версия, что нужен ещё один рейтинг, более важный — рейтинг того, насколько тихо записана/сведена речь в фильме.
По описанию - отличный проект!
Только сайт почему-то не грузится 🤔
Большое пожелание - а можно ли добавить в переводчик ютуба еще и инфу о частоте употребляемости слова?
Чтоб решать стоит ли на него делать карточки или нет
Например, если слово попадает в топ3000 - однозначно стоит сделать себе карточку для повторения
Если оно в частотном списке на 100500 месте - скорее всего нет
никак не ожидал увидеть "токийский дрифт" в топе по сложности лексики :)
а еще кажется, сайт поломался, у меня вместо картинок вот так