Наука и технологии
12 декабря 2012 в 07:15

Сайт дня: Tatoeba - убийца языкового барьера

Нет, сегодня сайтом дня будет не Google Play со своими книгами и фильмами. Я решил обидеться на "корпорацию добра" за то, что вместо удобных файлов в FB2 у них какие-то кривые, платформозависимые читалки.

И про Твиттер с Инстаграммом я сегодня писать не буду. Во-первых - уже писал, а во вторых - они надоели уже со своими конкурентскими капризами.

Сегодня сайтом дня объявляется полезный, интересный, перспективный и оригинальный проект Tatoeba.

Лого Tatoeba

На сайте Tatoeba собирается большая база самых разных предложений и их переводов на самые разные языки. При всей простоте идеи это очень востребованная информация. Отдельные слова легко можно посмотреть в словаре, но этого недостаточно, чтобы адекватно перевести целое предложение. Машинные переводчики работают мягко говоря "не точно". Двадцать первый век на дворе, а предложения с языка на язык приходится переводить вручную.

Главная страница сайта Tatoeba

До сих пор, единственным безотказным средством от языкового барьера были бюро переводов, но разработчики Tatoeba пытаются решить проблему силами сообщества. Это редкий случай, когда из генерируемого пользователями контента получается что-то хорошее. Тут тот же принцип, что и при программировании OpenSource, и те же плюсы. Например, не нужно дважды переводить одно и то же предложение на один и тот же язык. Зато можно наполнять базу произношения для своего языка, не зная всех остальных.

Пользователи Tatoeba добавляют предложение на своём языке и всем миром переводят его на все остальные языки, кто какой знает. Тут и развлечение, и социальная активность, и языковая практика.

Пример страницы предложения на сайте Tatoeba

Прямо сейчас на сайте Tatoeba есть переводы на 114 языков, от английского и до ретро-романского. Просматривая предложения на Tatoeba начинаешь проще смотреть на задачу выучить несколько языков. Не все языковые тусовки одинаково активны. Закономерно лидируют английский и эсперанто. Хорошо представлен французский (язык разработчиков). Русский даже не в десятке, но я болею за наших и всё такое. В двадцатку совершенно неожиданно попали берберский и нижнесаксонский. Про существование некоторых языков я на Tatoeba узнал впервые.

Статистика использования языков на сайте Tatoeba

Пока проект Tatoeba ещё находится на стадии бета-версии, но выражается это только в объёме контента. Понятно, что даже "общеупотребительных" предложений в человеческой речи намного больше, чем слов, и эти жалкие неполные два миллиона предложений - это капля в море. Однако не стоит забывать, что Википедия начиналась с нескольких статей, я ядро Linux - с нескольких сотен строк кода. Если проект не закроется, сообщество может сделать из него самый мощный лингвистический ресурс сети. Возможно, мы присутствуем при рождении легенды. Хоть она и выглядит, как невинное развлечение.

Знаете ещё хорошие сайты? Пишите на sitesoftheday@ferra.ru.