воскресенье, 7 августа 2011 г.

Новости (7 августа 2011)

Уважаемые коллеги,

хочу рассказать вам о новостях и достижениях нашего проекта, чтобы не было ложного впечатления, что летом мы ничего не делаем. :-)

1. Мы определились с целями по составу и объёму корпуса.

К концу 2011 года мы хотим создать корпус в 1 млн. словоупотреблений со следующим распределением по типам источников:

50% - публицистика (новостные источники: Часкор, WikiNews, ...)
10% - художественная литература
10% - научно-технические тексты (статьи с конференций, из журналов, ...)
10% - энциклопедические тексты (Википедия, Б-Э, ...)
5% - юридические тексты (законы, договоры, кодексы, стандарты,
обращения, заявления, петиции ...)
5% - письма (переписка известных людей + современные e-mail)
5% - блоги (dolboeb - доступен под CC, ещё кого-нибудь)
2.5% - статусы / микроблоги
2.5% - чаты / ICQ / gtalk / vkontatke

На данный момент мы добавляем в корпус тексты из трёх источников:

- Частный Корреспондент
- Википедия
- Викиновости

2. Объём корпуса

На прошлой неделе объём корпуса превысил 100 тыс. словоупотреблений, т.е. 10% от поставленной цели по объёму. Актуальный цифры можно увидеть тут: http://opencorpora.org/?page=stats
Они обновляются раз в сутки. Тогда же, когда генерируются дампы с разметкой ( http://opencorpora.org/?page=downloads ).

3. Метаинформация о текстах

На данный момент мы сохраняем следующую информацию о текстах:

- Название документа
- Имя автора для статей на ЧасКоре (или ссылку на его профиль в Викиновостях)
- Дату написания документа (или дату используемой правки в Википроектах)
- Тему (в том виде, в котором она указана в источнике)
- "Геофокус" для статей в Викиновостях (берётся из викикатегорий, обозначающих географические объекты)
- ссылку на документ в Интернете (на конкретную правку, если это Вики-проект)
- копию html документа на случай, если в Интернете он изменится или будет удалён (например, может пригодиться чтобы совместить лингвистическую и типографскую разметку)

Посмотреть как это выглядит, можно, например, тут:

http://opencorpora.org/books.php?book_id=82&full
(метаинформация + текст, разделённый на абзацы, предложения и токены).

Статистика по метаинформации тут: http://opencorpora.org/?page=tag_stats

4. Комментарии к предложениям

Для того, чтобы была возможность обсуждать спорные случаи, к каждому предложению теперь можно оставлять комментарии аналогично тому, как это делается в ЖЖ.

Например, вот так:

http://opencorpora.org/sentence.php?id=4959#comments

Комментарии могут оставлять все зарегистрированные пользователи.
Список новых комментариев можно увидеть по ссылке "Свежие комментарии" в правой панели:

http://opencorpora.org/comments.php

Я благодарю всех, кто помогает проекту развиваться.

БочаровВ