Содержание
Эта статья предназначена для тех, кому нужно научиться редактировать тексты в отсканированных документах. Технология, лежащая в основе этого процесса, называется Оптическое распознавание символов (или же OCR, с английского Оптическое распознавание символов). Вы можете использовать веб-сайт «New OCR», чтобы выполнить это преобразование без потери форматирования, или создать учетную запись на странице «Online OCR», если вам нужно что-то более продвинутое. Внимание: обе страницы преимущественно на английском языке.
Шаги
Метод 1 из 2. Доступ к «Новому OCR»
- Отсканируйте документ как файл PDF. Это важно, поскольку многие программы, конвертирующие текст, не распознают символы, найденные в изображениях (например, когда они находятся в формате PDF).
- По возможности сканируйте документ в черно-белом, а не в цветном режиме, чтобы облегчить распознавание символов.
-
Откройте новый веб-сайт OCR. Введите http://www.newocr.com/ в свой браузер. Вы можете использовать страницу для преобразования отсканированных документов и преобразования их в редактируемые файлы. - нажмите в Выбрать файл .... Опция находится вверху страницы и представлена серой кнопкой. Щелкните его, чтобы открыть проводник (в Windows) или Finder (в Mac).
-
Выберите отсканированный файл PDF. Для этого щелкните документ.- Возможно, вам придется щелкнуть место сохранения PDF-файла в левой части окна.
- нажмите в Открыть. Эта опция находится в правом нижнем углу экрана и отправляет PDF-файл на сайт.
-
нажмите в Загрузить + OCR. Кнопка находится внизу страницы и запускает преобразование файла PDF. - Прокрутите страницу вниз и нажмите Скачать. Эта опция находится в левой части страницы и ведет к раскрывающемуся меню.
- нажмите в Microsoft Word (DOC). Этот параметр находится в раскрывающемся меню и загружает версию файла PDF в формате DOC, которую вы загрузили на сайт.
- Вы можете выбрать формат .txt на Обычный текст (TXT) в том же раскрывающемся меню, если на вашем компьютере не установлен Word. Затем просто отредактируйте его в Блокноте (в Windows) или TextEdit (в Mac).
- Отредактируйте версию документа в Word. Дважды щелкните файл DOC, чтобы открыть его в Word и отредактировать части, которые сайт распознал с помощью символов.
- Сайт может не иметь возможности конвертировать определенные части PDF-файла из-за ошибок перевода.
- Возможно, вам придется нажать Разрешить редактированиев верхней части Word, чтобы отредактировать текст.
- Сохраните документ Word в формате PDF. Для этого сделайте следующее:
- На Windows: нажмите в Файл, Сохранить как, Документ Word (в раскрывающемся меню), PDF и Сохранить.
- На Mac: нажмите в Сохранить, Сохранить как, введите имя, нажмите «Форматировать», PDF и Сохранить.
Метод 2 из 2: доступ к «OCR в Интернете»
- Отсканируйте документ как файл PDF. Это важно, поскольку многие программы, конвертирующие текст, не распознают символы, найденные в изображениях (например, когда они находятся в формате PDF).
- По возможности сканируйте документ в черно-белом, а не в цветном режиме, чтобы было легче распознавать отдельные символы.
- Откройте веб-сайт Online OCR. Введите в браузере https://www.onlineocr.net/. На странице вы можете редактировать текст PDF без потери его форматирования - хотя в бесплатной версии есть ограничение в 50 страниц.
- нажмите в ЗАРЕГИСТРИРОВАТЬСЯ. Эта опция находится в верхней правой части окна и переводит пользователя на страницу создания профиля.
- Завести аккаунт. Вы можете создать бесплатную учетную запись для одновременного редактирования нескольких страниц PDF. Для этого введите следующие данные:
- Введите имя пользователя: введите имя, которое хотите использовать.
- Введите пароль: введите пароль, который хотите использовать, затем подтвердите его на Подтвердить Пароль.
- Введите адрес электронной почты: введите адрес электронной почты, который хотите использовать.
- Введите код Captcha: Введите код, показанный на экране.
- нажмите в Зарегистрироваться. Кнопка зеленого цвета находится внизу экрана и завершает создание учетной записи.
- Войдите в свою учетную запись. нажмите в АВТОРИЗОВАТЬСЯ, в правом верхнем углу экрана введите свое имя пользователя и пароль и снова нажмите Авторизоваться для доступа к странице конверсии.
- Выберите ваш язык. Щелкните язык файла PDF в левой части страницы.
- Например: если файл на португальском языке, щелкните БРАЗИЛИЙСКИЙ.
- Отметьте опцию «Microsoft Word». Он находится посередине страницы.
- Отметьте опцию «Все страницы». Он находится справа от раздела «Microsoft Word».
- нажмите в Выбрать файл .... Кнопка синего цвета, находится посередине страницы и ведет к новому окну.
- Выберите отсканированный файл PDF. Для этого щелкните документ.
- Возможно, вам придется щелкнуть место сохранения PDF-файла в левой части окна.
-
нажмите в Открыть. Опция находится в правом нижнем углу экрана и начинает отправку документа на веб-сайт. Вы можете продолжить, когда индикатор выполнения справа от Выбрать файл ... достичь 100%. - нажмите в КОНВЕРТИРОВАТЬ. Эта опция находится в нижней части экрана и перенесет вас на страницу преобразованного документа, когда Online OCR завершит преобразование файла PDF в DOC.
-
Щелкните имя документа. Название документа появится в виде синей ссылки внизу страницы. Щелкните по нему, чтобы загрузить. - Отредактируйте версию документа в Word. Дважды щелкните файл DOC, чтобы открыть его в Word и отредактировать части, которые сайт распознал с помощью символов.
- Возможно, сайт не сможет преобразовать определенные части PDF-файла из-за ошибок перевода.
- Возможно, вам придется нажать Разрешить редактированиев верхней части Word, чтобы отредактировать текст.
-
Сохраните документ Word в формате PDF. Для этого сделайте следующее:- На Windows: нажмите в Файл, Сохранить как, Документ Word (в раскрывающемся меню), PDF и Сохранить.
- На Mac: нажмите в Сохранить, Сохранить как, введите имя, нажмите «Форматировать», PDF и Сохранить.
подсказки
- Отсканированные документы обычно сохраняются в формате PDF на вашем компьютере. Если файл в формате TIFF, вы можете преобразовать его в PDF.
Предупреждения
- Технология оптического распознавания несовершенна. Все документы, редактируемые с его помощью, содержат ошибки.