Люди скажите как можно конвертировать файл pdf в docx (doc)? Там таблица, текст которой надо редактировать и вносить еще другие данные. В принципе он конвертируется, но только как картинка - редактирование не получается.
Поможите кто чем может!)))
"Извините, но iLovePDF не может извлечь текст из отсканированных PDF-файлов, а только выбранный текст. Чтобы преобразовать отсканированные PDF-файлы в редактируемый документ Office вам нужно выполнить OCR, функция, которую мы предлагаем в плане Premium" (С)
бесплатный PDF-конвертер прозволяет преобразовать PDF-документы в DOCX-формат, для дальнейшего редактирования в программах Microsoft Word или OpenOffice Writer. (с)
Если текст в виде растрового (пиксельного) изображения, то только OCR - при достаточном разрешении картинки.
Засада с pdf такова, что этот формат - подмассив языка печати PostScript (PS), который был создан не для выражения таблиц, но для выражения того, как должны выглядеть объекты на бумаге. Вообще, выражение таблицы в pdf документах возможно, но данные в pdf не всегда выражают (форматируют) именно как таблицы, и потому их невозможно извлечь в виде таблицы. Всё зависит от создателей программы, кторая пишет pdf.
А просто данные в правильной последовательности есть? Если да, то их можно в "Linux shell" скрипте закатать в html, изобразить в браузере и скопировать как таблицу :).
Аноним [1] взять флешку
скопировать всё на фешку, сходить в ближайшее фотоателье
там всё сделают как надо
что сканирование, это картинка (а не из текстового редактора), переведённая потом в PDF. Увы и ах. OCR может читать текст с картинками, обычно допуская много ошибок, но с картинками, на буквы не похожими, он работать не может.
Поэтому только ручное форматирование до тех пор, пока искусственный интеллект не научится решать подобные проблемы.
На сегодняшний момент с этой задачей нормально не может справится ни одна программа.
Более менее корректно может это делать Abode Fine Reader(последняя версия 14), но она платная. Но даже не в этом дело. Чтобы корректно распознавать, нужна хорошего качества картинка и желательно, чтобы таблица располагалась без всяких перекосов на листе, что не всегда бывает возможно достичь в документе.
В общем с одним документом может получится более менее, а с другим косяк на косяке. Да и программа старается применить всякие табуляции и поправки, что делает тяжёлым процесс последующего редактирования. Всё скачет вкривь и вкось.
Как говорится, быстрее создать таблицу с нуля, чем редактировать полученное распознавание. В общем фигня полная.. :(
Был не совсем прав. Сейчас конвертировал таблицу в pdf и на сайте (ссылку кину в личку) перевёл обратно в doc. Всё корректно получилось. Как и говорил, нужна чёткая картинка.
Но у меня просто стоят две сканерные программы
любая переводит в куда надо
контролировать приходится, но количество ошибок действительно зависит от качества картинки