Проблема с копированием текста из PDF в программе SarticleXML

Статус
Закрыто для дальнейших ответов.

zolotaryov_av

Участник
Топикстартер
Сообщения
6
Реакции
0
Здравствуйте!
У меня возникла проблема: Для работы необходимо копировать текст из PDF в программу SarticleXML. Издательство дало мне готовые PDF-файлы, из них текст копировался в виде "крякозябры", помог перевод из pdf в postscript и обратно в pdf. Теперь возникла другая проблема - текст копируется по слогам, не знаю как это исправить. Пользуюсь Acrobat 8 Pro.
Буду очень признателен, если кто-то сможет помочь.
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Вам стоит почитать/поискать темы, посвященные проблемам извлечения/редактирования текста в pdf. Также, возможно, обсуждению поможет файл, хотя врядли мы увидим что-то новое.

Есть хорошая новость: согласно Яндексу, существует еще один пользователь программы SarticleXML. Вдруг он знает ответ...
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

1998 сказал(а):
Есть хорошая новость: согласно Яндексу, существует еще один пользователь программы SarticleXML. Вдруг он знает ответ...
Это Янисей или Моисей?
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Спасибо за совет) насчет поискать я догадывался. Только вот сроки поджимают, через 3 дня этот вопрос будет для меня не актуален.
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Прежде чем устанавливать сроки стоило отработать технологию.
Уже не раз указывалось, что единственный универсальный метод экспорта PDF в текст, это его распознавание.

Попробуйте Abby FineReader и Abby PDFtransformer

P.S. Программа называется таки SarcticleXML Так искать будет немного проще.
Я правильно понимаю, что нужно выдрать некоторые короткие поля из PDF типа заголовков и авторов?
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Да, но еще нужны списки литературы и аннотации. В этом главная загвоздка. А насчет названия программы, Вы меня поймали))) я на это внимание особого не обращал, один раз в Яндексе вбил название, и действительно нашел как раз того человека, у которого в резюме неправильно написано это название.
Насчет технологии: у нас в издательстве несколько редакций. В моей редакции мне давали журналы в postscript-е, и проблем на возникало. А сейчас дали в PDF, и тут начались эти "танцы с бубном". И к тому же на праздники отключили сервер с сайтом издательства, а с сайта было намного проще выдирать аннотации и т. д.
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Текст "выдирается" по слогам только из 4-х журналов (всего их 24), не знаю почему.
И еще можно вопрос: если я возьму исходник в postscript-е и сам переведу его в pdf (я не знаю чем пользуются в издательстве), возможно, что текст будет копироваться нормально. Я так понимаю, проблема в конфликте шрифтов (только где этот конфликт...)
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Есть вариант попробовать бесплатный FoxIt PDF Reader и PDF-XCHANGE VIEWER
Они вроде более-менее справлялись с текстами, мне показалось, что лучше чем Акробат.

Ну, и если есть за что зацепиться, то можно какую поиск-замену сделать.

А вообще повторюсь... Abby PDFTransformer, или Fine Reader. Это по крайней мере гарантированно, что будет нормально, вот только у них есть режим импорта текста и распознавания графики. Первый может дать лажу. Второй помедленней, но обычно почище...
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Infix сносно понимает текст в пдф. Блоками берет. Правда переносы при этом вылазят дефисами. Ну посмотрите, в общем-то достаточно удобная прога.
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Спасибо за советы, попробую!
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Спасибо, еще раз! Помогло распознавание документа как графику с помощью pdf transformer.
 
Ответ: Проблема с копированием текста из PDF в программе SarticleXML

Попросите, чтобы редакция конвертировала для Вас текст из верстки в html (лучше даже весь журнал сплошным потоком). Работа на 3 минуты, а Вам станет намного проще.
 
Статус
Закрыто для дальнейших ответов.