Надеюсь на вашу помощь. Имеется не очень умный интерн занимающийся вводом Bill Of Materials в Оракл с pdf-ного формата.
Как бы мне сравнить после него сами P/Ns при том что там много другого текста.
Помогите мне пожалуйста ![]()
Комментариев нет
Ответить
Для отправки комментария вам необходимо авторизоваться.
Материалы сайта:
CanadaRoast.com
ну с таким ТЗ только Кашпировский поможет
Конкретнее давай:
— в чем исходные данные (пример страницы), таблица, картинка, текст
— как он вводит, вручную, автоматом? конвертирует, парсит?
— что именно проверять? данные в базе vs данные из PDF-а? проверять на наличие p/n в таблице или на соотв. других параметров этому номеру?…
— какой доступ к базе для проверки? может ли он экспортировать это в какой-то табличный формат?
— и вообще, зачем это всё? «шо бы шо?» Почему ты должна проверять?
— почему бы интерна не заставить написать тест проверки правильности ввода данных? (или другой способ валидации введенных данных)
ЗЫ — идея проста:
1) входящий документ конвертнуть в эксел таблицу, выкинуть мусор
2) введенные данные в базу экспортировать в эксел таблицу (или самую простую .csv)
3) сравнить две таблицы
http://office.microsoft.com/en-us/excel … 03915.aspx
[quote="Ghost":34dlvxc8]ну с таким ТЗ только Кашпировский поможет
Конкретнее давай:
[color=darkblue:34dlvxc8][b:34dlvxc8] потому что я отвечаю за правильность ВОМ, должны быть заказаны правильные партс
[/quote:34dlvxc8]
— в чем исходные данные (пример страницы), таблица, картинка, текст[color=darkblue:34dlvxc8][b:34dlvxc8] jpg картинка втиснутая в пдф формат[/b:34dlvxc8][/color:34dlvxc8]
— как он вводит, вручную, автоматом? конвертирует, парсит?
[color=darkblue:34dlvxc8][b:34dlvxc8]серчит начало п/н и находит из выпадушки нужныи П/Н или асаинит новыи[/b:34dlvxc8][/color:34dlvxc8]
— что именно проверять? данные в базе vs данные из PDF-а?[color=darkblue:34dlvxc8][b:34dlvxc8]да[/b:34dlvxc8] [/color:34dlvxc8]проверять на наличие p/n в таблице или на соотв. других параметров этому номеру?…
— какой доступ к базе для проверки? может ли он экспортировать это в какой-то табличный формат?
[quote:34dlvxc8][color=darkblue:34dlvxc8][b:34dlvxc8]Consolidated Bills of Material Report
Components
TXT format
Extended
Item Description Revision UOM Quantity Quantity
[/b:34dlvxc8][/color:34dlvxc8][/quote:34dlvxc8]
— и вообще, зачем это всё? «шо бы шо?» Почему ты должна проверять?
[/b:34dlvxc8][/color:34dlvxc8]
— почему бы интерна не заставить написать тест проверки правильности ввода данных? (или другой способ валидации введенных данных)
[quote:1v4vbj38]jpg картинка втиснутая в пдф формат [/quote:1v4vbj38] это плохо
там таблица в виде картинки, или на каждый p/n по отдельной картинке?
на что это похоже из этого? http://j.mp/X8uJdZ
как он серчит p/n, ручками находит или там есть хотя бы p/n текстом в PDF-е?
Короче, он глазками «парсит» доки и вводит всё вручную.
Если с результирующей таблицей проблем быть не должно, с входными данными засада. Хорошо, если это можно какой распознавалке скормить, она это выплюнет в виде дока с таблицей (или сразу в экселовской таблице), и уже с этим можно как-то работать.
Проблема 1: распознавалки платные
http://www.minipdf.com/scan-to-excel/gif-to-excel.html
Проблема 2: после распознавания тоже могут быть ошибки и это можно только ручками/глазками проверить.
Альтернатива: пнуть производителя прислать BOM в человеческом формате таблицы (файлом) с которым можно работать. Или найти соотв. файл откуда сперты таблички, он должен быть как минимум PDF. Из текстового PDF уже проще получить таблицу чем из растрового.
[quote="Ghost":3a72xgow][quote:3a72xgow]jpg картинка втиснутая в пдф формат [/quote:3a72xgow] это плохо
там таблица в виде картинки, или на каждый p/n по отдельной картинке?
на что это похоже из этого? http://j.mp/X8uJdZ
как он серчит p/n, ручками находит или там есть хотя бы p/n текстом в PDF-е?
Короче, он глазками «парсит» доки и вводит всё вручную.
Если с результирующей таблицей проблем быть не должно, с входными данными засада. Хорошо, если это можно какой распознавалке скормить, она это выплюнет в виде дока с таблицей (или сразу в экселовской таблице), и уже с этим можно как-то работать.
Проблема 1: распознавалки платные
http://www.minipdf.com/scan-to-excel/gif-to-excel.html
Проблема 2: после распознавания тоже могут быть ошибки и это можно только ручками/глазками проверить.
Альтернатива: пнуть производителя прислать BOM в человеческом формате таблицы (файлом) с которым можно работать. Или найти соотв. файл откуда сперты таблички, он должен быть как минимум PDF. Из текстового PDF уже проще получить таблицу чем из растрового.[/quote:3a72xgow]
спасибо!
их БОМ это одна большая раст картинка, не отдельно П/Н
сеичас гляну расспознавалки
и да, деиствительно надо пнуть производителя их проги
Спасибо-спасибо-спасибо за идею
Кстати, Adobe Acrobat, платный, конечно же, обладает встроенным OCR для распознавания доков либо напрямую со сканера, либо из картинки в PDF. Распознанный док потом можно экспортнуть в Word или Excel.
[quote="elefant":16gt5891]Кстати, Adobe Acrobat, платный, конечно же, обладает встроенным OCR для распознавания доков либо напрямую со сканера, либо из картинки в PDF. Распознанный док потом можно экспортнуть в Word или Excel.[/quote:16gt5891] да, спасибо, я эту линию отработала сегодня. Апгрейд с 9 про на XI стоит 199 жду офиц. квот,
У адоба система дебильная. Если у них нет конкретно моего емейла в системе, они не имеют права выслать на мой адрес ничего. Пришлось вычислять кто играл с этим в прошлый раз и дать его имейл, и теперь ждать от него мой квот
Ну и само собой, пробую решить с создателями битмапных ВОМ вопрос о приемлемом формате.
Немного поясню, т.к. волну неожиданно нагнало. Цель вопроса: 1. удостовериться, что пока не придумали легкого способа справится с такой задачей, не прибегая к форматированию исходных данных. 2. доказать, что самый правильный способ — присылать BOM в удобоваримом формате.
кстате, идеальным способом было бы:
1) получать списочек партцев файлом-табличкой
2) импортировать её автоматически в БД каким-нибудь дата-меппером, есть куча «data import wizards» в современных ERP.
т.е. в итоге не должно быть никакой ручной работы интерна, и никакого шанса на опечатку им же; новые данные импортируются, создавая новые записи, существующие — обновляются. Автомачичешки!
И уже одно раб. место интерна можно сокращать
[quote="Ghost":x85kpz34]кстате, идеальным способом было бы:
1) получать списочек партцев файлом-табличкой
2) импортировать её автоматически в БД каким-нибудь дата-меппером, есть куча «data import wizards» в современных ERP.
т.е. в итоге не должно быть никакой ручной работы интерна, и никакого шанса на опечатку им же; новые данные импортируются, создавая новые записи, существующие — обновляются. Автомачичешки!
[/quote:x85kpz34]
И уже одно раб. место интерна можно сокращать
я уже послала запрос и форматах, которые можно скармливать в Оракл автоматически

мне ответили, что форматы то есть, а вот доступа у юзеров к таким возможностям нет
Возможности юсеров можно расширить, но только если я докажу очень сильную необходимость данного шага
вот сижу, формулирую
PS
a интерн никуда не денется, он деть начальника соседнего отдела
[quote="tsvok":ru7qml4q]a интерн никуда не денется, он деть начальника соседнего отдела[/quote:ru7qml4q] «если нельзя выгнать, надо заставлять работать»
[quote="Ghost":1lprldma][quote="tsvok":1lprldma]a интерн никуда не денется, он деть начальника соседнего отдела[/quote:1lprldma] «если нельзя выгнать, надо заставлять работать»
[/quote:1lprldma]


это столько моего времени занимает! но я стараюсь, как могу
о! надо будет ему сказать no pressure no diamonds