Сверить 100-150 P/N в 2 доках разных форматов

Надеюсь на вашу помощь. Имеется не очень умный интерн занимающийся вводом Bill Of Materials в Оракл с pdf-ного формата.
Как бы мне сравнить после него сами P/Ns при том что там много другого текста.
Помогите мне пожалуйста :roll:

Комментариев нет

  1. ну с таким ТЗ только Кашпировский поможет :lol:

    Конкретнее давай:
    — в чем исходные данные (пример страницы), таблица, картинка, текст
    — как он вводит, вручную, автоматом? конвертирует, парсит?
    — что именно проверять? данные в базе vs данные из PDF-а? проверять на наличие p/n в таблице или на соотв. других параметров этому номеру?…
    — какой доступ к базе для проверки? может ли он экспортировать это в какой-то табличный формат?
    — и вообще, зачем это всё? «шо бы шо?» Почему ты должна проверять? :roll:
    — почему бы интерна не заставить написать тест проверки правильности ввода данных? (или другой способ валидации введенных данных)

  2. [quote="Ghost":34dlvxc8]ну с таким ТЗ только Кашпировский поможет :lol:

    Конкретнее давай:
    — в чем исходные данные (пример страницы), таблица, картинка, текст[color=darkblue:34dlvxc8][b:34dlvxc8] jpg картинка втиснутая в пдф формат[/b:34dlvxc8][/color:34dlvxc8]
    — как он вводит, вручную, автоматом? конвертирует, парсит?
    [color=darkblue:34dlvxc8][b:34dlvxc8]серчит начало п/н и находит из выпадушки нужныи П/Н или асаинит новыи[/b:34dlvxc8][/color:34dlvxc8]
    — что именно проверять? данные в базе vs данные из PDF-а?[color=darkblue:34dlvxc8][b:34dlvxc8]да[/b:34dlvxc8] [/color:34dlvxc8]проверять на наличие p/n в таблице или на соотв. других параметров этому номеру?…
    — какой доступ к базе для проверки? может ли он экспортировать это в какой-то табличный формат?
    [quote:34dlvxc8][color=darkblue:34dlvxc8][b:34dlvxc8]Consolidated Bills of Material Report
    Components
    TXT format
    Extended
    Item Description Revision UOM Quantity Quantity
    [/b:34dlvxc8][/color:34dlvxc8][/quote:34dlvxc8]
    — и вообще, зачем это всё? «шо бы шо?» Почему ты должна проверять? :roll:[color=darkblue:34dlvxc8][b:34dlvxc8] потому что я отвечаю за правильность ВОМ, должны быть заказаны правильные партс
    [/b:34dlvxc8][/color:34dlvxc8]
    — почему бы интерна не заставить написать тест проверки правильности ввода данных? (или другой способ валидации введенных данных) :? [/quote:34dlvxc8]

  3. [quote:1v4vbj38]jpg картинка втиснутая в пдф формат [/quote:1v4vbj38] это плохо

    там таблица в виде картинки, или на каждый p/n по отдельной картинке?
    на что это похоже из этого? http://j.mp/X8uJdZ

    как он серчит p/n, ручками находит или там есть хотя бы p/n текстом в PDF-е?

    Короче, он глазками «парсит» доки и вводит всё вручную.

    Если с результирующей таблицей проблем быть не должно, с входными данными засада. Хорошо, если это можно какой распознавалке скормить, она это выплюнет в виде дока с таблицей (или сразу в экселовской таблице), и уже с этим можно как-то работать.

    Проблема 1: распознавалки платные
    http://www.minipdf.com/scan-to-excel/gif-to-excel.html

    Проблема 2: после распознавания тоже могут быть ошибки и это можно только ручками/глазками проверить.

    Альтернатива: пнуть производителя прислать BOM в человеческом формате таблицы (файлом) с которым можно работать. Или найти соотв. файл откуда сперты таблички, он должен быть как минимум PDF. Из текстового PDF уже проще получить таблицу чем из растрового.

  4. [quote="Ghost":3a72xgow][quote:3a72xgow]jpg картинка втиснутая в пдф формат [/quote:3a72xgow] это плохо

    там таблица в виде картинки, или на каждый p/n по отдельной картинке?
    на что это похоже из этого? http://j.mp/X8uJdZ

    как он серчит p/n, ручками находит или там есть хотя бы p/n текстом в PDF-е?

    Короче, он глазками «парсит» доки и вводит всё вручную.

    Если с результирующей таблицей проблем быть не должно, с входными данными засада. Хорошо, если это можно какой распознавалке скормить, она это выплюнет в виде дока с таблицей (или сразу в экселовской таблице), и уже с этим можно как-то работать.

    Проблема 1: распознавалки платные
    http://www.minipdf.com/scan-to-excel/gif-to-excel.html

    Проблема 2: после распознавания тоже могут быть ошибки и это можно только ручками/глазками проверить.

    Альтернатива: пнуть производителя прислать BOM в человеческом формате таблицы (файлом) с которым можно работать. Или найти соотв. файл откуда сперты таблички, он должен быть как минимум PDF. Из текстового PDF уже проще получить таблицу чем из растрового.[/quote:3a72xgow]
    спасибо!
    их БОМ это одна большая раст картинка, не отдельно П/Н

    сеичас гляну расспознавалки
    и да, деиствительно надо пнуть производителя их проги
    Спасибо-спасибо-спасибо за идею

  5. Кстати, Adobe Acrobat, платный, конечно же, обладает встроенным OCR для распознавания доков либо напрямую со сканера, либо из картинки в PDF. Распознанный док потом можно экспортнуть в Word или Excel.

  6. [quote="elefant":16gt5891]Кстати, Adobe Acrobat, платный, конечно же, обладает встроенным OCR для распознавания доков либо напрямую со сканера, либо из картинки в PDF. Распознанный док потом можно экспортнуть в Word или Excel.[/quote:16gt5891] да, спасибо, я эту линию отработала сегодня. Апгрейд с 9 про на XI стоит 199 жду офиц. квот,
    У адоба система дебильная. Если у них нет конкретно моего емейла в системе, они не имеют права выслать на мой адрес ничего. Пришлось вычислять кто играл с этим в прошлый раз и дать его имейл, и теперь ждать от него мой квот :lol:
    Ну и само собой, пробую решить с создателями битмапных ВОМ вопрос о приемлемом формате.

  7. Немного поясню, т.к. волну неожиданно нагнало. Цель вопроса: 1. удостовериться, что пока не придумали легкого способа справится с такой задачей, не прибегая к форматированию исходных данных. 2. доказать, что самый правильный способ — присылать BOM в удобоваримом формате.

  8. кстате, идеальным способом было бы:
    1) получать списочек партцев файлом-табличкой
    2) импортировать её автоматически в БД каким-нибудь дата-меппером, есть куча «data import wizards» в современных ERP.

    т.е. в итоге не должно быть никакой ручной работы интерна, и никакого шанса на опечатку им же; новые данные импортируются, создавая новые записи, существующие — обновляются. Автомачичешки!
    И уже одно раб. место интерна можно сокращать :)

  9. [quote="Ghost":x85kpz34]кстате, идеальным способом было бы:
    1) получать списочек партцев файлом-табличкой
    2) импортировать её автоматически в БД каким-нибудь дата-меппером, есть куча «data import wizards» в современных ERP.

    т.е. в итоге не должно быть никакой ручной работы интерна, и никакого шанса на опечатку им же; новые данные импортируются, создавая новые записи, существующие — обновляются. Автомачичешки!
    И уже одно раб. место интерна можно сокращать :)[/quote:x85kpz34]

    я уже послала запрос и форматах, которые можно скармливать в Оракл автоматически
    мне ответили, что форматы то есть, а вот доступа у юзеров к таким возможностям нет
    Возможности юсеров можно расширить, но только если я докажу очень сильную необходимость данного шага
    вот сижу, формулирую :roll:
    PS
    a интерн никуда не денется, он деть начальника соседнего отдела :lol:

  10. [quote="tsvok":ru7qml4q]a интерн никуда не денется, он деть начальника соседнего отдела[/quote:ru7qml4q] «если нельзя выгнать, надо заставлять работать» :twisted:

  11. [quote="Ghost":1lprldma][quote="tsvok":1lprldma]a интерн никуда не денется, он деть начальника соседнего отдела[/quote:1lprldma] «если нельзя выгнать, надо заставлять работать» :twisted:[/quote:1lprldma]
    это столько моего времени занимает! но я стараюсь, как могу
    :roll:
    о! надо будет ему сказать no pressure no diamonds :lol:

Ответить