view · edit · sidebar · attach · print · history

20120426-update-docx-parser

<< | Index | >>


Summary

  • Updated docx html converter tool.

Commits

Index


Parse sub/sup script

z.B.

<w:p w:rsidR="0017544B" w:rsidRPr="0038288A" w:rsidRDefault="0017544B" w:rsidP="0017544B">
  <w:pPr>
    <w:widowControl w:val="0"/>
    <w:tabs>
      <w:tab w:val="left" w:pos="0"/>
      <w:tab w:val="left" w:pos="360"/>
    </w:tabs>
    <w:spacing w:line="240" w:lineRule="auto"/>
    <w:jc w:val="left"/>
    <w:rPr>
      <w:sz w:val="20"/>
    </w:rPr>
  </w:pPr>
  <w:r w:rsidRPr="0038288A">
    <w:rPr>
      <w:vertAlign w:val="superscript"/>
    </w:rPr>
    <w:t>a</w:t>
  </w:r>
  <w:r w:rsidRPr="0038288A">
    <w:rPr>
      <w:vertAlign w:val="superscript"/>
    </w:rPr>
    <w:tab/>
  </w:r>
  <w:r w:rsidRPr="0038288A">
    <w:rPr>
      <w:sz w:val="20"/>
    </w:rPr>
    <w:t xml:space="preserve">Aufgrund der verfügbaren Daten wird die Anwendung von Reyataz in Kombination mit niedrig dosiertem </w:t>
  </w:r>
  <w:r w:rsidRPr="0038288A">
    <w:rPr>
      <w:sz w:val="20"/>
    </w:rPr>
    <w:tab/>
    <w:t>Ritonavir bei Patienten mit einem Körpergewicht &lt;15 kg nicht empfohlen.</w:t>
  </w:r>
</w:p>
Note
      file= ''
      Zip::ZipInputStream.open(@path) do |stream|
        while entry = stream.get_next_entry do
          if entry.file?() and entry.name == 'word/document.xml'
            entry.get_input_stream do |s|
              while text = s.gets
                file << text.force_encoding('utf-8')
              end
            end
          end
        end
      end
      stream = file
      # escape some characters
      #text.gsub!(/(.+?)<(.+?)/, '\1&lt;\2')
      #text.gsub!(/(.+?)>(.+?)/, '\1&gt;\2')
      #text.gsub!(/&#8804;/, '&le;')
      #text.gsub!(/&#8805;/, '&gt;')
=begin
      text = text.unpack("U*").map do |c| 
        table = {
          34 => "&quot;",
          38 => "&amp;",
          60 => "&lt;",
          62 => "&gt;"
        }
        if table.keys.include? c
          table[c]
          #"&#%i;" % c
        else
          [c].pack("U")
          #"&#x%x;" % c
        end
      end.join
=end

Unicode symbole handling

<w:r>
  <w:rPr>
    <w:rFonts w:cs="Arial"/>
    <w:color w:val="000000"/>
  </w:rPr>
  <w:sym w:font="Symbol" w:char="F0B7"/>
</w:r>
<w:r w:rsidR="00896476" w:rsidRPr="00C03953">
  <w:rPr>
    <w:rFonts w:cs="Arial"/>
    <w:color w:val="000000"/>
  </w:rPr>
  <w:tab/>
</w:r>
<w:r w:rsidR="00896476" w:rsidRPr="00C670B8">
  <w:rPr>
    <w:rFonts w:cs="Arial"/>
    <w:color w:val="000000"/>
  </w:rPr>
  <w:t>Amiodaron</w:t>
</w:r>

Symbol Font

http://www.fileformat.info/info/unicode/font/symbol/nonunicode.htm

Browser support

http://www.alanwood.net/unicode/private_use_area.html

HTml character ref

http://xn--dckudrd2b.net/ware/iso88591.html

irb(main):003:0> '&#61549;'.unpack('U*')
=> [61549]

view · edit · sidebar · attach · print · history
Page last modified on April 27, 2012, at 07:48 AM